自然语言处理与大型语言模型

在深入了解 Transformer 模型之前，让我们先快速概述一下什么是自然语言处理，大型语言模型如何改变了该领域，以及我们为什么关心它。

什么是 NLP？

NLP 是语言学和机器学习的一个领域，专注于理解与人类语言相关的一切。NLP 任务的目标不仅是理解单个词语，还要能够理解这些词语的上下文。

以下是一些常见的 NLP 任务列表，并附带了一些例子

对整个句子进行分类：获取评论的情感、检测电子邮件是否为垃圾邮件、判断句子是否语法正确，或两个句子是否在逻辑上相关。
对句子中的每个词进行分类：识别句子的语法成分（名词、动词、形容词），或命名实体（人名、地名、组织名）。
生成文本内容：用自动生成的文本补全提示，或用掩码词填补文本中的空白。
从文本中提取答案：给定一个问题和一个上下文，根据上下文中提供的信息提取问题的答案。
根据输入文本生成新句子：将文本翻译成另一种语言，或对文本进行总结。

NLP 并不局限于书面文本。它还处理语音识别和计算机视觉中的复杂挑战，例如生成音频样本的转录文本或图像的描述。

大型语言模型（LLM）的兴起

近年来，NLP 领域被大型语言模型（LLM）彻底改变。这些模型，包括像 GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）和 Llama 这样的架构，已经改变了语言处理的可能性。

大型语言模型（LLM）是一种在海量文本数据上训练的 AI 模型，它能够理解和生成类似人类的文本、识别语言中的模式，并无需针对特定任务进行训练即可执行各种语言任务。它们代表了自然语言处理（NLP）领域的重大进步。

LLM 的特点是：

规模：它们包含数百万、数十亿甚至数千亿个参数。
通用能力：它们可以执行多种任务，而无需针对特定任务进行训练。
上下文学习：它们可以从提示中提供的示例中学习。
涌现能力：随着这些模型规模的增长，它们展示出未被明确编程或预期的能力。

LLM 的出现改变了以往为特定 NLP 任务构建专门模型的范式，转而使用一个单一的大型模型，通过提示或微调来处理广泛的语言任务。这使得复杂的语言处理变得更加普及，同时也带来了效率、伦理和部署等方面的新挑战。

然而，LLM 也有重要的局限性：

幻觉：它们可能会自信地生成不正确的信息。
缺乏真正的理解：它们缺乏对世界的真正理解，纯粹基于统计模式进行操作。
偏见：它们可能会复现其训练数据或输入中存在的偏见。
上下文窗口：它们的上下文窗口有限（尽管这一点正在改进）。
计算资源：它们需要大量的计算资源。

为什么语言处理具有挑战性？

计算机处理信息的方式与人类不同。例如，当我们读到“我饿了”这个句子时，我们能轻易理解它的意思。同样，给定两个句子，如“我饿了”和“我很难过”，我们能轻易判断它们的相似程度。对于机器学习（ML）模型来说，这类任务要困难得多。文本需要经过处理，才能让模型从中学习。由于语言的复杂性，我们需要仔细考虑如何进行这种处理。关于如何表示文本，已经有很多研究，我们将在下一章探讨一些方法。

即使 LLM 取得了进步，许多根本性的挑战依然存在。这些挑战包括理解歧义、文化背景、讽刺和幽默。LLM 通过在多样化的数据集上进行大规模训练来应对这些挑战，但在许多复杂场景中，它们仍然无法达到人类水平的理解能力。

< > 在 GitHub 上更新

LLM 课程

自然语言处理与大型语言模型

什么是 NLP？

大型语言模型（LLM）的兴起

为什么语言处理具有挑战性？