LLM 课程文档
自然语言处理和大型语言模型
并获得增强的文档体验
开始
自然语言处理和大型语言模型
在深入研究 Transformer 模型之前,让我们快速概述一下什么是自然语言处理,大型语言模型如何改变了这个领域,以及我们为什么关注它。
什么是 NLP?
NLP 是语言学和机器学习的一个领域,专注于理解与人类语言相关的一切。NLP 任务的目标不仅是单独理解单个词,还要能够理解这些词的上下文。
以下是一些常见的 NLP 任务列表,以及每个任务的一些示例
- 对整个句子进行分类:获取评论的情感,检测电子邮件是否为垃圾邮件,确定句子在语法上是否正确,或者两个句子在逻辑上是否相关
- 对句子中的每个词进行分类:识别句子的语法成分(名词、动词、形容词),或命名实体(人、地点、组织)
- 生成文本内容:使用自动生成的文本完成提示,用掩码词填充文本中的空白
- 从文本中提取答案:给定一个问题和一个上下文,根据上下文中提供的信息提取问题的答案
- 从输入文本生成新句子:将文本翻译成另一种语言,总结文本
NLP 不仅限于书面文本。它还应对语音识别和计算机视觉中的复杂挑战,例如生成音频样本的文字记录或图像的描述。
大型语言模型 (LLM) 的兴起
近年来,自然语言处理领域已被大型语言模型 (LLM) 革新。这些模型,包括 GPT(生成式预训练 Transformer)和 Llama 等架构,已经改变了语言处理的可能性。
LLM 的特点是
- 规模:它们包含数百万、数十亿甚至数千亿个参数
- 通用能力:它们可以执行多项任务,而无需特定于任务的训练
- 上下文学习:它们可以从提示中提供的示例中学习
- 涌现能力:随着这些模型规模的增长,它们展现出未明确编程或预期的能力
LLM 的出现已经改变了范式,从为特定的 NLP 任务构建专门的模型,转变为使用可以提示或微调的单个大型模型来解决广泛的语言任务。这使得复杂的语言处理更易于访问,同时也带来了效率、伦理和部署等领域的新挑战。
为什么语言处理具有挑战性?
计算机处理信息的方式与人类不同。例如,当我们阅读句子“I am hungry”时,我们可以很容易地理解它的意思。同样,给定两个句子,例如“I am hungry”和“I am sad”,我们可以很容易地确定它们的相似程度。对于机器学习 (ML) 模型来说,这些任务更困难。文本需要以一种使模型能够从中学习的方式进行处理。而且由于语言是复杂的,我们需要仔细考虑如何进行这种处理。关于如何表示文本已经进行了大量研究,我们将在下一章中介绍一些方法。
即使有了 LLM 的进步,许多根本性的挑战仍然存在。这些挑战包括理解歧义、文化背景、讽刺和幽默。LLM 通过在多样化的数据集上进行大规模训练来应对这些挑战,但在许多复杂场景中仍然常常达不到人类水平的理解。
< > 在 GitHub 上更新