LLM 课程文档
自然语言处理与大型语言模型
并获得增强的文档体验
开始使用
自然语言处理与大型语言模型
在深入了解 Transformer 模型之前,让我们先快速概述一下什么是自然语言处理,大型语言模型如何改变了该领域,以及我们为什么关心它。
什么是 NLP?
NLP 是语言学和机器学习的一个领域,专注于理解与人类语言相关的一切。NLP 任务的目标不仅是理解单个词语,还要能够理解这些词语的上下文。
以下是一些常见的 NLP 任务列表,并附带了一些例子
- 对整个句子进行分类:获取评论的情感、检测电子邮件是否为垃圾邮件、判断句子是否语法正确,或两个句子是否在逻辑上相关。
- 对句子中的每个词进行分类:识别句子的语法成分(名词、动词、形容词),或命名实体(人名、地名、组织名)。
- 生成文本内容:用自动生成的文本补全提示,或用掩码词填补文本中的空白。
- 从文本中提取答案:给定一个问题和一个上下文,根据上下文中提供的信息提取问题的答案。
- 根据输入文本生成新句子:将文本翻译成另一种语言,或对文本进行总结。
NLP 并不局限于书面文本。它还处理语音识别和计算机视觉中的复杂挑战,例如生成音频样本的转录文本或图像的描述。
大型语言模型(LLM)的兴起
近年来,NLP 领域被大型语言模型(LLM)彻底改变。这些模型,包括像 GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)和 Llama 这样的架构,已经改变了语言处理的可能性。
大型语言模型(LLM)是一种在海量文本数据上训练的 AI 模型,它能够理解和生成类似人类的文本、识别语言中的模式,并无需针对特定任务进行训练即可执行各种语言任务。它们代表了自然语言处理(NLP)领域的重大进步。
LLM 的特点是:
- 规模:它们包含数百万、数十亿甚至数千亿个参数。
- 通用能力:它们可以执行多种任务,而无需针对特定任务进行训练。
- 上下文学习:它们可以从提示中提供的示例中学习。
- 涌现能力:随着这些模型规模的增长,它们展示出未被明确编程或预期的能力。
LLM 的出现改变了以往为特定 NLP 任务构建专门模型的范式,转而使用一个单一的大型模型,通过提示或微调来处理广泛的语言任务。这使得复杂的语言处理变得更加普及,同时也带来了效率、伦理和部署等方面的新挑战。
然而,LLM 也有重要的局限性:
- 幻觉:它们可能会自信地生成不正确的信息。
- 缺乏真正的理解:它们缺乏对世界的真正理解,纯粹基于统计模式进行操作。
- 偏见:它们可能会复现其训练数据或输入中存在的偏见。
- 上下文窗口:它们的上下文窗口有限(尽管这一点正在改进)。
- 计算资源:它们需要大量的计算资源。
为什么语言处理具有挑战性?
计算机处理信息的方式与人类不同。例如,当我们读到“我饿了”这个句子时,我们能轻易理解它的意思。同样,给定两个句子,如“我饿了”和“我很难过”,我们能轻易判断它们的相似程度。对于机器学习(ML)模型来说,这类任务要困难得多。文本需要经过处理,才能让模型从中学习。由于语言的复杂性,我们需要仔细考虑如何进行这种处理。关于如何表示文本,已经有很多研究,我们将在下一章探讨一些方法。
即使 LLM 取得了进步,许多根本性的挑战依然存在。这些挑战包括理解歧义、文化背景、讽刺和幽默。LLM 通过在多样化的数据集上进行大规模训练来应对这些挑战,但在许多复杂场景中,它们仍然无法达到人类水平的理解能力。
< > 在 GitHub 上更新