NLP 课程文档

自然语言处理

Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始

自然语言处理

Ask a Question

在深入探讨 Transformer 模型之前,让我们快速了解一下什么是自然语言处理,以及为什么我们关心它。

什么是 NLP?

NLP 是语言学和机器学习的一个领域,专注于理解与人类语言相关的一切。NLP 任务的目标不仅仅是理解单个词语,而是能够理解这些词语的上下文。

以下是常见 NLP 任务的列表,以及每个任务的一些示例

  • 对整个句子进行分类:获取评论的情感,检测电子邮件是否为垃圾邮件,确定句子是否语法正确或两个句子是否逻辑相关
  • 对句子中的每个词进行分类:识别句子的语法成分(名词、动词、形容词),或命名实体(人、地点、组织)
  • 生成文本内容:用自动生成的文本完成提示,用掩码词填补文本中的空白
  • 从文本中提取答案:给定问题和上下文,根据上下文中提供的信息提取问题的答案
  • 根据输入文本生成新的句子:将文本翻译成另一种语言,总结文本

NLP 并不局限于书面文本。它还解决了语音识别和计算机视觉中的复杂挑战,例如生成音频样本的转录或图像的描述。

为什么具有挑战性?

计算机不像人类那样处理信息。例如,当我们阅读句子“我饿了”时,我们可以很容易地理解它的意思。同样,给定两个句子,例如“我饿了”和“我很难过”,我们能够很容易地确定它们的相似程度。对于机器学习 (ML) 模型来说,这些任务更难。文本需要以一种使模型能够从中学习的方式进行处理。由于语言很复杂,我们需要仔细思考如何进行这种处理。关于如何表示文本的研究有很多,我们将在下一章中介绍一些方法。