Agents 课程文档
简介
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
简介
欢迎来到第一个奖励单元,在这里您将学习微调大型语言模型 (LLM) 以进行函数调用。
就 LLM 而言,函数调用正迅速成为一项必备技术。
想法是,与像我们在单元 1 中那样仅依赖于基于提示的方法不同,函数调用训练您的模型在训练阶段采取行动并解释观察结果,从而使您的 AI 更加强大。
我应该何时学习这个奖励单元?
本节是可选的,并且比单元 1 更高级,所以请毫不犹豫地现在学习本单元,或者在您通过本课程知识得到提升后重新学习。
但请不要担心,这个奖励单元旨在提供您所需的所有信息,因此即使您尚未学习微调的内部运作方式,我们也将引导您完成为函数调用微调模型的每个核心概念。
您能够学习本奖励单元的最佳方式是
您将学到什么
函数调用
现代 LLM 如何构建它们的对话,有效地让它们触发工具。LoRA (低秩自适应)
一种轻量级且高效的微调方法,可减少计算和存储开销。 LoRA 使训练大型模型更快、更便宜、更易于部署。函数调用模型中的 思考 → 行动 → 观察 循环
一种简单但强大的方法,用于构建您的模型如何决定何时(以及如何)调用函数、跟踪中间步骤以及解释来自外部工具或 API 的结果。新的特殊 tokens
我们将介绍特殊标记,以帮助模型区分- 内部“思维链”推理
- 出站函数调用
- 来自外部工具的响应
在本奖励单元结束时,您将能够
- 理解当涉及到工具时,API 的内部运作方式。
- 使用 LoRA 技术微调模型。
- 实施和修改思考 → 行动 → 观察循环,以创建健壮且可维护的函数调用工作流程。
- 设计和利用特殊 tokens,以无缝地将模型的内部推理与其外部行动分离。
并且您将已经微调了自己的模型以进行函数调用。 🔥
让我们深入函数调用!
< > 在 GitHub 上更新