使用 TRL 学习链接炸弹从零到英雄 💣
TRL 是 LLM 后训练的支柱。当然,还有 Unsloth、Axolotl 和 AutoTrain 等可靠替代品,但如果你需要一个从试验到生产的日常驱动器,TRL 就能胜任。
问题是?没有一站式课程涵盖整个过程。谢天谢地,社区非常棒,所以我们把它整合起来了!
这里有六个一流的、直截了当的课程,深入探讨了 TRL 的核心功能!
1. 如何使用 ChatML 和 Hugging Face TRL 微调 Google Gemma
从一个专注于 SFT 和数据格式的清晰笔记本开始。这篇博客文章将介绍如何使用 Hugging Face 的 TRL 库和 ChatML 格式微调 Google Gemma LLM。它涵盖了环境设置、数据集准备以及利用 SFTTrainer 和 QLoRA 在消费级 GPU 上进行高效训练,最后进行对话提示的推理测试。
https://www.philschmid.de/fine-tune-google-gemma
作者:Phil Schmid
2. 微调 LLM 以 JSON 格式生成波斯语产品目录
基于相同的类别进行构建,但要包含输出结构和推理。了解如何使用 QLoRA 和 PEFT 微调 Llama-2-7B 模型,以生成结构化的波斯语产品目录。本指南涵盖了数据集准备、在消费级 GPU 上进行高效微调,以及使用快速 Vllm 引擎部署模型进行推理。
如何使用 Hugging Face TRL 微调多模态模型或 VLM
将我们的 SFT 技能应用于视觉语言模型。掌握使用 TRL 和 QLoRA 微调视觉语言模型(例如 Qwen2-VL-7B)。本指南解释了如何设置数据集、定义提示以及使用 SFTTrainer 进行多模态任务,例如生成对 SEO 友好的描述。
https://www.philschmid.de/fine-tune-multimodal-llms-with-trl
作者:Phil Schmid
使用 Hugging Face 生态系统 (TRL) 微调视觉语言模型 (Qwen2-VL-7B)
在这些视觉技能的基础上,处理更复杂的视觉任务。本教程展示了如何使用 ChartQA 数据集微调 Qwen2-VL-7B 模型以进行视觉问答。它包括数据准备、使用 QLoRA 进行内存高效训练,以及探索提示作为微调的替代方案。
https://huggingface.co/learn/cookbook/fine_tuning_vlm_trl
使用直接偏好优化微调 Mistral-7b
转到 DPOTrainer 和偏好数据。本实用指南演示了如何使用直接偏好优化 (DPO) 微调 Mistral-7b,以使模型输出与人类偏好保持一致。它强调了数据集准备、训练和评估,以提高排行榜性能。
https://mlabonne.github.io/blog/posts/Fine_tune_Mistral_7b_with_DPO.html
使用 ORPO 微调 Llama 3
了解 ORPO 如何将指令调优和偏好对齐结合到一个单一过程中,从而简化使用 TRL 在 Llama 3 8B 上进行微调。了解此方法如何提高效率和对齐,同时减少训练步骤。
https://mlabonne.github.io/blog/posts/2024-04-19_Fine_tune_Llama_3_with_ORPO.html
这些教程提供了全面而简洁的 TRL 路线图,涵盖了各种微调和对齐场景,让您可以更轻松地将尖端技术应用于您的 LLM 项目。
请告诉我这是否有用
这些教程提供了一个全面而简洁的 TRL 路线图,涵盖了主要的微调和对齐类别。如果您希望获得关于 TRL 基础知识的专属课程 🤔,请告诉我,我将着手准备。