基于YandexGPT 5 Lite的模型摘要
最近,Yandex在Hugging Face上开源了其新模型——
YandexGPT 5 Lite Pretrain
。该模型旨在进一步微调和研究。社区迅速开始针对各种任务对该模型进行微调。以下是基于该模型开发的微调模型摘要。
关于模型
YandexGPT 5 Lite 是一个拥有80亿参数的模型,旨在处理扩展上下文(高达32k token),并针对俄语和英语进行了优化。
预训练分为两个阶段
- 阶段1: 一个通用的语言模型,在俄语和英语文本语料库上进行训练,总计15万亿个token(60%网页,15%代码,10%数学等),上下文长度可达8k token。
- 阶段2: 在高质量数据上进行微调(总计3200亿个token:25%网页,19%数学,18%代码,18%教育数据等),上下文长度增加到32k token,并使用了额外的合成信息。
用途:
该模型用于文本续写,可作为进一步适应特定任务的基础。
指令模型
这些模型经过“提示-回答”对的额外训练,以提高对话质量并产生指令性回答。
1. Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
描述: 使用监督微调(SFT)在合成数据集(如GrandMaster-PRO-MAX和Grounded-RAG-RU-v2)上进行微调。
能力: 支持对话,生成精确的指令响应,并促进双语(俄语/英语)交流。
2. IlyaGusev/saiga_yandexgpt_8b
描述: 基于
YandexGPT 5 Lite Pretrain
,并针对特定任务进行了额外的微调。通过关注其分词器特性进行优化,提高了实际场景中的生成质量。应用: 非常适合开发需要模型适应特定用例和改进输入处理的应用程序。
结果:
Saiga YandexGPT 8B
在Russian Leaderboard v2
中取得了高分,尤其是在流畅性(5分中4.98分)和上下文保留(5分中4.71分)方面。在额外测试中,其各种版本得分介于37.5至43.1之间,表明生成稳定性具有中等变异性。
量化模型
量化减少了内存需求并加快了推理速度,这对于资源有限的设备和边缘部署用例至关重要。有几种基于YandexGPT 5 Lite Pretrain
的变体可用,例如:
yaroslav0530/YandexGPT-5-Lite-8B-pretrain-GGUF 另一种平衡生成质量和效率的量化选项。
blues-alex/YandexGPT-5-Lite-8B-pretrain-Q4_K_M-GGUF 另一种4位量化实现,其特性与shoplikov的模型相似。
Ronny/YandexGPT-5-Lite-8B-pretrain-Q8_0-GGUF 使用8位量化(Q8)实现高质量生成,推理速度更快。
NikolayKozloff/YandexGPT-5-Lite-8B-pretrain-Q8_0-GGUF 类似的Q8量化变体,针对有限资源下的稳定性能进行了微调。
holooo/YandexGPT-5-Lite-8B-pretrain-Q5_K_M-GGUF 一个5位量化(Q5)模型,针对对话任务和生成指令性回答进行了优化。
Nick0lay13/YandexGPT-5-Lite-8B-pretrain-Q8_0-GGUF 另一个专注于速度和稳定性的Q8变体。
shoplikov/YandexGPT-5-Lite-8B-pretrain-Q4_K_M-GGUF 一个4位量化模型(Q4),显著减少内存使用并加快推理速度,而没有明显的质量损失。
mlx-community/YandexGPT-5-Lite-8B-pretrain-Q8-mlx 一个8位量化选项,可在Apple设备上使用MLX运行时运行。
根据项目的需求,开发者可以选择性能和质量之间的最佳平衡。
LoRA适配器
LoRA(低秩适应)能够对基础模型进行有针对性的微调,以增强特定功能(例如,逻辑推理),而无需重新训练整个网络。这降低了计算成本,同时保持了生成质量。
evilfreelancer/r1_yandexgpt5-lite_lora
- 描述:此LoRA适配器在旨在改进逻辑推理的数据集(r1方法)上进行微调。通过额外调整,该模型可以模仿逐步逻辑推理,类似于专业模型(例如
DeepSeek
的r1
或OpenAI
的o1
)。
结论
基础模型YandexGPT 5 Lite Pretrain
是进一步适应的通用基础。通过微调该模型,研究人员和开发者可以创建针对各种自然语言处理任务量身定制的强大解决方案。
- 指令模型(例如,
Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
和IlyaGusev/saiga_yandexgpt_8b
)擅长进行对话,并以俄语和英语生成连贯的文本。 - 量化模型通过压缩原始架构优化资源使用,减少存储需求和推理时间,同时不显著损害质量。
- LoRA适配器选择性地改进特定方面,例如逻辑推理或领域特定知识。它们最大限度地降低了计算成本,同时提供了有针对性的性能提升。
每个微调版本都根据其特定用例进行定制,并可能包括额外的微调步骤,例如专门的SFT数据或分词器改进,从而在所选领域中获得更高质量的生成。