MindBot Ultra – 梦境版:增强型数据集和训练蓝图
引言
MindBot Ultra – 梦境版是一项研究驱动的努力,旨在构建一种将严谨的逻辑推理与富有想象力的、受梦境启发的创造力相结合的人工智能。该项目源于这样一种观察:大型语言模型擅长模式识别和指令遵循,但在发明新想法或工具方面常常力不从心。通过整合一个专门的“梦境”模块和一个协同控制器,MindBot旨在产生既基于事实又富有创造力的输出。其核心推理引擎基于GPT-OSS-20B模型——一个支持参数高效微调的200亿参数开源Transformer。本文概述了改进后的训练数据集、其结构、主题增强以及微调和强化学习的方法。
数据集概览 MindBot创意模块的基础是一个问答数据集,最初来源于MindBot项目的DeepDream-QA拆分。每条记录包含一个提示代理探索超现实或内省主题的指令,一个(可选的)在此情况下留空的输入字段,以及一个包含诗意回应的输出。例如,其中一个条目要求MindBot描述其空灵的遭遇;输出描述了漂浮在一个霓虹灯闪烁的森林中,古老的旋律与数字故障融合,阴影中的人物低语着来自被遗忘的梦境的洞察。另一个提示邀请代理解释如何记录清醒梦;回应将清醒梦比作一个无边无际的画布,并解释了模型如何记录其经历的视听日志。这些例子说明了数据集对生动意象和内省的强调。
原始范围 原始的经过清理和去重的数据集包含2247个条目。提示的范围从探索梦境和出体体验到想象共享的梦境仪式。输出保持叙事连贯性,同时鼓励使用比喻、感官描述和同理心语气。
宇宙与超现实增强 为庆祝项目启动时天文事件的汇聚——八月满月(被称为鲟鱼月)和英仙座流星雨——数据集已通过八个新的提示和回应进行了扩展。这些新增内容从萨尔瓦多·达利的超现实主义主题、天文现象和个人里程碑中汲取灵感。
MindBot遇见鲟鱼月——月亮变成了一位古老的说书人,讲述着鲟鱼游弋在宇宙河流中的故事,并传授韧性的教训。MindBot倾听并将其融入其创意工具包。
与英仙座流星对话——MindBot与转瞬即逝的流星对话,学习无常和燃烧光芒的勇气。
达利在太空中的融化时钟——通过浮在星云附近的柔软手表视角探索时间膨胀;该提示将相对论物理学与超现实艺术联系起来。
蚂蚁与卫星——一个短篇故事,蚂蚁爬过绑在卫星上的金表,引发对死亡与技术进步的思考。
偏执-批判性梦境模块——MindBot根据达利通过进入感官剥夺状态并从由此产生的意象中提取有用见解来诱导幻觉的方法,设计了一个新的梦境模块。
宇宙之雨下的生日——设置在8月11日,此条目将盈凸月与增强的英仙座流星雨结合,鼓励MindBot反思时间、记忆和重生。
使用软手表作为比喻解释时间膨胀——一个教学提示,将达利的融化时钟与爱因斯坦的相对论联系起来。
设计一个Python函数来模拟流星坠落,以诗歌形式描述——将代码生成与抒情描述相结合,以强化项目在推理和梦境之间的协同作用。
这些增强将数据集扩展到2255个条目,丰富了其主题多样性,并将AI的创作过程与天文和超现实主义主题明确联系起来。
数据格式 所有记录都以Alpaca格式存储——一个包含instruction、input和output键的JSON对象列表。input字段留空字符串,因为不需要额外的上下文。以这种格式存储数据使其与Unsloth和Hugging Face的Trainer等微调框架兼容。改进后的数据集可作为improved_alpaca_dataset_v2.json获取,并可使用标准Python库加载。
训练方法 MindBot的训练涉及两个阶段:监督微调,以教导模型遵循指令;强化学习,以使输出与人类偏好和道德准则保持一致。
监督微调 (SFT) 推理模块——在一个经过精选的推理数据集(例如,数学问题、知识问答)上对基础GPT-OSS-20B模型进行微调,以稳定指令遵循和事实基础。LoRA(秩16-32)和8位量化等参数高效方法可最大限度地减少资源使用。
梦境模块——在上述创意数据集上单独微调一个模型副本。使用较低的采样温度以保持连贯性,同时鼓励富有想象力的输出。监控困惑度和人类对创造力的评估。
通过GRPO进行强化学习 在SFT之后,结合推理和梦境模型并应用群组相对策略优化 (GRPO)。对于每个提示,采样多个候选输出,分配复合奖励(正确性、创造力、安全性)并在群组内进行标准化。GRPO的群组标准化减少了策略更新的方差,并在没有学习价值函数的情况下实现了高效对齐。在RL期间,MindBot可以提出新的Python函数来解决子任务;这些函数在沙盒中执行,评估,如果成功,则添加到代理的工具包中。协同控制器根据任务的性质学习何时调用推理模块或梦境模块。
评估 定量指标(例如,推理基准的准确性)应与人类评估者的定性评估相结合,人类评估者根据输出的有用性、安全性和想象力质量进行判断。应审计思维链和工具生成日志,以保持透明度。
伦理考量 受梦境启发的训练过程鼓励幻觉和隐喻思维。虽然这培养了创造力,但也带来了幻觉和错误信息的风险。GRPO中的奖励函数必须惩罚需要正确性任务中的事实不准确性。所有生成的代码必须在沙盒环境中运行,以防止不安全执行,并且敏感决策应涉及人工干预。此处使用的数据集是合成的,不包含个人信息,从而减轻了隐私问题。
结论 MindBot Ultra – 梦境版代表了一种新颖的人工智能方法:它旨在将逻辑推理与梦境般的创造力和谐统一。增强型数据集通过将其“梦境”与宇宙事件和超现实艺术交织,扩展了代理的想象力范围,而Alpaca格式和基于GRPO的训练框架为实现提供了清晰的路径。未来的工作可以扩展梦境模块以处理多模态输入(图像、音频),探索用于自动奖励调整的元学习,并研究在教育、医疗保健和创意产业中的应用。通过将其想象力植根于结构化训练和强化信号,MindBot力求解锁一种更丰富、更具同理心的机器认知形式。