ICONN 1 训练数据

社区文章 发布于2025年6月19日

ICONN 1 是在各种数据集上训练的,没有这些数据集就不可能构建此模型。主要来源包括:

  • nkandpa2/cccc_all_domains
    处理成问答(QA)对以进行有效训练。

  • open-thoughts/OpenThoughts3-1.2M
    一个全面的开源数据集集合。

  • HuggingFaceFW/fineweb 的片段
    在知识共享许可下策展的内容。

...还有更多!

我们衷心感谢所有数据集创建者,无论是开发这些数据集还是将其格式化为问答对的。


注意:ICONN 1 的所有训练数据均为完全开源。
如果您认为任何包含的数据集不符合开源标准,请立即联系我们。

社区

注册登录 发表评论