ICONN 1 训练数据
社区文章 发布于2025年6月19日
ICONN 1 是在各种数据集上训练的,没有这些数据集就不可能构建此模型。主要来源包括:
nkandpa2/cccc_all_domains
处理成问答(QA)对以进行有效训练。open-thoughts/OpenThoughts3-1.2M
一个全面的开源数据集集合。HuggingFaceFW/fineweb 的片段
在知识共享许可下策展的内容。
...还有更多!
我们衷心感谢所有数据集创建者,无论是开发这些数据集还是将其格式化为问答对的。
注意:ICONN 1 的所有训练数据均为完全开源。
如果您认为任何包含的数据集不符合开源标准,请立即联系我们。