不吹牛:Kimi K2 评测
人工智能领域有很多炒作,所以我们决定深入研究,不吹牛,不夸大 🚀 本周,我们将深入探讨 Moonshot AI 的 Kimi K2 模型,它被宣传为目前最好的开源推理模型。在这篇文章中,我们将探讨 Kimi K2 是什么,看看它的实际应用,并讨论它迄今为止的影响。
什么是 Kimi K2?
Kimi K2 Instruct 是 Moonshot AI 的指令遵循模型。它可以在 Hugging Face 上下载。模型页面强调了其主要功能。
主要创新
模型规模:Kimi K2 是一个拥有 1 万亿参数的专家混合 (MoE) 模型,是迄今为止发布的最大的开源模型。这种架构灵感来源于 DeepSeek V3,并与 DeepSeek V3 相似,展示了开源开发如何在此基础上不断改进以取得更好的结果。
MuonClip 优化器:Moonshot AI 声称开发了一种名为“Muon clip”的新型优化器。其理念是,我们可以用于训练大型语言模型的高质量代币供应有限,这类似于用于推动经济发展的化石燃料供应有限。这种优化器据说可以实现更高效的训练,从而在固定数量的代币下获得更好的结果。
代理式编码和工具使用:Kimi K2 旨在擅长代理式编码、推理和使用工具。这意味着它应该能够有效地利用模型上下文协议 (MCP) 服务器(无论是使用 Gradio 还是其他框架构建)来完成任务。
基准测试
Moonshot AI 提供了 Kimi K2 与 DeepSeek、Qwen 和一些专有模型的基准测试对比。简单来说,Kimi K2 在 SWE-bench 基准测试中优于所有其他开源模型和 OpenAI 的 GPT-4.1,并且几乎与 Claude 4 持平。它也被吹捧为 Live Code Bench v6 上的最佳模型,表明其在代理用例和编码方面的实力。
Kimi K2 的实际应用
让我们看看 Kimi K2 如何使用 Hugging Face 上托管的应用程序执行两个代理编码任务。
示例 1:使用 Deepsite 制作交互式世界地图
我们使用了 Deepsite,一个用于使用开源模型生成代码的应用程序,并选择了 Kimi K2 Instruct。我们提示它创建一个交互式世界地图,当鼠标悬停在一个国家上时,会显示其首都、国旗和人口等基本信息,所有这些都以老式地图的美学风格呈现。
该模型在不到一分钟的时间内就生成了地图,这对于一个 1 万亿参数的模型来说非常令人印象深刻。虽然存在一些小错误,例如首都和人口数据显示“未知”,并且没有国旗,但地图本身是准确的,并且符合所要求的样式。这些数据问题可以通过进一步迭代轻松修复。
示例 2:使用 AnyCoder 重新设计网站
接下来,我们尝试了 AnyCoder,这是另一个托管在 Hugging Face 上的应用程序,非常适合重新设计网站。我们使用 Kimi K2 并要求它以赛博朋克美学风格重新设计我的个人网站。
模型的生成速度很快,结果令人印象深刻,很好地符合了赛博朋克美学。与原始网站相比,重新设计是一个显著的改进。这些示例证明了 Kimi K2 在从简单提示生成代码方面的熟练程度,并且能够对结果进行进一步迭代。
Kimi K2 迄今为止的影响
尽管 Kimi K2 的基准测试和实际结果都很强大,但其反响却有些平淡。查看 Hugging Face 的下载量,DeepSeek V3 上个月的下载量超过 40 万,而 Kimi K2 的下载量不到 10 万。这种显著的差距表明 Kimi K2 的采用率并没有预期那么高。
此外,大多数流行的人工智能编码助手,如 VS Code、Cursor 和 Replit,尚未添加对 Kimi K2 的原生支持。虽然可以配置这些工具来使用自定义模型,但缺乏原生支持可能会导致采用率较低。其原因尚不完全清楚;可能是由于模型规模过大,推理更具挑战性,或者可能只是社区围绕该模型达成共识需要时间。
结论
总而言之,Kimi K2 是一个来自同样令人印象深刻的人工智能实验室的非常出色的模型。它展现出巨大的潜力,尤其是在代理编码和推理任务方面。Moonshot AI 接下来会发布什么,以及开源大型语言模型的格局将如何继续演变,都将令人兴奋。
更正:Kimi K2 的下载量在上个月已跃升至 20 万!