哪个代码生成代理胜出?

社区文章 发布于 2025 年 6 月 26 日

🔳 15 款 AI 编码工具的实操比较:涵盖 IDE、CLI、全栈代理和混合平台

今天是代理工作流程系列非常特别的一期。到目前为止,我们一直在彻底系统化地整理关于代理和代理系统迅速兴起的知识。但本周,我们决定做一些改变,进行一次实操评估

我们从热门话题开始:编码代理。因为 → 不使用 AI 编写代码?那可是 2024 年末的老掉牙了。

从头开始一行一行地编写代码,没有智能代理在耳边低语(或者更准确地说,将拉取请求强行推入你的仓库)的时代已经过去。我们已经向前迈进。炒作周期已经过去,尘埃开始落定,我们留下的是一个充满软件代理的景象——所有这些都承诺彻底重塑工程工作流程。它们存在于我们的 IDE 中,我们的 CLI 中,其中一些就是整个堆栈。

因此,我们为您呈现的不是一份枯燥的基准测试,而是对截至 2025 年 6 月市场上最受关注的 15 款编码代理进行的一次有力、真实的检验。

我有一种冲动,想把一些东西塞进这个笨拙的玩意儿,只是为了不让那里有一个愚蠢的空截图,因为它太笨了等等——这让你瞥见了使用这个工具会让你感觉如何,特别是考虑到其潜力。

让你感受测试者的情感投入

我们对它们在四个类别中进行了正面比较——IDE 代理、CLI 代理、全栈代理和混合平台。每个代理都由 AI 在五个核心维度上评分:代码、测试、工具、文档和完善度(总分 25 分)。此外,AI 还将代理评为“是否建议雇佣此开发者”。

我们还加入了人工部分(非常重要的一部分!)

  1. 对人类来说实现起来有多困难
  2. 它会带来喜悦吗?

我们还标明了“一次成功”和“两次成功”,以表明代理是立即成功还是需要重试才能正常运行。

结果清晰地展示了谁是领先者,谁是落后者,以及哪些工作流程现在值得您投入时间。这也会是一段您会享受的非常情感化的旅程。深入了解吧!


如果您想深入了解并下载完整的 61 页详细报告,请点击此处 [https://www.turingpost.com/c/coding-agents-2025]。没有赞助商,只是无法将这份巨大的报告发布到其他地方。不过,我们会要求您订阅我们的时事通讯。


测试:非专业用户的赋能

为了公平起见,我们没有耍花招。我们给每个代理在干净、空的仓库中提供了完全相同的提示:一个简单的 Node.js 网络应用程序,用于收集、投票和批注想法——包含 Docker 化和单元测试。提示很直接,但有意地有点“不够明确,考虑不周”,就像现实世界中的初稿想法一样。

构建一个简单的网络应用程序,方便收集想法。用户应该能够输入新想法,查看现有想法列表,并能够对其进行“投票”,这将使它们在列表中向上移动。用户还应该能够为想法添加注释,如果他们想要更多细节,包括附加文件。使用 Node 构建,并部署在带有持久存储卷的 Docker 容器中,并确保所有内容都有单元测试。

Will Schenk 的提示

然后,我们让它们自行处理。我们只是盲目地“放手一搏”。没有手把手指导。没有中途的代码审查。我们想看看会发生什么。换句话说,我们正在测试非专业用户的赋能。这些工具能否接受一个模糊的想法,并直接开箱即用地实现一些真实的东西?

这是代理最简单的任务——一个没有遗留代码或约束的全新项目。如果它们连这个都处理不了,那它们也处理不了多少。完整报告详细介绍了每个工具的每一步过程,从设置和安装到最终常常令人惊讶的输出。还有很多犀利的评论!

未来的感受:是带来喜悦,还是带来沮丧?

一个工具不仅仅是它的输出。它关乎开发者体验 (DX)。用起来感觉好吗?它让你感到强大吗?还是让你想把笔记本电脑扔出窗外?我们根据“引发喜悦”指标对每个代理进行了评分,结果……各不相同。

image/png 欢迎分享此内容并附上链接 https://www.turingpost.com/c/coding-agents-2025

有些工具让人感到“舒适”,比如 OG 代理 Aider。它是一种复古,提醒着这一切是如何开始的,即使基于 Git 的工作流程现在有点麻烦。其他工具则带来了纯粹的、未受污染的魔力。Claude Code 产生了一个“灯光闪烁!”的时刻——那种灯光闪烁,你意识到“它能用!它在思考!”的感觉。对于 Cursor+ 来说,这种感觉是完全的“100%”喜悦,那种“嗯,这很有趣”的发现时刻,很快就变成了“全力冲刺”的创造力爆发。

image/png 那是 Aider

然后是硬币的另一面。

当前形式的标准 Copilot 体验带来了“极度沮丧”。我当时正在寻找“笨蛋脸”或“臭屁头”的专业术语。它的承诺是如此巨大,潜力是如此清晰,以至于它的磕磕绊绊令人恼火。搞什么鬼!如果这真的能用,那该多酷啊!而可怜的 Windsurf……我只能说我的反应是发自内心的:“我感到身体不适。”为什么?完整评论包含了我的心理治疗过程,但它是一个引人入胜的案例研究,说明了一个工具的呈现方式如何能立即产生直观的排斥,即使其底层技术有价值。

这些主观印象至关重要。它们是摩擦力、多巴胺的释放、以及决定一个工具是被采用还是被放弃的“小麻烦”。完整的报告(60 页,可在下方获取)提供了所有 15 个代理的详细操作过程,这样您就可以了解哪些代理能让您的团队感觉像超级英雄,哪些只会让他们感到悲伤。

输出:15 位初级开发者的故事

为了客观地评估最终代码,我们将每个代理视为一个提交家庭作业的初级开发者。我们甚至让 AI——Claude-3.7-Sonnet——执行了初步代码审查,根据代码质量、测试、工具、文档和整体完善度对每个项目进行了评分。

高级总结是:最佳与最差之间的差距是巨大的。

班级前三名并列,分别是 Cursor Background Agent (Cursor+)v0Warp,它们都获得了惊人的 24/25 分。这些工具生成的代码不仅功能齐全,而且专业、架构良好且可用于生产环境。它们满足了提示要求;它们预测了需求,并具有周到的架构和强大的 DevOps。特别是来自 Cursor 的代理,生成了一个“组织优秀、架构健壮”且具有“高级而非初级技能”的项目。

image/png Cursor 最终应用程序

Warp 的主要焦点甚至不是软件开发——它专注于成为“命令行高级用户”——但其幕后出色的思考和规划模型使其即使在其他更专业的工具中也能获得高分。

紧随其后的是 Copilot AgentJules,两者都获得了 21/25 分。它们展示了巨大的潜力,生成了干净、模块化且经过充分测试的应用程序。另一方面,像基础 CopilotWindsurf 这样的工具则以 13 分的成绩勉强冲过终点线。它们的输出“功能齐全但过于简单”,“测试实现不完整”且“文档稀疏”。它们满足了最低要求,但缺乏您自信发布所需的完善性和健壮性。

这些分数以及它们背后的 AI 驱动的详细评论是您的作弊码。想知道哪个代理编写的测试最好?或者哪个代理每次都能完美配置 Docker?主要文档中的表格和详细分解提供了答案。

建议:各司其职

那么,经过所有测试,谁赢了?这取决于你是谁。

对于软件专业人士:无可争议的冠军是 Cursor + Warp 的组合。 这个组合为您提供了专业开发人员的最佳工具范围。我们最终确定的工作流程是颠覆性的

  1. 从 ChatGPT 或 Claude 等模型开始,充实想法。
  2. 使用 Cursor Background Agentproduct-brief.md 中实现项目的核心。
  3. 然后,使用 Cursor IDE 雕琢代码,进行小而有针对性的更改。至关重要的是,您必须“始终强制它评估代码的当前状态,确保它首先编写测试,并保持一个 active-context.md。”
  4. 最后,当您进行部署时,切换到 Warp 处理 GitHub Actions、部署脚本以及所有命令行繁重工作。这种过渡是无缝的,感觉就像是未来的开发。

对于商业价值和休闲用户:Replit。如果你只是想解决一个实际问题,并且不担心被锁定,那么没有什么比它更容易的了。它是一个完整的、集成的开发和部署宇宙。可视化规划器很棒,后端服务一键可达,而且它就是能用。但请注意:你身处 Replit 世界,我们测试的提示甚至指出:“我们的开发环境中不提供 Docker 容器化。”你必须遵守他们的规则。

对于产品设计师和 UI 迭代:v0。如果你的目标是快速制作 UI 原型并向工程团队传达愿景,那么 v0 是最佳选择。它来自 Vercel,因此它喜欢 Next.js,并且对一键部署了如指掌。它生成的外观惊艳、架构良好的前端代码。它是“现代引导式”MVP 的王者。

对于项目和产品经理:评估 Copilot Agent 或 Jules。这些是值得关注的平台。它们“仍有待完善”,但在真正的 SDLC 集成方面表现出最大的潜力。Copilot Agent 与 GitHub 生态系统深度整合,在企业竞争中“具有压倒性优势”。如果它成熟,它可能会改变世界。

对于专家和修补者:RooCode 和 Goose。对于我们这些硬核用户,希望运行本地模型并拥有完全控制权,这些是您的工具。RooCode 是一个 VSCode 扩展,它“让世界变得更美好,因为它在这里”,允许您插入任何您想要的 LLM。Goose 是一个功能强大的基于 CLI 的系统,适用于主权开发者。性能差距仍然很大,但正如报告总结的那样,“最终开源工具会赢,或者至少我们会希望生活在一个它们能赢的世界里。”

这只是冰山一角。完整的 2025 年 6 月代码代理报告 包含了详细的开发者体验日志、最终应用程序(或错误消息)的屏幕截图,以及每个代理的完整 AI 代码审查。您必须查看详细结果。魔鬼和乐趣都在细节中。

image/png 欢迎分享此内容并附上链接 [https://www.turingpost.com/c/coding-agents-2025]

未完待续!

社区

注册登录 评论