🌁#87:为什么 DeepResearch 应该是你的新员工
– OpenAI 的这个新代理令人惊叹,而且——我不敢相信我会这么说——每月 200 美元也值
--
本周图灵邮报
- 周三,AI 101,技术:什么是代理链和 RAG 链
- 周五,代理工作流程:我们探索推理
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
主要话题——OpenAI 的 Deep Research 让我重新思考我的工作流程
Turing Post 运营精简,由两人全职负责。虽然我与一些值得信赖的贡献者合作,但大部分繁重的工作都是由 Alyona 和我完成的。我并没有积极寻找新成员加入团队——但我们现在做到了,我对此非常满意。
介绍我们的新员工:DeepResearch——每月 200 美元。
尽管 OpenAI 争议不断,但他们最新的发布 DeepResearch(说真的,你们需要提升命名水平了)却是一款颠覆性的产品。它并没有取代 Turing Post 的任何员工,但它显著减少了我们在研究密集型任务上花费的时间。过去需要花费大量时间的工作,现在只需一小部分时间就能完成。以至于我现在正在重新思考我行之有效的工作流程。
人们在网上怎么说?
我不需要放弃 Perplexity 订阅——我从未订阅过。相反,我一直在结合使用 Gemini Deep Research 和 ChatGPT o1 或 o3-mini 进行交叉提示,但 DeepResearch 可能会简化这个流程。它将工作流程从主动搜索转变为监督 AI 生成的研究过程。这是一种不同级别的实际帮助——就像拥有一个虚拟研究助理,你给他一个提示,他会自行工作,然后你回来时就能看到一份完成的分析。
我的总结是,DeepResearch 作为一个组织良好的起点非常棒。我还喜欢它给人的感觉像是一个工作代理的承诺。如果你的提示模糊不清,DeepResearch 会提出澄清问题,然后逐步进行。与单轮问答系统相比,结果是一个更强大、更具上下文感知能力的研究过程。或者——如果你不知道它问题的答案——只需说:“你知道我在做什么,就按你认为合适的方式去做。”它在自行解决问题方面做得相当好。非常棒。
它还理解时间范围:如果你需要 2 月 3 日到 2 月 10 日的最新材料,它会专门在该范围内进行搜索。
教授兼作家 Andrew Maynard 写道,在使用 DeepResearch 后,他“*开始怀疑,未经 AI 增强的研究和学术何时会被视为过时。*” “*使用它感觉就像是给一个由最优秀头脑组成的团队提出博士级别的问答,然后他们在几个小时内就能给出博士级别的回应。*”(摘自 OpenAI 的 Deep Research 预示着纯人类学术的终结吗?
这意味着 DeepResearch 可以识别可能被忽视的跨领域链接或示例,提供全新的视角。在专业环境中,这可以支持更全面的决策——例如,产品经理可以快速将科学研究、市场数据和消费者意见的见解集中到一个地方,而不是依赖多个团队或漫长的研究过程。它让你变得多才多艺!
Mollick 对其深度印象深刻,但他和经济学家 Kevin Bryan 等人指出了当前数据访问的局限性——特别是,如果能够访问更好的搜索和付费内容,这些代理将更加有用。
DeepResearch 如何运作?
OpenAI 的 DeepResearch 突破在于它能够在整个推理过程中采取连贯的行动。与传统 AI 代理难以长期专注不同,该模型能够持续推进,而不会分心。与 Gemini 的方法(先搜索来源,然后编译报告)不同,OpenAI 的版本会根据需要动态搜索并采取行动。这使得它更具适应性和效率。在底层,它由 o3 模型和强化学习提供支持,使其能够在推理过程中采取行动。结果取决于选择的研究目标。
以下是 DeepResearch 根据提示生成的冗长研究报告:“我需要 OpenAI DeepResearch 如何工作的技术细节。请提供模型架构、系统架构和对专有方面的更深入见解。”
并非没有局限性
- 偶尔出现不准确和幻觉——和所有大型语言模型一样,它可能会错误陈述事实、混淆相似术语或生成不正确的信息。请务必核实。
- 难以评估来源可信度——并非总能区分权威来源和不可靠来源,有时会包含过时或低质量的信息。
- 过时或陈旧的信息——可能会引用旧数据,尤其是在快速变化的领域,除非明确要求提供最新更新。
- 指令遵守不一致——有时会包含被告知排除的主题,或者没有完全遵循用户指导。
- 在小众深度方面可能不完整——可能会遗漏专家认为必不可少的重要细节或参考资料。
- 长度过长且包含无关细节——倾向于提供详尽的报告,有时会包含过多或离题的信息。
- 高成本和有限访问权限——仅适用于每月 200 美元的 ChatGPT Pro 用户,这使得许多普通用户无法访问。
- 不透明的“黑盒”推理——用户无法看到它是如何选择或评估来源的,这使得其结论在未经核实的情况下难以完全信任。
但是你知道,这是你体验过的最糟糕的了。
高效使用 DeepResearch 的最佳实践
- 精心制作详细、集中的提示——清晰具体地提出你的问题,以避免无关的结果。在提交之前,使用 ChatGPT 优化你的提示。
- 提供背景或示例——提供背景信息或指定所需的答案格式有助于指导 AI 的研究。这非常重要。这里是 Stratechery 作者 Ben Thompson 的一个例子。
- 回答澄清问题——回答 DeepResearch 提出的任何后续问题,以在它开始搜索之前微调其方向。它的问题本身就很有帮助,能促使你深思熟虑,并澄清你真正想要什么。
- 指定范围和偏好倾向——指导 AI 选择偏好的来源、日期范围或观点(例如,“专注于同行评审的研究”或“排除带有政治偏见的来源”)。
- 验证和优化输出——将 AI 的报告视为初稿,核实关键声明,并运行后续查询以澄清或更正缺失的细节。
- 请求摘要或可操作的见解——在一份冗长的报告之后,请求一份简洁的摘要、关键要点或建议,以使信息更易于理解。
- 管理时间——规划 DeepResearch 的处理时间(5-30 分钟),并在其“思考”时处理其他任务。
- 为你的新员工维护“职位描述”——列出 DeepResearch 现在可以协助或自动化的任务。跟踪其他人如何使用它。尝试将其融入你的日常工作并根据需要进行调整。
你尝试过吗?你有什么建议?它会改变你的工作流程吗?
发表评论
精选合集
我们正在阅读/观看
Sam Altman 的三点观察。我通常不会在这一部分分析文本。但这里有 Altman 文本中不容错过的几个亮点:
- “AGI 是一个定义模糊的术语,但通常来说,我们指的是一个能够在许多领域以人类水平解决日益复杂问题的系统。”
- “AGI 只是我们共同建设的不断增高的人类进步脚手架中的又一个工具。”
- 观察:1. “AI 模型的智能大致等于训练和运行它所用资源的对数。” 2. “使用给定水平 AI 的成本每 12 个月下降约 10 倍,更低的价格导致更多使用。” 3. “线性增长智能的社会经济价值具有超指数性质。”
- “我们现在开始推出 AI 代理,它们最终会感觉像虚拟同事。”
- “我们中的许多人期望需要赋予人们对技术更多的控制权,而不仅仅是过去那样,包括更多地开源,并接受安全与个人赋权之间需要权衡。”
Tom O’Reilly 的我们所知的编程的终结
Andrej Karpathy 制作的必看 LLM 课程(+3 小时长的视频)
值得关注的顶级模型
- SmolLM2:从小变大优化了一个 1.7B 参数模型,包含 11T token 和专用数据集(FineMath、Stack-Edu、SmolTalk)。在基准测试中超越了更大的模型,展示了以数据为中心的训练和高效指令调整的强大功能。
- Sundial:高性能时间序列基础模型系列引入了一种使用流匹配损失和大规模分词的时间序列基础模型。实现了最先进的零样本预测和 11.34 倍更快的推理,解决了模式崩溃问题。
- Satori:带有行动思维链的强化学习通过强化学习和自回归搜索增强了大型语言模型的推理能力。在 GSM8K 数学基准测试中达到了 93.2% 的准确率,展示了改进的自我反思和对域外任务的泛化能力。
- Ola:全模态语言模型是一款开源的大型语言模型,它逐步学习整合文本、视觉、音频和视频。-Llasa:基于 LLaMA 的大规模语音合成开发了一款受大型语言模型扩展原理启发的基于 Transformer 的文本到语音模型。
最新研究论文,方便您分类查阅
本周有几篇非常有趣的研究论文,我们用🌟在每个部分标记出我们最推荐的论文。
LLM 技术与优化
- LLM 激活信息合并(AIM)提出激活信息合并(AIM)方法,通过保留关键激活空间权重来合并微调过的 LLM,无需重新训练即可提升性能
- 内容格式集成提示优化(CFPO)引入了一种提示设计方法,优化内容和格式以增强 LLM 响应
推理与多步问题解决
- 🌟AlphaGeometry2(奥林匹克几何求解器)通过更广泛的形式语言增强 AlphaGeometry,以解决 IMO 级别的几何问题
- BOLT:引导长思维链提出了一种训练 LLM 进行长推理链的方法,无需依赖于更大模型的蒸馏
- 令牌分类(混合潜在令牌和文本令牌)提出将早期推理步骤压缩成潜在令牌以缩短思维链序列
- ScoreFlow(优化 LLM 代理工作流程)开发了一种基于分数的直接偏好优化(Score-DPO)方法,用于优化多代理工作流程
- 🌟ZebraLogic:LLM 逻辑推理的扩展限制评估 LLM 在逻辑网格谜题上的表现,揭示了尽管推理策略增强,复杂性仍会降低准确性
- 跳跃的推理曲线?评估 GPT-[N] 和 o-[N] 模型在多模态谜题上的表现,突出了主要的推理性能差距和推理成本
- 揭秘 LLM 中的长思维链推理分析了监督微调和强化学习如何影响推理性能
- 🌟Limo:推理少即是多表明精选的推理样本在 LLM 训练中优于海量数据集
模型效率与扩展
- MAGA:大规模体裁-受众数据增强将现有文本重构为不同的体裁和受众,以生成合成预训练数据
- ParetoQ:低位量化标度定律研究极端 LLM 量化,并识别低位状态下的关键相变
对齐与安全改进
- 用于可控 LLM 的特征流引入了一个因果跨层可解释性框架来跟踪语义特征
- 🌟“大模型思维相似”(AI 监管风险)研究了使用一个 LLM 监管另一个 LLM 的风险,揭示了对“思维相似”模型的偏见
- PILAF(RLHF 的最佳偏好采样)引入了一种偏好采样策略,侧重于最大化真实奖励的排名查询
- DuoGuard:通过双人强化学习实现多语言 LLM 护栏利用生成器和护栏模型之间的对抗训练来提高跨语言的安全性
LLM 的特定领域应用
- 临床推理局限性(M-ARC 基准)测试 LLM 在医学推理任务上的表现,暴露出其在开放式临床决策方面的局限性
- 用于法律分析的 LLM(IRAC 在法律中的应用)评估 LLM 如何使用 IRAC 框架处理法律推理,揭示了诸如回避和幻觉等问题
- HackerRank-ASTRA(代码生成评估)基准测试 LLM 在复杂多文件编码任务上的表现,评估一致性和健壮性
开源与专有 LLM 创新
- LLM 的开源优势认为开源模型尽管在原始性能上落后,但为研究和道德 AI 提供了最佳途径
- UltraIF:弥合指令遵循差距开发了一种方法,通过子查询分解来训练开源模型,以匹配专有模型的指令遵循能力
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增进对人工智能的理解并保持领先,请分享给他们。