🌁#91: 我们在人工智能素养方面正在失败
--
本周图灵邮报
- 星期三,人工智能101,概念:我们探讨如果融合LightThinker和多头潜在注意力(MLA)会怎样
- 星期五,访谈:❗️今天和明天我将采访ElevenLabs、Lamini和Pinecone的首席执行官——如果您有任何问题想问他们,请告诉我❗️ 精选合集
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
我们对人工智能了解多少
好吧,我想我的读者们对此有所了解。你们是开发者,是工程师,是积极的学习者。但是,世界上还有数十亿人对人工智能是什么以及机器学习如何深度融入我们的生活感到困惑。
本周,我正在主持HumanX会议的几个分会场,昨天在开幕式上,我与人工智能领导者和舞台上几位著名政治家交谈时,主要呼声都是关于知识的缺乏。我在这里给政治家们多少次上台的机会呢?以前从未有过,但这里有几段引文让我感到充满希望(尽管我仍然非常怀疑政府能否妥善监管人工智能,因为他们对人工智能的了解大多是如此匮乏)。
认识一下美国众议院人工智能工作组主席,国会议员杰伊·奥伯诺尔特
- “在我们工作组的两人之间 [他本人和国会议员泰德·刘],我们几乎占据了国会计算机科学家的一半。所以请允许我恳请在座的各位。我们的人数不足,对吗?我们需要你们的指导。请给我们送来更多的计算机科学家。”
- “我们需要反驳人工智能目前在美国不受监管的错误观念。这绝对是错误的。”
- “人工智能的风险是高度情境化的,因此在评估部署风险时,你用人工智能做什么非常重要。”
- “我们选择了24位多元化的成员,其中大多数人在加入时对人工智能知之甚少。我希望他们来自不同的政策委员会,这样当我们完成工作后,他们不仅能带来他们的观点,还能回到各自的委员会,宣传我们正在做的工作。”
- “人工智能与我们立法的许多议题不同。它受到了50年科幻小说和流行文化的误导。如果你问普通美国人人工智能是什么,不是什么,以及主要的危害是什么,你会得到一些来自《终结者》电影的描述,比如邪恶的机器人军队崛起并接管世界……”
因为这正是创办 TheSequence 和 Turing Post 的动机:打破那个根深蒂固的终结者神话,并普及人工智能和机器学习的知识。
当我们说人工智能时,它指的是计算机视觉吗?指的是数据标注吗?还是机器人技术?问题在于——这正是棘手之处——它包含所有这些。现在,在生成式人工智能时代,我们被迫结合多种技术以保持领先地位。你不能再仅仅满足于舒适的数据标注了——你需要升级到合成数据。你不能只进行模型微调——你需要利用检索增强生成(RAG)。你不能只专注于单一模态人工智能——你需要使用集成文本、图像和音频的多模态架构。你不能只构建分类器——你需要创建能够理解上下文和细微差别的人工智能系统等等。
那些制定人工智能法案的政治家们呢?他们知之甚少。昨天,当国会议员杰伊·奥伯诺尔特提到“蒸馏”一词时,房间里响起了掌声:“他懂知识蒸馏!”但他毕竟是一位计算机科学家。
我们对机器学习和人工智能仍然如此缺乏了解,这实在令人羞愧。正如我一直试图通过图灵邮报所展示的,机器学习拥有超过一百年的悠久历史。现在,所有重要的利益相关者——监管机构的政府官员、教育我们孩子的老师、诊断和治疗我们的医生以及许多许多其他人——都需要了解他们正在使用的是什么。
你知道为什么吗?因为没有迹象表明它会放慢速度。他们将与人工智能合作。这是我同事 Alyona 的一个有趣观察。
“Chain of Draft 的出现给了我一个新见解:更智能的模型(可能)不再需要依赖详细、分步的推理,解释每一步。相反,简短但有意义的步骤就足以找到正确的答案。让我们从人类的角度来看,寻找其中的相似之处。思维链与人类在童年和学校期间学习和解释思维方式相似。当人们学习新事物时,他们需要详细的推理来验证自己并探索各个方面。但当他们参加考试时,他们没有时间进行如此漫长的思考——他们必须仅用最重要的点来展示他们的知识。同样,当解决他们已经多次遇到的任务时,人们会自然地跳过不必要的细节以节省时间。这也是专业性的一个指标(想象一下,如果每个人都在工作中解释每一个小步骤,我们会浪费多少时间)。
思维链(Chain-of-Thought)说明了模型如何详细处理知识,要求它们重复地完整解释相同的任务。相比之下,草稿链(Chain of Draft)代表了智能的下一步——模型实际上是在“参加考试”,简洁地展示它们的知识。草稿链更以用户为导向,它更“成熟”,而思维链仍然是开发人员评估模型能力的关键技术,就像老师在学校评估学生一样。”
我不认为人类在人工智能方面达到了“草稿链”阶段。我们在人工智能素养方面极其欠缺。因此,如果连模型都在通过考试并升级到不同的水平,我们人类也肯定需要这样做。这甚至还没有触及教育我们的孩子关于人工智能的话题。(我想开始为儿童开发人工智能课程——如果您想在这方面合作,请告诉我。)
我们能做什么?请教育你身边的人。与那些需要这些知识的人分享诸如 Turing Post、Interconnects、AI Made Simple、Latent Space 和 Hugging Face 上的 博客 等资源。这不再仅仅是一件好事——获取关于我们自身创造物的知识至关重要。
精选合集
我们正在阅读/观看:
- NewsGuard的一项审计揭露了“真理报”(Pravda,意为真相),一个总部位于莫斯科的虚假信息网络,向人工智能训练数据中大量灌输亲克里姆林宫的虚假信息——仅2024年就有360万篇文章。主要的人工智能聊天机器人33%的时间都在复述这些叙事,扭曲了全球人工智能生成的新闻。美国逃犯转变为宣传者的约翰·马克·杜根甚至吹嘘俄罗斯的叙事可以“改变全球人工智能”,验证了人们对人工智能易受操纵的担忧——这再次表明需要推动人工智能素养。
- 量子和人工智能的未来——萨蒂亚·纳德拉的采访
来自人工智能从业者的推荐
- 试试这两个视频生成模型:Hedra Studio的Character-3——一款**全模态人工智能**,集成了**文本、图像和音频**以简化内容创作。我玩了5分钟(这就是我判断模型进步程度的方式)。
- Luma 本周也推出了“梦想机器”
我两者都玩过——如果投入足够的时间和精确度,你确实可以制作出高质量的视频。然而,制作一个真正的视频可能仍然更快。提示词在每个视频的描述中。
来自“老面孔”的最新消息 ©
Perplexity – 拓展超越网络
- Perplexity希望跳出浏览器,有越来越多的迹象表明它正与硬件公司合作,将人工智能整合到日常设备中。德国电信(Deutsche Telekom)的人工智能手机,搭载Perplexity的助手,将于今年首次亮相,将人工智能无缝融入语音交互。目前是手机,接下来是电视?下一步会是哪里?
Manus – 中国人工智能挑战者走向全球
- 中国人工智能的雄心迎来新面孔,Monica.ai推出了高性能人工智能智能体Manus(基于Anthropic Claude Sonnet构建),据报道在关键基准测试中超越了OpenAI和Anthropic。Manus由肖红创立,最初是一个浏览器插件,现在是一家价值1亿美元的初创公司,目标是国际市场——巧妙地规避了中国的人工智能法规。与AGI纯粹主义者不同,肖红专注于商业,利用用户数据实现货币化。Manus是独家邀请制的,可能重塑中国在海外的人工智能格局。
苹果——人工智能延迟,但芯片实力强劲
- 苹果本周在人工智能方面喜忧参半。备受瞩目的Siri人工智能增强功能原定于2024年推出,现已延期。安全风险,特别是提示注入漏洞(正如Simon Willison所指出的),可能是一个因素。但在硬件方面,苹果凭借M3 Ultra芯片展现出强大实力,巩固了其在人工智能芯片领域的领导地位。Ben Thompson认为苹果应该向开发者开放其人工智能模型,从一个聚合者转变为一个真正的人工智能平台,利用其硬件创建新的生态系统。
Cortical Labs – 人工智能与生物的融合
- 未来一瞥:Cortical Labs的CL1电脑将人类脑细胞与硅芯片融合(!)以创建自适应、低能耗的人工智能系统。该系统通过泵和温度控制维持生命,已学会玩乒乓球。它对人工智能、机器人和神经科学都有影响,并提出了关于机器意识的重大伦理问题。每台35,000美元,将于2025年6月发货——开启了一个活体计算机的时代。
Mistral OCR – 人工智能像人类一样阅读
- Mistral推出了尖端的文档理解API,擅长大规模的文本、表格和公式提取。这是人工智能OCR领域的新里程碑。
强化学习——人工智能奠基人的胜利
- 强化学习的先驱 Andrew Barto 和 Richard Sutton 荣获 2024 年图灵奖。他们从 1980 年代开始的工作为 AlphaGo 到现代 AI 助手的一切奠定了基础,实现了图灵关于机器从经验中学习的愿景。从机器人技术到精准广告,他们的影响力无处不在。实至名归的认可。
值得关注的模型:
- 可微分逻辑蜂窝自动机(谷歌研究)——将神经蜂窝自动机与可微分逻辑门网络集成,实现自愈、模式生成和鲁棒计算架构。
- Phi-4-Mini 技术报告(微软)——引入了38亿参数多模态模型,采用LoRA混合模式,在数学、编码和推理方面表现出色,同时保持了高效性。
- Babel:开放多语言大型语言模型(阿里巴巴)——开发了一个开源的大型语言模型,支持全球90%人口使用的25种语言,在欠代表性语言基准测试中表现出色。
- Aya Vision:扩展人工智能可识别的世界(Cohere)——推出了一个开源视觉模型,在多语言和多模态基准测试中优于更大的竞争对手。
- LLMVoX:自回归流式文本转语音模型——提出了一种轻量级、与LLM无关的文本转语音系统,具有低延迟、高精度和与多模态AI无缝集成的特点。
- 两全其美:整合语言模型和扩散模型以生成视频(月之暗面)——提出了一种混合文本到视频模型 LanDiff,结合了LLM和扩散技术,超越了现有模型如Hunyuan Video和Sora。
最新研究论文,方便您分类查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
大规模模型的扩展与优化
- 专用反馈和编辑模型赋能推理时扩展——通过分层批评和细化步骤改进LLM推理,实现卓越性能和零样本蒸馏收益。
- 从小时到分钟:超长序列生成的无损加速——通过优化KV缓存更新,将超长文本生成(10万词元)的处理时间从数小时缩短至数分钟。
- HybridNorm:迈向稳定高效的Transformer训练——通过结合归一化策略,提高Transformer训练的稳定性,改善损失减少和基准性能。
- Liger:将大型语言模型线性化为门控循环结构——将大型语言模型转换为高效的循环结构,在保持准确性的同时降低推理成本。
模型架构与效率提升
- 专家联盟:将分层路由应用于分解的Transformer——通过带有选择性多头注意力的分层专家混合框架,将计算量减少76%。
- Visual-RFT:视觉强化微调——通过奖励驱动的微调改进大型视觉语言模型,显著提高分类和目标检测的准确性。
- STORM:高效处理长视频理解——优化多模态模型的长视频处理,在保持高准确性的同时减少了对标记的需求。
- EgoLife:迈向以自我为中心的生命助手——利用以自我为中心的视频数据集,实现长期记忆和事件跟踪,推动人工智能个人助手的发展。
推理、自我改进与问题解决
- 促使自我改进推理器的认知行为——识别帮助大型语言模型通过强化学习改进的认知模式,即使不能保证正确性。
- LADDER:通过递归问题分解实现LLM的自我改进——通过将复杂问题分解为更简单的子问题来提高数学问题解决能力。
- START:带工具的自学推理器——通过外部工具使用增强大型语言模型推理能力,通过引导式提示微调提升性能。
- 基于过程的自奖励语言模型——通过整合自我评估的反馈循环,使大型语言模型能够迭代地完善其推理。
大型语言模型(LLM)的不确定性、鲁棒性与评估
- 当LLM对答案心存疑虑时——通过比较基于熵的预测与领域特定正确性来评估LLM的不确定性。
- Mask-DPO:可泛化的细粒度事实对齐——通过有选择地训练可验证的陈述,使LLM与事实准确性对齐,从而改善知识表示。
- 用于指令微调的大规模数据选择——通过评估不同的数据集选择技术来改进指令微调,突出了一种更有效的方法。
- Lingoly-Too:解耦记忆与推理——通过对语言数据集应用混淆技术,测试大型语言模型是否真的在推理,还是仅仅在记忆。
基于智能体的学习与多智能体系统
- MPO:通过元计划优化提升LLM智能体——通过引入高层次元计划来改进基于LLM的智能体,从而完善其决策过程。
- ATLAS:通过学习关键步骤进行智能体微调——通过选择性地对关键决策步骤进行微调,增强LLM驱动的智能体。
- 通过GNN-VAE实现可靠高效的多智能体协作——利用图神经网络优化多智能体规划,确保在实际应用中的可扩展性。
在游戏、编码和专业领域的应用
- PokéChamp:专家级极小化极大语言智能体——开发了一个基于LLM的宝可梦对战智能体,其表现优于基于规则和LLM辅助的竞争对手。
- Kodcode:一个多样、富有挑战且可验证的编码数据集——通过一个包含44.7万个问题的数据集,改进了代码生成基准,其中包含已验证的解决方案和测试用例。
- 针对领域特定AI微调小型语言模型——为边缘AI应用优化小型模型,平衡效率和任务特定准确性。
- 多模态交响曲:通过生成式AI融合味觉与声音——探索利用生成式AI模型实现味觉感知与音乐生成之间的交叉。
规划任务的搜索与优化
- 语言模型可以自我改进状态价值估计——通过优化大型语言模型的状态价值估计,提高交互式规划任务的搜索效率。
- HoT:用于引用支持事实的突出思维链——通过引入对关键信息的突出引用,改进大型语言模型基于事实的推理。
- UFO:一种细粒度视觉感知的统一方法——将物体检测、分割和视觉语言任务集成到单一的、开放式的框架中。
- L^2M:长文本语言建模的互信息尺度定律——为提高语言模型的长距离依赖性奠定了理论基础。
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增强对人工智能的理解并保持领先,请与他们分享。