具身智能 == 无限训练数据
互联网数据稀缺性的终结:具身智能为何改变一切
我们正处于 AI 历史上的一个关键时刻。尽管行业领导者宣称我们所知的预训练即将结束,但有一个关键的洞察力被忽略了:我们并非面临预训练的终结——下一个前沿领域不是从互联网上抓取更多数据;而是通过具身智能(Embodied AI)利用现实世界的无限数据流。
思考一下:整个英语互联网积累了几十年的训练数据,仅相当于一台摄像机 15.6 年的录像。现在想象一下一百万台摄像机,每台摄像机每天 24 小时、每周 7 天地捕捉世界。这不仅仅是数据收集方式的增量变化——这是一场范式转变,可能从根本上改变 AI 学习和理解世界的方式。
Ilya Sutskever 在 NeurIPS 2024 上的演示
预训练的终结?并非如此
在 NeurIPS 2024 上,Ilya Sutskever 提到预训练将结束。但让我们深入探讨:真正结束的是我们对互联网数据的依赖。为什么?因为每一份互联网内容——每一篇文章、诗歌、教科书和艺术作品——都需要人类的努力来创建和整理。我们正触及人类内容创作能力的极限。但如果我们完全停止依赖人类创建的数据呢?
数据收集的隐藏经济学
数字比任何文字都能更好地讲述这个故事。让我向您展示一个惊人的事实:生成 100 万个文本训练 token 需要数月时间,而相同数量的数据仅通过 32.8 秒的现实世界视频捕捉即可获得。但这里有一个关键的细微差别:我并不是说一个文本 token 和一个视频 token 是等价的——它们捕捉的信息本质上是不同的。文本 token 可能编码抽象概念和关系,而视频 token 则捕捉视觉模式、运动和物理交互。
真正的启示不在于 token 等效性,而在于规模。即使考虑到信息密度的这些差异,现实世界数据收集的纯粹速度也令人震惊。思考一下:当您阅读这篇文章时,一个由 100 万台摄像机组成的网络可以生成 1 万亿个训练 token。作为参考,FineWeb 是最大的开源英语训练数据集,仅包含 15 万亿个 token——相当于一台摄像机 15.6 年的捕捉量。
计算方式非常简单:数据规模 = 传感器数量 × 经过的时间
这不仅仅是拥有更多数据——而是随着每一秒的流逝,拥有根本上无限的数据收集能力。从稀缺的、人类创建的内容到无限的、现实世界捕捉的这种转变,其影响是深远的。
超越人类偏见
更有趣的是:互联网内容,无论它如何努力保持客观,都带有固有的人类偏见。每位作者的用词选择、每位策展人的选择、每位版主的决定——它们都通过有限的人类感知和表达进行过滤。
另一方面,现实世界的捕捉从根本上是不同的。它记录了现实的本来面貌,受物理和社会规范的约束,而不是人类的解读。虽然传感器分布可能会产生一些偏见,但这是我们可以系统地控制和调整的——这与人类创建内容中固有的偏见不同。
通往 AGI 之路:无限数据,无限潜力
我们正在进入一个未知领域。随着计算能力和预算的扩张,数据已成为 AI 发展的主要瓶颈。但当这个瓶颈消失时会发生什么?当数据真正变得无限时?
正如我曾经低估了 GPT-3 的能力,尽管我深入了解 Transformer 和 GPT-2,我怀疑我们正在低估无限现实世界数据的潜力。这会是实现 AGI 的关键吗?一个真正理解并与物理世界互动的 AI?
正如 GPT-3 凭借其能力震惊我们一样,无限的现实世界数据可能在多个领域实现突破——也许是一个能够适应任何厨房布局的机器人,或者能够处理真正不可预测场景的自动驾驶车辆。
答案可能在于让我们的计算能力在这个无限的现实流中自由发挥。AI 的未来在于为这些算法提供一个直接通往真实世界的窗口。
附录
视频 token 计算
视频输入参数
分辨率:1080p (1920×1080 像素)
帧率:30fps
时长:32.8 秒
色彩通道:RGB (3 通道)
原始数据计算
单帧像素:1920 × 1080 = 2,073,600 像素
总帧数:32.8 秒 × 30fps = 984 帧
总原始像素:2,073,600 × 984 = 2,040,422,400 像素
使用 Cosmos Tokenizer CV8x16x16 或 DV8x16x16 进行最大压缩的 Token 生成
压缩因子
8 倍时间压缩
16 倍空间压缩(宽度)
16 倍空间压缩(高度)
总压缩率:8 × 16 × 16 = 2048x
最终 Token 计数
Token 计算:2,040,422,400 ÷ 2048 ≈ 996,300 ~ 1M token