每周机器人学六月刊 #2 - 动手实践 SmolVLA

社区文章 发布于2025年6月4日

今晚的主要任务是更深入地研究 SmolVLA,这次是动手实践。在 昨天对架构进行概述 并进行了一些高层次的理论探讨之后,我渴望真正运行模型并测试其功能——特别是它的零样本性能。果然,事情很快变得有趣起来。

第2天 – 6月4日

a) 零样本测试:初步摩擦

今晚我的主要目标是评估 SmolVLA 在零样本设置下的表现:无微调,无特定任务监督。我设置了一个简单的机器人任务(“堆叠彩色立方体”),并向模型提供了一个简短的序列以生成可行的动作。

不幸的是,事情并没有像我希望的那样顺利。

目前,LeRobot 库不原生支持预训练 SmolVLA 模型的零样本推理。它需要访问训练期间使用的动作和特征归一化统计数据,而这些数据尚未在配置中公开。未来可能会启用此功能,对此我非常期待,并且会密切关注!

我想探索的另一个角度是数据效率。LeRobot 现有的策略通常需要几十条轨迹才能表现良好。但由于 SmolVLA 是在各种任务上预训练的,我很好奇它是否能比从头开始训练的模型泛化得更好——即使数据量很少。

为了测试这一点,我决定围绕我的目标任务构建一个小型自定义数据集。

b) 从摩擦到微调:构建小型轨迹数据集

由于零样本没有成功,我转向了同样令人兴奋的微调,且仅使用最少的数据。SmolVLA 需要多小的数据量才能可靠运行?

为了探究这一点,我创建了一个小型数据集,只包含了 10 条机械臂将绿色立方体堆叠在蓝色立方体上的轨迹:image/png

(在我的 HF 个人资料上,你还会找到我在持续实验中分享的数十个数据集,它们并不完美,但仍然可以帮助初始化模型)

数据准备就绪后,我将在接下来的几天内进行几次微调,看看模型是否能从如此小的样本中学习到一致的行为。

总结

今天并非一帆风顺,但这正是乐趣的一部分。接下来的几天我可能会比较忙,所以不会每天发帖,而是计划每隔 3-4 天发布一次更新——更多内容,更少噪音。

接下来:我将分享这次微调的结果,包括一些指标,并重点介绍值得深入探讨的有趣失败案例。我还计划深入研究模型的注意力图,以更好地了解它“看到”了什么。

一如既往,如果你也在从事类似的项目,欢迎联系我——或者分叉数据集并自己进行实验。让我们一起不断推动小型机器人模型的边界。

下次再见 👋 — @Beeg_brain | huggingface.co/Beegbrain

社区

注册登录 发表评论