🏆 Mistral AI 机器人黑客马拉松 – 第二名:“LeCopain” 🤖
使用 Mistral AI 和 SO-100 机械臂构建一个交互式《猜猜我是谁?》机器人

🧠 项目的诞生
4 月 11 日至 13 日,Mistral AI 机器人黑客马拉松挑战参与者将 Mistral AI 模型的强大功能与 SO-100 机械臂相结合,以构建真实的交互式系统。
我们的团队凭借“LeCopain”获得了第二名——这是一款友好的机器人,通过结合自然语言处理、语音接口和机器人控制,无缝地实现交互式体验,能够玩经典的棋盘游戏《猜猜我是谁?》。

这个概念在头脑风暴中自然而然地出现:如果机器人能和我们一起玩游戏呢?棋盘游戏提供了一个融合了感知、推理、对话和动作的丰富环境——这是测试大型语言模型 (LLM) 和机器人策略的理想试验场。《猜猜我是谁?》作为一项简单而又认知丰富的挑战脱颖而出,它需要多模态理解、推理和物理交互。
🎲 《猜猜我是谁?》游戏——快速回顾
《猜猜我是谁?》是一款双人猜谜游戏,每个玩家从一组选项中选择一个神秘角色。玩家轮流提问是非问题(例如:“你的动物有毛吗?”),根据答案排除候选者,直到只剩一个。在我们的版本中,我们使用动物作为角色,使其在视觉和语义上对机器人系统更具吸引力。
🛠️ 项目概览

系统管道
为了让 LeCopain 栩栩如生,我们设置了一个模块化管道,将语音交互、语言理解和机器人控制结合在一起。以下是每个组件的细分:
- 🧑🎤 用户界面和虚拟形象:我们构建了一个引人入胜且易于访问的用户界面。
- 机器人连接到一台配备麦克风和扬声器的计算机,以实现自然的语音交互。
- 一个定制的 2D 动画虚拟形象(嘴部同步、眼睛移动)提供视觉反馈,增强个性和存在感。
虽然我们计划实现情感表达,但这仍然是未来发展的领域。这种多模态设计确保游戏对所有年龄和能力的人都愉快且易于访问。
🗣️ 语音转文本和文本转语音:我们使用 OpenAI 的 Whisper 进行实时语音转文本,使机器人能够理解用户问题。为了响应,我们添加了文本转语音合成,使机器人能够进行完整的口语对话。这种设置不仅模拟了自然对话,还使行动不便的玩家也能玩游戏。
🧠 认知模型:使用 Mistral AI 进行推理。LeCopain 智能的核心是 Mistral AI 的开源小型模型,用于解释用户输入并决定要消除哪些动物。我们实施了两种模式:
- 基于图像的提示:提供整个棋盘的图像和用户的问题。
- 基于文本的提示:使用结构化的动物特征列表和用户的问题。该模型被提示返回结构化的 JSON 输出,其中包含要消除的动物列表,从而简化了下游控制决策。

带网格 ID 的 ACT 条件
📊 数据收集
为了训练 ACT 策略,我们扩展了 LeRobotDataset 以包含网格 ID 输入,并收集了 96 条轨迹,涵盖了从左到右、从上到下的每个网格单元。
该数据集足以实现流畅的演示体验,但为了在更复杂的环境中进行稳健部署,还需要进一步训练。
我们在黑客马拉松结束时发布了我们的不同数据集,可在以下页面(团队 2 数据集)查看:猜猜是谁数据集
🎉 最终思考
我们的项目 LeCopain 展示了集成机器人技术、大型语言模型 (LLM) 和语音交互以创造真正引人入胜的体验的强大潜力。
从认知推理到物理执行,我们展示了这些技术如何结合在一起,为交互式、趣味性和有意义的机器人应用提供动力。这个原型可以发展成为教育、治疗或辅助娱乐的工具。
特别感谢 Mistral AI 和所有其他本次非凡活动的合作伙伴!
🎥 演示视频
📺 观看 LeCopain 的实际操作
💻 代码发布与贡献者招募
我们已将项目开源,并很高兴与社区一起继续构建这个想法。如果您对人工智能、机器人技术、游戏或可访问性充满热情,我们很乐意与您合作!
👉 Github 仓库(我们目前正在清理代码,但很快将接受新的项目贡献者)
📧 有兴趣贡献或合作?请联系 alexandre.chapin@ec-lyon.fr