Deepseek R1 机器人推理与跳棋
在这篇文章中,我们探讨了 DeepSeek R1 以及其他 LLM 控制机械臂玩跳棋的能力。我们发现 DeepSeek R1 比其他同类开源 LLM 表现更好,但落后于人类和算法玩家,这突显了 LLM 与机器人技术集成方面需要进一步改进。
与 LLM 的集成
为了让 LLM 做出下一步行动,我们需要一种将跳棋游戏编码为文本,然后从文本中检索有效行动的方法。因此,我们设计了一个包含规则、棋盘状态和有效行动列表的提示。
prompt = f"""You are playing as black (● and ◎) in a game of checkers.
You need to choose the best move from the list of valid moves provided.
Rules to consider:
1. Regular pieces (●) can only move diagonally forward (upward)
2. King pieces (◎) can move diagonally in any direction
3. Getting pieces to the opposite end to make kings is advantageous
4. Look ahead to ensure your piece will not get captured in the next turn
Current board state:
0 1 2 3 4 5 6 7
0 - ○ - ○ - ○ - ○
1 ○ - ○ - ○ - ○ -
2 - ○ - ○ - ○ - ○
3 - - - - - - - -
4 - - - - - - - -
5 ● - ● - ● - ● -
6 - ● - ● - ● - ●
7 ● - ● - ● - ● -
Valid moves:
1. MOVE: (2, 1) → (3, 0)
2. MOVE: (2, 1) → (3, 2)
3. MOVE: (2, 3) → (3, 2)
4. MOVE: (2, 3) → (3, 4)
5. MOVE: (2, 5) → (3, 4)
6. MOVE: (2, 5) → (3, 6)
7. MOVE: (2, 7) → (3, 6)
Briefly analyze the board position and select the best move from the list
above. End your response with your chosen move on a new line starting
with "MOVE:
Example response:
MOVE: 3
与机械臂的集成
我们使用 Deepseek R1 控制 ViperX 300 S 机械臂。我们从 Deepseek R1 中提取选定的动作并用它来执行抓取和放置操作。
我们还支持跳跃移动,这将移除任何被捕获的棋子。
结果
我们将 Deepseek R1 与其他 LLM、成熟的 Minmax 算法 和人类玩家进行比较。
Deepseek R1 与其他 LLM/算法的对比
为了评估不同玩家的表现,我们进行了一场有 4 名玩家的循环赛。我们使用 Deepseek R1(deepseek-r1-distill-qwen-32b
)、Llama 3(llama-3.3-70b-instruct
)和 Qwen 2.5(qwen2.5-32b-instruct
)作为 3 个 LLM 玩家,此外还有 Minmax 算法。我们让每个玩家与所有其他玩家进行循环赛,并重复比赛,总共进行 120 场比赛。我们报告每个玩家的胜率如下:
玩家 | 玩家类型 | 胜率 |
---|---|---|
Qwen 2.5 | 大型语言模型 | 26.6% |
Llama 3 | 大型语言模型 | 30.0% |
Deepseek R1 | 大型语言模型 | 43.3% |
Mimax | 算法 | 100.0% |
Deepseek R1 与人类的对比
我们还在 Deepseek R1 和人类之间进行了 3 场比赛,并显示了每场比赛的获胜者。
玩家 | 第 1 局 | 第 2 局 | 第 3 局 |
---|---|---|---|
人类 | ✓ | ✓ | ✓ |
Deepseek R1 |
我们观察到人类和算法玩家始终击败 Deepseek R1 和其他 LLM,这归因于 LLM 未经训练来玩跳棋。LLM 经过训练以进行下一令牌预测,或者在 Deepseek R1 的情况下,用于解决数学和软件工程问题。虽然训练数据集中可能包含跳棋相关的文本,但我们认为完整的跳棋游戏数据稀缺,导致实际游戏表现不佳。我们推测,通过监督微调或强化学习训练 LLM 进行跳棋游戏可以显著提高它们的性能。
结论
本文探讨了 Deepseek R1 和其他 LLM 如何与机械臂集成以玩跳棋。尽管 DeepSeek R1 优于同类开源模型,但仍落后于人类和算法玩家。我们认为,专门针对跳棋游戏训练 LLM 可以极大地提高其性能,并将其作为未来研究的一个有希望的方向。