使用计算机视觉绘制 OpenStreetMap 中的地图要素

社区文章发布于2025年3月5日

动机

在 Mozilla.ai，我们相信人工智能 (AI) 有很多机会可以赋能由开放协作驱动的社区。

然而，这些机会需要精心设计，因为这些社区的许多成员（以及普通民众）越来越担心互联网上充斥的AI 垃圾。

基于此理念，我们开发并发布了 OpenStreetMap AI 助手蓝图。如果您热爱地图并对训练自己的计算机视觉模型感兴趣，那么您一定会喜欢深入研究这个蓝图。

数据是任何人工智能应用最重要的组成部分之一，而 OpenStreetMap 拥有一个充满活力的社区，他们协作维护和扩展最完整的开放地图数据库。

如果您没有听说过，OpenStreetMap 是一个由地图制作者社区创建的开放、可编辑的世界地图，他们贡献并维护有关道路、小径、咖啡馆、火车站等的数据。

结合其他来源（如卫星图像），这个数据库为训练不同的人工智能模型提供了无限的可能性。

作为 OpenStreetMap 的长期用户和贡献者，我希望构建一个端到端应用程序，其中模型首先使用这些数据进行训练，然后用于回馈社区。

其思想是使用人工智能来加速地图绘制过程中较慢的部分（在地图上漫游、绘制多边形），同时在关键部分（验证生成的数据是否正确）保持人工干预。

大型语言模型（LLM）以及最近的视觉语言模型（VLM）正在占据人工智能领域的所有注意力，但仍有许多有趣的应用不需要（或不应该）使用这类模型。

OpenStreetMap 中许多地图要素都以多边形（“区域”）表示。事实证明，查找和绘制这些多边形对人类来说是一项非常耗时的任务，但计算机视觉模型可以很容易地为此任务进行训练（在提供足够数据的情况下）。

我们选择将查找和绘制地图要素的工作分解为两个计算机视觉任务，使用最先进的非LLM模型：

这些模型轻巧、快速且本地友好——使用不需要高端 GPU 即可运行的模型令人耳目一新。例如，YOLOv11 和 SAM2 的组合权重占用的磁盘空间（<250MB）比任何最小的视觉语言模型（如 SmolVLM (4.5GB)）都要少得多。

通过结合这些模型，我们可以自动化大部分地图绘制过程，同时让人类掌握最终验证的控制权。

该蓝图可分为 3 个阶段

第一阶段包括从 OpenStreetMap 获取数据，将其与卫星图像结合，并将其转换为适合训练的格式。

您可以在创建数据集 Colab 中自行运行。

为了获取 OpenStreetMap 数据，我们使用

Nominatim API 为用户提供选择感兴趣区域的灵活方式。在我们的游泳池示例中，我们使用加利西亚进行训练，并使用维亚纳堡进行验证。
Overpass API，通过在所选感兴趣区域内使用特定的标签下载所有相关多边形。在我们的游泳池示例中，我们使用 leisure=swimming_pool，并舍弃同时标记有 location=indoor 的多边形。

所有多边形下载完成后，您可以选择一个缩放级别。我们使用此缩放级别首先识别所有包含多边形的图块，然后使用Mapbox的静态图块API下载它们。

经纬度坐标中的多边形被转换为相对于每个图块的像素坐标中的边界框，然后以Ultralytics YOLO 格式保存。

最后，数据集被上传到 Hugging Face Hub。您可以查看我们的示例 mozilla-ai/osm-swimming-pools。