Hugging Face 与印度科学理工学院合作,加速印度多语种模型构建
印度科学理工学院(IISc)和 ARTPARK 与 Hugging Face 合作,让全球开发者能够访问 Vaani。Vaani 是印度最多样化的开源、多模态、多语言数据集。双方共同致力于构建包容、易于访问且技术先进的 AI 技术,以尊重语言和文化的多样性。
合作伙伴关系
Hugging Face 与 IISc/ARTPARK 的合作旨在提高 Vaani 数据集的可访问性和可用性,鼓励开发能更好地理解印度多样化语言并满足其人民数字需求的 AI 系统。
关于 Vaani 数据集
Vaani 项目由 IISc/ARTPARK 和 Google 于 2022 年启动,是一项开创性的举措,旨在创建一个真正代表印度语言多样性的开源多模态数据集。该数据集的独特之处在于其以地理为中心的方法,允许收集偏远地区的方言和语言,而不仅仅是主流语言。
Vaani 计划从全印度 773 个地区的 100 万人中收集超过 15 万小时的语音数据和 1.5 万小时的转录文本数据,以确保语言、方言和人口统计学的多样性。
该数据集分阶段建设,第一阶段已覆盖 80 个地区并已开源。第二阶段正在进行中,将数据集扩展到另外 100 个地区,进一步加强 Vaani 在印度多样化语言环境中的覆盖范围和影响力。
截至 2025 年 2 月 15 日,已开源的 Vaani 数据集的主要亮点:
各地区语言分布
Vaani 数据集展示了印度各地区丰富的语言分布,突显了地方层面的语言多样性。这些信息对于希望构建针对特定地区和方言的语音模型的研究人员、AI 开发者和语言技术创新者来说非常有价值。要查看详细的各地区语言分布,请访问:Hugging Face 上的 Vaani 数据集
已转录子集
如果您只需要访问已转录的数据,并希望跳过未转录的纯音频数据,这里已开源了一个较大数据集的子集。该数据集包含 790 小时的转录音频,来自约 70 万名说话者,覆盖 7 万张图片。该资源包括与精确转录匹配的更小、分段的音频单元,可用于不同任务,包括:
- 语音识别:训练模型准确转录口语。
- 语言建模:构建更精炼的语言模型。
- 分段任务:识别不同的语音单元,以提高转录准确性。
这个额外的数据集是对 Vaani 主数据集的补充,使得开发端到端语音识别系统和更具针对性的 AI 解决方案成为可能。
Vaani 在大语言模型时代的应用价值
Vaani 数据集具有几个关键优势,包括广泛的语言覆盖(54 种语言)、跨不同地理区域的代表性、多样的教育和社会经济背景、非常大的说话者覆盖范围、自发语音数据以及真实生活中的数据收集环境。这些特性可以为以下方面构建包容性 AI 模型:
- 语音转文本和文本转语音:为基于大语言模型和非大语言模型的应用微调这些模型。此外,转录标签有助于开发代码转换(印度语言和英语)的自动语音识别(ASR)模型。
- 印度语言的基础语音模型:数据集显著的语言和地理覆盖范围支持为印度语言开发强大的基础模型。
- 说话人识别/验证模型:数据集拥有超过 8 万名说话者的数据,非常适合开发强大的说话人识别和验证模型。
- 语种识别模型:能够为各种现实世界应用创建语种识别模型。
- 语音增强系统:数据集的标签系统支持先进语音增强技术的开发。
- 增强多模态大语言模型:独特的数据收集方法使其在与其他多模态数据集结合时,对于构建和改进大语言模型的多模态能力非常有价值。
- 性能基准测试:由于其多样的语言、地理和真实世界数据属性,该数据集是语音模型基准测试的理想选择。
这些 AI 模型可以支持广泛的对话式 AI 应用。从教育工具到远程医疗平台、医疗保健解决方案、选民帮助热线、媒体本地化和多语言智能设备,Vaani 数据集在现实世界场景中可能成为改变游戏规则的关键。
下一步计划
IISc/ARTPARK 和 Google 已将合作扩展至第二阶段(新增 100 个地区)。至此,Vaani 将覆盖印度所有邦!我们很高兴能将这个数据集带给大家。
该地图标示了截至 2025 年 2 月 5 日,已在印度各地收集数据的地区
如何贡献
您可以做出的最有意义的贡献就是使用 Vaani 数据集。无论是构建新的 AI 应用、进行研究,还是探索创新的用例,您的参与都有助于改进和扩展该项目。
如果您在使用数据集后有任何反馈或见解,我们非常乐意听取您的意见。请通过 vaanicontact@gmail.com 分享您的经验/咨询合作机会,或者请填写此 反馈表。
为印度的语言多样性,我们用心制作 ❤️