开源数据处理利器：Dataverse

社区文章发布于2024年4月4日

由 Upstage 推出

作者：崔殷正 (Eujeong Choi), 李秀璟 (Sukyung Lee), 朴灿俊 (Chanjun Park)

Dataverse 是一个可免费访问的开源项目，旨在利用 Python 简化提取、转换和加载 (ETL) 管道。在这篇文章中，我们将深入探讨该项目的起源，并阐明其在开源数据处理领域的未来前景。

1. 项目起源

1.1 数据处理作为大型语言模型（LLM）生态系统的基本组成部分

在数据预处理领域，尤其是在大型语言模型 (LLM) 领域中，强大的数据预处理技术的重要性不言而喻。尽管其重要性显著，但针对该领域量身定制的开源预处理模型仍然稀缺。Upstage 认识到数据预处理在培育充满活力的开源生态系统中的关键作用，因此肩负起为这一关键方面做出贡献的使命，旨在实现我们与 LLM 生态系统中的参与者之间的双赢增长。通过引入 Dataverse，Upstage 不仅旨在通过分享不断演进的数据工程技术来弥补我们社区的这一空白，并使其在一个地方易于访问。

1.2 通过透明度促进公平性

启动这项开源倡议的另一个驱动力是确保利润分享的透明度。关于 LLM API 在不同语言之间成本差异的问题和抱怨已经出现。这种差异主要归因于 API 的定价结构，正如 Petrov 等人撰写的《语言模型分词器在语言之间引入不公平性》论文中所强调的。字符级和字节级模型在某些语言对的编码长度上也存在超过 4 倍的差异。这种差异导致某些语言社区在访问成本、处理时间、延迟以及向模型提供上下文内容方面受到不公平待遇。透明度至关重要，尤其是在数据预处理中的利润分享工作中。Dataverse 优先考虑预处理方法的透明度，以确保利益在所有利益相关者之间公平公正地分配，无论其语言如何，尤其是在 Upstage 的生态系统内。

2. 什么是 Dataverse？

2.1 概览

Dataverse 的核心是一个用户友好、标准化的数据处理和管理解决方案，专为满足 LLM 时代数据科学家、分析师和开发人员的需求而设计。即使对于不熟悉 Spark 等复杂框架的人来说，Dataverse 也提供了一种直接的数据预处理方法。

2.2 主要特点

Dataverse 最突出的特点是其灵活性。用户可以自由定义自定义函数，从而实现更定制化和适应性更强的预处理体验。

基于块：在 Dataverse 中，一个块表示一个在 Spark 上运行的已注册 ETL 函数。您可以像拼图一样构建 Spark 代码。您可以通过配置轻松添加、移除或重新排列块以获得所需的结果。
基于配置：Spark 和块的所有设置步骤都可以通过配置定义。您无需了解所有代码。只需设置选项即可开始使用。
可扩展：它旨在满足您的特定需求，允许自定义功能完美契合您的项目。

2.3 许可证

Dataverse 在 Apache License 2.0 下运行。

更多详细信息，请访问我们的 Dataverse 文档页面：Dataverse 文档

3. Dataverse 用例

Dataverse 在处理大规模文本数据预处理任务时表现出色。此外，它还是整合分散在不同库中的各种预处理功能的中心枢纽。在 Upstage 内部，我们广泛使用 Dataverse 来预处理数据集，以训练 Solar Mini 和 Up 1T Token Club 等项目。例如，我们使用 Dataverse 对合作伙伴公司提供的大量文本数据进行去重，以进行系统清理和增强。数据预处理的一个例子是将专利数据集缩小到原始大小的 30%，而不会影响质量或分布。通过确保数据集的质量符合训练大型语言模型 (LLM) 的要求，这不仅为我们模型的训练奠定了基础数据，而且通过标准化处理代码提供了一致的结果，从而成为我们团队协作的基础。Dataverse 为您的团队建立了稳定的预处理基础，其可定制的特性允许进一步增强。

4. 未来工作和贡献点

展望未来，Dataverse 雄心勃勃地计划扩展其预处理功能库，以涵盖图像和视频等多模态数据类型。我们的愿景是处理非结构化数据，无论其模态如何，通过 Dataverse 确保各种数据类型和格式的统一处理。

总之，Dataverse 作为开源数据预处理领域一个前景广阔的竞争者，其核心理念是透明度、灵活性和社区协作。我们强烈鼓励社区以自定义预处理函数和 Spark 优化形式进行贡献，以推动 Dataverse 充分发挥其潜力。

通过 GitHub 与我们一起塑造 Dataverse 生态系统的数据处理未来，或阅读更多关于我们的论文！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论