XetHub 加入 Hugging Face!
我们非常高兴地正式宣布 Hugging Face 收购了 XetHub 🔥
XetHub 是一家位于西雅图的公司,由 Yucheng Low、Ajit Banerjee、Rajat Arya 创立,他们之前在 Apple 工作,负责构建和扩展 Apple 的内部 ML 基础设施。XetHub 的使命是为 AI 开发实现软件工程最佳实践。XetHub 开发了技术,使 Git 能够扩展到 TB 级别的仓库,并使团队能够探索、理解和协作处理大型不断发展的数据集和模型。他们很快就加入了一个由 12 名才华横溢的团队成员组成的团队。您应该在他们的新组织页面上关注他们:hf.co/xet-team
我们在 HF 的共同目标
XetHub 团队将通过切换到我们自己的、更好版本的 LFS 作为 Hub 仓库的存储后端,帮助我们释放 HF 数据集和模型未来五年的增长潜力。
—— Julien Chaumond,HF 首席技术官
早在 2020 年,当我们构建 HF Hub 的第一个版本时,我们决定将其建立在 Git LFS 之上,因为它相对知名,并且是启动 Hub 使用的一个合理选择。
然而,我们当时就知道,我们会在某个时候切换到我们自己的、更优化的存储和版本控制后端。Git LFS——尽管它代表大文件存储——但它从来就不是为我们处理的 AI 中那种大型文件而设计的,这些文件不仅大,而且是非常非常大 😃
未来用例示例 🔥 – 这将在 Hub 上实现什么
假设您有一个 10GB 的 Parquet 文件。您添加了一行。今天您需要重新上传 10GB。有了 XetHub 的分块文件和重复数据删除功能,您只需重新上传包含新行的几个块。
另一个 GGUF 模型文件的例子:假设 @bartowski 想要更新 Llama 3.1 405B 仓库中 GGUF 头部的一个元数据值。未来 bartowski 只需重新上传几千字节的一个块,从而大大提高效率 🔥
随着该领域在未来几个月内转向万亿参数模型(感谢 Maxime Labonne 的新 BigLlama-3.1-1T 🤯),我们希望这项新技术将为社区和企业公司解锁新的规模。
最后,大型数据集和大型模型带来了协作方面的挑战。团队如何在大数据、模型和代码上协同工作?用户如何理解他们的数据和模型是如何演变的?我们将努力寻找更好的解决方案来回答这些问题。
Hub 仓库当前的有趣数据 🤯🤯
- 仓库数量:130 万模型、45 万数据集、68 万空间
- 总累计大小:LFS 中存储了 12PB (2.8 亿文件) / Git (非 LFS) 中存储了 7.3 TB
- Hub 的每日请求数量:10 亿
- 每日 Cloudfront 带宽:6PB 🤯
来自 @ylow 的个人感言
我已经在 AI/ML 领域工作了 15 年,见证了深度学习如何逐渐占据视觉、语音、文本,并越来越多地渗透到每个数据领域。
我严重低估了数据的力量。几年前看似不可能的任务(如图像生成)结果通过数量级更多的数据以及能够吸收这些数据的模型变得可能。回想起来,这是一个在 ML 历史上多次重复的教训。
自从我攻读博士学位以来,我一直在数据领域工作。先是在一家初创公司 (GraphLab/Dato/Turi),在那里我让结构化数据和 ML 算法在单台机器上进行扩展。然后在被 Apple 收购后,致力于将 AI 数据管理扩展到 100PB 以上,支持每年交付数百个功能的数十个内部团队。2021 年,我与我的联合创始人一起,在 Madrona 和其他天使投资者的支持下,创立了 XetHub,旨在将我们在大规模协作方面的经验带给世界。
XetHub 的目标是让 ML 团队能够像软件团队一样运作,通过将 Git 文件存储扩展到 TB 级别,无缝实现实验和可重现性,并提供可视化功能来理解数据集和模型的演变。
我,以及整个 XetHub 团队,非常高兴能够加入 Hugging Face,并继续致力于通过将 XetHub 技术整合到 Hub 中,让 AI 协作和开发变得更容易——并将这些功能发布给世界上最大的 ML 社区!
最后,我们的基础设施团队正在招聘 👯
如果您喜欢这些主题,并希望为开源 AI 运动构建和扩展协作平台,请与我们联系!