用Hugging Face的AI表格教授数据素养

社区文章 发布于2025年6月30日

从问题到实际数据的逐步指南,一次一列。

数据是人工智能的基石,但真正的学习发生在你理解数据是如何一步步公开构建的时候。上周末,我与我的孩子坐下来讨论图表、图形以及如何从数据中得出有意义的结论。这是他正在进行的一个课堂项目的一部分。我想强调的是,数据不仅仅是数字,更是关于提出正确的问题、清晰地组织答案以及理解模式的含义。然而,向一个五年级学生教授一个新概念并不容易。因此,我倾向于他已经在课堂上学习的内容,即动物栖息地和适应性。我想我可以用同样的想法来使这节课生动起来。但怎么做呢?

给我看看数据?

数据!数据!数据!没有黏土我就造不出砖头。

那是《铜山毛榉奇案》中的夏洛克·福尔摩斯对华生吼道。他正在陈述一个显而易见的事实,即没有数据就无法进行分析。第一步是构建一个合适的数据集。我打开一个电子表格,我们添加了他知道或感兴趣的动物名称。我们只有这些!只有名字!

Image description
一个包含动物名称的电子表格,动物名称在第一列。

头脑风暴

我们首先集思广益,想知道每种动物的哪些信息。哪些问题能帮助我们学到新知识?如何使数据集足够有趣以供探索?每个问题最终都将成为数据集中的一列。

Image description
我们需要答案的问题。这些最终将成为我们想要创建的数据集的列。

回答所有这些动物的问题将花费很长时间。虽然并非不可能,但这将意味着大量的网络搜索。有没有更好的方法呢?也许有,这就是AI表格发挥作用的地方。

AI表格前来救援

几天前,我在时间线上看到了以下推文

image/png

这看起来是我可以立即使用的东西,我正是这样做的。在这篇文章中,我分享了我自己对该工具的无偏经验,从单一列开始,逐步构建一个完整、丰富的数据集。它是一个很好的实验平台,让你在整个过程中都能快速测试想法并保持控制。

什么是AI表格?

image/png

在继续之前,让我们花点时间更详细地了解AI表格。这些表格就像一个增强版的电子表格。它由Hugging Face团队开发,是一个将大型语言模型(LLM)的强大功能直接引入熟悉的表格界面的工具。换句话说,它不仅仅是存储数据,你还可以要求它创建数据。它连接到Hugging Face Hub上的各种开源模型,并且还可以从网络上获取实时信息。你写一个提示,它就会为你填充列。因为它在需要时使用真实的网络结果,所以事实是可验证的。你可以在这里探索它们:https://huggingface.co/spaces/aisheets/sheets

既然你知道了表格能做什么,我们回到构建数据集上来。


起点

我们将包含一列动物名称的CSV文件导入到Sheets环境中。这将作为数据集的种子列。导入后,名称将填充到Sheets的A列中,如下所示。

image/gif

添加基本信息

下一步是填写一些关于动物的基本信息。我们想捕捉每种动物的一些基本事实,比如它们的学名、栖息地和食物。对于这些问题中的每一个,我们都添加了一列,并编写了精确的提示,以帮助模型从网络上获取正确的信息。以下是第二列的显示方式:

  • B列:学名 提示{{动物名称}}的学名是什么?只提及名称。

image/gif

我快速进行了一次谷歌搜索,以确认获取的信息是否确实正确。通过点击🌐图标,我可以轻松访问来源并验证结果。这就是这个工具的优点:你可以手动编辑你认为不正确的内容,或者让它来接管。例如,我得到了大象的学名是Loxodonta africana。但当我查看来源时,我意识到这特指非洲象。所以我必须更精确地说明我指的是哪种大象。我编辑了A列中相应的条目,并将其重命名为非洲象。

image/png

我们对接下来三列也采用了相同的流程:

  • C列:栖息地 提示{{动物名称}}的自然栖息地是什么?

  • D列:食物 提示{{动物名称}}通常吃什么?

  • E列:平均寿命 提示{{动物名称}}的平均寿命是多少?只回答数字年龄。

我不需要手动谷歌搜索每种动物的事实,只需提出一个清晰、措辞得当的问题,然后将其应用于整个列。数据集开始成形。这是我们第二步结束时的样子。

image/png

💡 改进反馈的技巧

  • 优化提示以改善输出 你的提问方式很重要。即使是措辞上微小的调整也能完全改变你得到的答案。如果有什么地方不对劲,只需调整提示并重新运行。你可以不断完善,直到输出感觉正确为止。
  • 使用反馈来引导模型 点击👍可以帮助应用程序从好的例子中学习。随着时间的推移,这将提高该列未来补全的质量。

添加更多细节

对于每种动物,我们想要更多信息,而不仅仅是身体特征。了解动物如何适应环境有助于将它们的行为与环境压力联系起来,因此我们将其纳入下一列。

  • F列:适应性
  • 提示{{动物名称}}有哪些适应性有助于其在环境中生存?

💡 这些见解也将有助于设置下一列,我们将在其中总结和综合我们所学到的内容。

总结关键事实

在确定了独特的适应性之后,我们需要一种方法来使信息更易于理解。目标是从较长的段落中提取最重要的观点并清晰地捕捉它们。同时,我们希望保留原始列,以防我们需要回溯。因此,我们创建了一个新列。

  • G列:适应性摘要
  • 提示根据{{动物名称}}的{{适应性}},用5个关键词总结。关键词不应包含{{动物名称}}、单词“适应性”或任何非适应性的内容。

image/png

并排比较模型答案以确定哪个输出适用于我们的用例。此步骤有助于简化复杂概念,以便以后更容易可视化。如上所示,我们比较了来自两个不同模型的结果,以查看哪个更适合我们的用例。

💡 不同的模型处理摘要的方式不同,因此结果很大程度上取决于模型的选择。有许多可用的开放模型,而 Sheets 使模型交换变得容易且可见,这有助于我们以真实、动手的方式比较输出。

创建派生列

一旦我们在不同列中获得了足够的信息,我们想看看是否可以通过组合现有信息来生成新的东西。因此,我们添加了一个派生列,它从早期的字段中提取数据。

  • K列:食物链角色
  • 提示根据{{动物名称}}的{{栖息地}}和{{食物}},它在食物链中最可能是什么角色:食草动物、食肉动物、杂食动物还是食腐动物?

💡 *我们不需要为此进行网络搜索。表格中已有的数据就足够了。这是一个很好的例子,说明现有字段如何协同工作以创造新的见解。

image/png

添加视觉效果

表格还支持文本到图像生成,这意味着我们可以超越文本,直接在表格中创建视觉效果。当孩子们能够看到他们正在阅读的内容时,他们学习效果会更好。这次,我们不需要提供提示,因为图像生成作为下拉菜单中的一个方法可用。就像文本一样,有很多开源模型可供选择。我们选择了Black Forest Labs的FLUX.1,因为结果非常出色。

image/png

最终结果

完成这些步骤后,我们简单的列表变成了一个丰富、多方面的数据集,您可以将其下载为CSV或Parquet格式。我们从单一列变成了有意义的内容,然后将其用于数据可视化。最终版本如下所示:

image/gif


结论

在本文中,我分享了使用表格的经验。我从一列开始,逐渐构建起来。我可以手动修改单元格,或者提供示例来改进人工智能的建议。由于每列都有自己的提示和逻辑,我无需像聊天机器人那样不断重新开始。您可以掌控一切,来源可见,并且它确实可以扩展。表格是一个很棒的工具,我期待着团队为该产品添加的新功能。

感谢Amélie Viallet审阅本文。

社区

很棒的工作。这篇文章激励我尝试 AI Sheets,不仅是为了我的孩子,也是为了我自己的工作。

·
文章作者

谢谢 @Sjangz 。一定要试试。AI表格非常适合研究。

注册登录 发表评论