面向数据科学的Vibe Coding:如何使用Kimi K2标注数据集

社区文章 发布于 2025 年 7 月 22 日

这篇帖子解释了如何使用 Kimi 2 快速分析数据集中的类别。所有操作均无需代码,并使用 Hugging Face Hub。这就像 vibe coding,但用于 NLP 和数据科学任务。

让我们开始吧!

image/webp (图片来源:由 Chun Te Lee 原创设计,经 FLUX.1 Kontext dev 转换)

开始前你需要什么?

  1. 登录或注册 Hugging Face
  2. 找到一个你想要分析的数据集。查找有价值数据集的好地方是数据集页面
  3. 前往 AISheets 应用,然后继续阅读!

什么是AISheets?

AISheets 是一个简单的工具,可以借助数千个 AI(开放)模型来转换、分析和扩展数据集。

如何标注数据集

  1. 将数据集导入 AISheets

image/png

  1. 添加一个列并编写一个简单的提示,例如“将以下文本分类:{{你想分类的列}}”。这里的想法是,从简单开始,无需复杂的提示工程。你可以引用任意数量的列,以尽可能多地为模型提供上下文。

image/png

  1. 运行提示并查看单元格填充。这里我们建议您停止生成过程并检查结果。它们可能不完美,但这就是 vibe coding 发挥作用的时候!

如何通过vibe数据科学改进标注

现在,您有一些纯粹由 AI 使用(有意)简单提示标注的行。现在使用 AISheets,您有几个选项:

  1. 有些标注是否符合您的预期?如果是,请使用这些单元格上的点赞按钮告知模型进行下一轮。即使是 1 或 2 个已验证的单元格也能非常有效地引导模型进入下一轮。另一个选择是手动编辑一些单元格以进行调整。

image/png

  1. 如果没有一个标签符合您的预期,请打开列的配置,并通过添加更多关于标签、格式等的详细信息来调整提示。重新运行生成并停止它。如果有所改进,请转到步骤 1。

一旦您对已验证的单元格满意,就可以标注整个数据集了。点击列中的重新生成按钮,观看奇迹发生!

这是一个展示使用 Kimi 2 完成整个过程的视频:

接下来呢?

这个迷你教程仅仅触及了当今 AI 模型在数据工作方面可能实现的功能的皮毛。尝试使用 AISheets 应用 并分享您希望探索的其他用例和想法,我们才刚刚开始,很乐意提供帮助!

附注:幕后发生了什么

AISheets 正在将您的反馈作为少量样本使用,如果您启用搜索,它还会将搜索结果块注入到上下文中。将其视为您的上下文工程伴侣。

以下是经过几次迭代后在后台创建的配置:

columns:
  topic:
    modelName: moonshotai/Kimi-K2-Instruct
    modelProvider: groq
    userPrompt: |-
      categorize the question:

      {{question}}
    prompt: "

      You are a rigorous, intelligent data-processing engine. Generate only the
      requested response format, with no explanations following the user
      instruction. You might be provided with positive, accurate examples of how
      the user instruction must be completed.


      # Examples

      The following are correct, accurate example outputs with respect to the
      user instruction:


      ## Example

      ### Input

      question: What is the total work done on an object when it is moved
      upwards against gravity, considering both the change in kinetic energy and
      potential energy? Use the Work-Energy Theorem and the principle of
      conservation of mechanical energy to derive your answer.

      ### Output

      Physics – Mechanics – Energy & Work

      ## Example

      ### Input

      question: Two equal masses, each with a mass similar to that of the sun,
      are separated by a distance of 1 light-year and are devoid of all outside
      forces. They accelerate towards each other due to gravity. As they
      approach each other, their mass increases due to relativistic effects,
      which in turn increases the gravitational force between them. However, as
      they approach the speed of light, their acceleration decreases. What is
      the correct description of their motion, and how do their velocities and
      gravitational forces change as they approach each other? Provide a
      detailed analysis of the problem, including any relevant equations and
      calculations.

      ### Output

      Physics – Relativistic Two-Body Gravitation

      ## Example

      ### Input

      question: What is the minimum number of red squares required to ensure
      that each of $n$ green axis-parallel squares intersects 4 red squares,
      assuming the green squares can be scaled and translated arbitrarily
      without intersecting each other?

      ### Output

      Combinatorial Geometry – Tiling / Packing / Covering



      # User instruction

      categorize the question:


      {{question}}




      # Your response

      \    "
    searchEnabled: false
    columnsReferences:
      - question

这是包含配置的结果数据集:https://huggingface.co/datasets/dvilasuero/facebook_natural_reasoning_categorized

社区

我们可以给图片添加标签吗?
比如我有 2 万张 PDF 页面的图片,我想在其中标注表格和图片。

·

我们可以。我尝试创建“用于微调的图像数据集”(输入相同作为提示),它给了我一个小型数据集来开始使用。这就是结果。我必须说,非常有用。
image.png

编辑:翻译不是最好的,可能需要改进。

注册登录 以发表评论