Hub 文档

在 Hugging Face 上使用 BERTopic

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

在 Hugging Face 上使用 BERTopic

BERTopic 是一个主题建模框架,它利用 🤗 transformers 和 c-TF-IDF 创建密集集群,从而轻松解释主题,同时在主题描述中保留重要词汇。

BERTopic 支持各种主题建模技术

引导式 监督式 半监督式
手动 多主题分布 分层
基于类别 动态 在线/增量
多模态 多方面 文本生成/LLM
零样本 (新功能!) 合并模型 (新功能!) 种子词 (新功能!)

在 Hub 上探索 BERTopic

您可以通过在模型页面左侧进行过滤来查找 BERTopic 模型。

托管在 Hub 上的 BERTopic 模型具有模型卡片,其中包含有关模型的有用信息。 感谢 BERTopic Hugging Face Hub 集成,您只需几行代码即可加载 BERTopic 模型。 您还可以使用 Inference Endpoints 部署这些模型。

安装

要开始使用,您可以按照 BERTopic 安装指南进行操作。 您还可以使用以下通过 pip 进行一键安装的方法

pip install bertopic

使用现有模型

所有 BERTopic 模型都可以轻松地从 Hub 加载

from bertopic import BERTopic
topic_model = BERTopic.load("MaartenGr/BERTopic_Wikipedia")

加载后,您可以使用 BERTopic 的功能来预测新实例的主题

topic, prob = topic_model.transform("This is an incredible movie!")
topic_model.topic_labels_[topic]

这将为我们提供以下主题

64_rating_rated_cinematography_film

共享模型

当您创建了 BERTopic 模型后,可以通过 Hugging Face Hub 轻松与他人共享。 为此,我们可以使用 push_to_hf_hub 函数,该函数允许我们将模型直接推送到 Hugging Face Hub

from bertopic import BERTopic

# Train model
topic_model = BERTopic().fit(my_docs)

# Push to HuggingFace Hub
topic_model.push_to_hf_hub(
    repo_id="MaartenGr/BERTopic_ArXiv",
    save_ctfidf=True
)

请注意,保存的模型不包含降维和聚类算法。 这些算法已被移除,因为它们仅在训练模型和查找相关主题时才是必要的。 推理是通过主题和文档嵌入之间直接的余弦相似度完成的。 这不仅加快了模型速度,而且使我们能够拥有一个可以使用的微型 BERTopic 模型。

其他资源

< > 在 GitHub 上更新