Hub 文档
在 Hugging Face 使用 BERTopic
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
在 Hugging Face 使用 BERTopic
BERTopic 是一个主题建模框架,它利用 🤗 transformers 和 c-TF-IDF 创建密集集群,从而实现易于解释的主题,同时在主题描述中保留重要词语。
BERTopic 支持各种主题建模技术:
引导式 | 监督式 | 半监督式 |
手动式 | 多主题分布 | 分层式 |
基于类别 | 动态 | 在线/增量 |
多模态 | 多方面 | 文本生成/LLM |
零样本 (新!) | 合并模型 (新!) | 种子词 (新!) |
在 Hub 上探索 BERTopic
您可以通过在模型页面左侧进行筛选来找到 BERTopic 模型。
托管在 Hub 上的 BERTopic 模型都有一个模型卡,其中包含有关模型的有用信息。借助 BERTopic Hugging Face Hub 集成,您可以通过几行代码加载 BERTopic 模型。您还可以使用推理端点部署这些模型。
安装
要开始使用,您可以遵循BERTopic 安装指南。您也可以使用以下 pip 一行命令进行安装:
pip install bertopic
使用现有模型
所有 BERTopic 模型都可以轻松地从 Hub 加载
from bertopic import BERTopic
topic_model = BERTopic.load("MaartenGr/BERTopic_Wikipedia")
加载后,您可以使用 BERTopic 的功能预测新实例的主题。
topic, prob = topic_model.transform("This is an incredible movie!")
topic_model.topic_labels_[topic]
这给我们提供了以下主题:
64_rating_rated_cinematography_film
共享模型
当您创建了 BERTopic 模型后,可以通过 Hugging Face Hub 轻松地与他人共享。为此,我们可以使用 `push_to_hf_hub` 函数,该函数允许我们直接将模型推送到 Hugging Face Hub。
from bertopic import BERTopic
# Train model
topic_model = BERTopic().fit(my_docs)
# Push to HuggingFace Hub
topic_model.push_to_hf_hub(
repo_id="MaartenGr/BERTopic_ArXiv",
save_ctfidf=True
)
请注意,保存的模型不包括降维和聚类算法。这些算法被移除,因为它们仅在训练模型和查找相关主题时才需要。推理通过主题和文档嵌入之间直接的余弦相似度完成。这不仅可以加快模型速度,还可以让我们拥有一个可以使用的微型 BERTopic 模型。