推理提供商文档
文本生成
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
文本生成
根据提示生成文本。
如果您对基于消息列表生成响应的聊天补全任务感兴趣,请查看 chat-completion
任务。
有关 `text-generation` 任务的更多详细信息,请查看其专用页面!您将找到示例和相关材料。
推荐模型
- google/gemma-2-2b-it: 一个经过训练以遵循指令的文本生成模型。
- deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B: 最强大模型之一的较小变体。
- meta-llama/Meta-Llama-3.1-8B-Instruct: 一个经过训练以遵循指令的非常强大的文本生成模型。
- microsoft/phi-4: 微软开发的强大文本生成模型。
- simplescaling/s1.1-32B: 一个具有推理能力的非常强大的模型。
- Qwen/Qwen2.5-7B-Instruct-1M: 支持非常长指令的强大对话模型。
- Qwen/Qwen2.5-Coder-32B-Instruct: 用于编写代码的文本生成模型。
- deepseek-ai/DeepSeek-R1: 强大的基于推理的开源大型语言模型。
在此处探索所有可用模型并找到最适合您的模型。
使用 API
语言
客户端
提供商
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="featherless-ai",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="moonshotai/Kimi-K2-Instruct",
messages="\"Can you please let us know more details about your \"",
)
print(completion.choices[0].message)
API 规范
请求
标头 | ||
---|---|---|
授权 | 字符串 | 认证头采用 `Bearer: hf_****` 形式,其中 `hf_****` 是具有“推理提供商”权限的个人用户访问令牌。您可以从您的设置页面生成一个。 |
有效负载 | ||
---|---|---|
输入* | 字符串 | |
参数 | 对象 | |
adapter_id | 字符串 | Lora 适配器 ID |
best_of | 整数 | 生成 best_of 序列并返回其中令牌 logprobs 最高的那个。 |
decoder_input_details | 布尔值 | 是否返回解码器输入令牌 logprobs 和 ID。 |
details | 布尔值 | 是否返回生成详情。 |
do_sample | 布尔值 | 激活 logits 采样。 |
frequency_penalty | 数字 | 频率惩罚的参数。1.0 表示没有惩罚。根据新令牌在文本中已有的频率进行惩罚,降低模型逐字重复相同行的可能性。 |
grammar | 未知 | 以下之一 |
(#1) | 对象 | |
类型* | 枚举 | 可能值:json。 |
值* | 未知 | 表示JSON Schema的字符串。JSON Schema 是一种声明性语言,允许用类型和描述来注释 JSON 文档。 |
(#2) | 对象 | |
类型* | 枚举 | 可能值:regex。 |
值* | 字符串 | |
(#3) | 对象 | |
类型* | 枚举 | 可能值:json_schema。 |
值* | 对象 | |
名称 | 字符串 | 模式的可选名称标识符 |
schema* | 未知 | 实际的 JSON 模式定义 |
max_new_tokens | 整数 | 要生成的最大令牌数。 |
repetition_penalty | 数字 | 重复惩罚的参数。1.0 表示没有惩罚。有关更多详细信息,请参阅这篇论文。 |
return_full_text | 布尔值 | 是否将提示前置于生成的文本。 |
seed | 整数 | 随机采样种子。 |
stop | 字符串数组 | 如果生成了 `stop` 成员,则停止生成令牌。 |
temperature | 数字 | 用于调节 logits 分布的值。 |
top_k | 整数 | 保留用于 top-k 过滤的最高概率词汇 token 数量。 |
top_n_tokens | 整数 | 用于 top-n 过滤的最高概率词汇令牌数量。 |
top_p | 数字 | 核心采样的 Top-p 值。 |
truncate | 整数 | 将输入令牌截断到给定大小。 |
typical_p | 数字 | 典型解码质量。有关更多信息,请参阅《自然语言生成的典型解码》。 |
watermark | 布尔值 | 使用大型语言模型水印进行水印。 |
流 | 布尔值 |
响应
输出类型取决于 `stream` 输入参数。如果 `stream` 为 `false`(默认),则响应将是具有以下字段的 JSON 对象:
正文 | ||
---|---|---|
详情 | 对象 | |
best_of_sequences | 对象数组 | |
finish_reason | 枚举 | 可能值:长度、eos_token、stop_sequence。 |
generated_text | 字符串 | |
generated_tokens | 整数 | |
prefill | 对象数组 | |
ID | 整数 | |
logprob | 数字 | |
文本 | 字符串 | |
种子 | 整数 | |
tokens | 对象数组 | |
ID | 整数 | |
logprob | 数字 | |
特殊 | 布尔值 | |
文本 | 字符串 | |
top_tokens | 数组[] | |
ID | 整数 | |
logprob | 数字 | |
特殊 | 布尔值 | |
文本 | 字符串 | |
finish_reason | 枚举 | 可能值:长度、eos_token、stop_sequence。 |
generated_tokens | 整数 | |
prefill | 对象数组 | |
ID | 整数 | |
logprob | 数字 | |
文本 | 字符串 | |
seed | 整数 | |
tokens | 对象数组 | |
ID | 整数 | |
logprob | 数字 | |
特殊 | 布尔值 | |
文本 | 字符串 | |
top_tokens | 数组[] | |
ID | 整数 | |
logprob | 数字 | |
特殊 | 布尔值 | |
文本 | 字符串 | |
生成的文本 | 字符串 |
如果 `stream` 为 `true`,生成的令牌将作为流返回,使用服务器发送事件 (SSE)。有关流的更多信息,请查看本指南。
正文 | ||
---|---|---|
详情 | 对象 | |
finish_reason | 枚举 | 可能值:长度、eos_token、stop_sequence。 |
generated_tokens | 整数 | |
input_length | 整数 | |
seed | 整数 | |
生成的文本 | 字符串 | |
索引 | 整数 | |
token | 对象 | |
ID | 整数 | |
logprob | 数字 | |
特殊 | 布尔值 | |
文本 | 字符串 | |
top_tokens | 对象数组 | |
ID | 整数 | |
logprob | 数字 | |
特殊 | 布尔值 | |
文本 | 字符串 |