推理模型是基于深度学习的AI系统,通过逻辑推演、知识关联和上下文分析解决复杂任务,典型应用包括数学解题、代码生成、逻辑判断和多步推理场景。这类模型通常具备以下特性:
THUDM:
tencent:
MiniMaxAI:
Qwen 系列:
THUDM 系列:
deepseek-ai 系列:
请求参数:
最大上下文长度(context_length):包括用户输入长度+思维链长度+输出长度的最大内容长度,非请求参数,不需要用户自己设置。
不同模型支持的最大回复长度、最大思维链长度及最大上下文长度如下表所示:
模型 | 最大回复长度 | 最大思维链长度 | 最大上下文长度 |
---|---|---|---|
DeepSeek-R1 | 16384 | 65536 | 163840 |
DeepSeek-R1-Distill 系列 | 16384 | 32768 | 131072 |
Qwen3 系列 | 8192 | 32768 | 131072 |
QwQ-32B | 32768 | 16384 | 131072 |
GLM-Z1 系列 | 16384 | 32768 | 131072 |
MiniMax-M1-80k | 40000 | 40000 | 80000 |
Hunyuan-A13B-Instruct | 8192 | 38912 | 131072 |
GLM-4.1V-9B-Thinking | 16384 | 32768 | 65536 |
推理模型思维链与回复长度分离后,输出行为将遵循以下规则:
token
数达到 thinking_budget
,因 Qwen3
系列推理模型原生支持该参数模型将强制停止思维链推理,其他推理模型有可能会继续输出思考内容。max_tokens
或上下文长度超过context_length
限制,回复内容将进行截断,响应中的 finish_reason
字段将标记为 length
,表示因长度限制终止输出。将 temperature 设置在 0.5-0.7 范围内(推荐值为 0.6),以防止无限循环或不连贯的输出。
将 top_p 的值设置在 0.95。
避免添加系统提示,所有指令应包含在用户提示中。
对于数学问题,建议在提示中包含一个指令,例如:“请逐步推理,并将最终答案写在 \boxed 中。”
在评估模型性能时,建议进行多次测试并平均结果。
如何获取 API 密钥?
请访问 SiliconFlow 注册并获取 API 密钥。
如何处理超长文本?
可以通过调整 max_tokens 参数来控制输出的长度,但请注意最大长度为 16K。
推理模型是基于深度学习的AI系统,通过逻辑推演、知识关联和上下文分析解决复杂任务,典型应用包括数学解题、代码生成、逻辑判断和多步推理场景。这类模型通常具备以下特性:
THUDM:
tencent:
MiniMaxAI:
Qwen 系列:
THUDM 系列:
deepseek-ai 系列:
请求参数:
最大上下文长度(context_length):包括用户输入长度+思维链长度+输出长度的最大内容长度,非请求参数,不需要用户自己设置。
不同模型支持的最大回复长度、最大思维链长度及最大上下文长度如下表所示:
模型 | 最大回复长度 | 最大思维链长度 | 最大上下文长度 |
---|---|---|---|
DeepSeek-R1 | 16384 | 65536 | 163840 |
DeepSeek-R1-Distill 系列 | 16384 | 32768 | 131072 |
Qwen3 系列 | 8192 | 32768 | 131072 |
QwQ-32B | 32768 | 16384 | 131072 |
GLM-Z1 系列 | 16384 | 32768 | 131072 |
MiniMax-M1-80k | 40000 | 40000 | 80000 |
Hunyuan-A13B-Instruct | 8192 | 38912 | 131072 |
GLM-4.1V-9B-Thinking | 16384 | 32768 | 65536 |
推理模型思维链与回复长度分离后,输出行为将遵循以下规则:
token
数达到 thinking_budget
,因 Qwen3
系列推理模型原生支持该参数模型将强制停止思维链推理,其他推理模型有可能会继续输出思考内容。max_tokens
或上下文长度超过context_length
限制,回复内容将进行截断,响应中的 finish_reason
字段将标记为 length
,表示因长度限制终止输出。将 temperature 设置在 0.5-0.7 范围内(推荐值为 0.6),以防止无限循环或不连贯的输出。
将 top_p 的值设置在 0.95。
避免添加系统提示,所有指令应包含在用户提示中。
对于数学问题,建议在提示中包含一个指令,例如:“请逐步推理,并将最终答案写在 \boxed 中。”
在评估模型性能时,建议进行多次测试并平均结果。
如何获取 API 密钥?
请访问 SiliconFlow 注册并获取 API 密钥。
如何处理超长文本?
可以通过调整 max_tokens 参数来控制输出的长度,但请注意最大长度为 16K。