模型 | 最大回复长度 | 最大思维链长度 | 最大上下文长度 |
---|---|---|---|
DeepSeek-R1 | 16384 | 65536 | 163840 |
DeepSeek-R1-Distill 系列 | 16384 | 32768 | 131072 |
Qwen3 系列 | 8192 | 32768 | 131072 |
QwQ-32B | 32768 | 16384 | 131072 |
GLM-Z1 系列 | 16384 | 32768 | 131072 |
MiniMax-M1-80k | 40000 | 40000 | 80000 |
Hunyuan-A13B-Instruct | 8192 | 38912 | 131072 |
GLM-4.1V-9B-Thinking | 16384 | 32768 | 65536 |
ascend-tribe/pangu-pro-moe | 8192 | 38912 | 131072 |
token
数达到 thinking_budget
,因 Qwen3
系列推理模型原生支持该参数模型将强制停止思维链推理,其他推理模型有可能会继续输出思考内容。max_tokens
或上下文长度超过context_length
限制,回复内容将进行截断,响应中的 finish_reason
字段将标记为 length
,表示因长度限制终止输出。