生成对话(点击查看详情)
分析一幅图像(点击查看详情)
生成json数据(点击查看详情)
消息类型 | 功能描述 | 示例内容 |
---|---|---|
system | 模型指令,设定AI角色,描述模型应一般如何行为和响应 | 例如:“你是有10年经验的儿科医生” |
user | 用户输入,将最终用户的消息传递给模型 | 例如:“幼儿持续低烧应如何处理?“ |
assistant | 模型生成的历史回复,为模型提供示例,说明它应该如何回应当前请求 | 例如:“建议先测量体温…” |
temperature
,top_k
,top_p
,frequency_penalty
这些参数。
对应的 payload 修改为如下形式,不同语言酌情调整
max_tokens
说明
max_tokens 与上下文长度
相等,由于部分模型推理服务尚在更新中,请不要在请求时将 max_tokens 设置为最大值(上下文长度),建议留出 10k 左右作为输入内容的空间。
3. 关于context_length
说明
不同的LLM模型,context_length
是有差别的,具体可以在模型广场上搜索对应的模型,
查看模型具体信息。
4. 模型输出截断问题
可以从以下几方面进行问题的排查:
错误码 | 常见原因 | 解决方案 |
---|---|---|
400 | 参数格式错误 | 检查temperature等请求参数的取值范围 |
401 | API Key 没有正确设置 | 检查API Key |
403 | 权限不够 | 最常见的原因是该模型需要实名认证,其他情况参考报错信息 |
429 | 请求频率超限 | 实施指数退避重试机制 |
503/504 | 模型过载 | 切换备用模型节点 |
总费用 = (输入tokens × 输入单价) + (输出tokens × 输出单价)