1. 模型输出乱码

目前看到部分模型在不设置参数的情况下,容易出现乱码,遇到上述情况,可以尝试设置temperaturetop_ktop_pfrequency_penalty这些参数。

对应的 payload 修改为如下形式,不同语言酌情调整

    payload = {
        "model": "Qwen/Qwen2.5-Math-72B-Instruct",
        "messages": [
            {
                "role": "user",
                "content": "1+1=?",
            }
        ],
        "max_tokens": 200,  # 按需添加
        "temperature": 0.7, # 按需添加
        "top_k": 50,        # 按需添加
        "top_p": 0.7,       # 按需添加
        "frequency_penalty": 0 # 按需添加
    }

2.未实名认证的场景下,访问需要实名认证的模型

错误信息:

{
"code": 30005,
"message": "The model can only be accessed by authenticated users.",
"data": null
}

解决方案:

  • 首先自查下当前使用账户的实名状态,未实名的用户,请先实名后再使用 实名认证
  • 用户可能有多个账户,其中有某个已实名,可以将Api key更换到已实名账户下的Api key再使用

3.并发比较高的情况下,出现code返回429问题

这种问题是用户使用达到了Rate Limits限制,具体可以参考Rate Limits文档

解决方案:

  • 可以在模型广场,查询当前账户使用模型的具体Rate Limits限制,可以预估请求量级,然后通过购买等级包的形式,提高Rate Limits限制。
  • 适当降低请求并发数,使当前使用的并发小于该模型当前的Rate Limits限制,等使用一段时间后,用户等级自动升高后,再适当增加并发数。

4.关于max_tokens说明

平台提供的LLM模型,除了Qwen/QwQ-32B-PreviewAIDC-AI/Marco-o1max_tokens是8192,其他暂时都是4096,如果有特殊需求,可以请点击硅基流动MaaS线上需求收集表反馈。

5.关于context_length说明

不同的LLM模型,context_length是有差别的,具体可以在模型广场上搜索对应的模型,查看模型具体信息。

6.状态码出现504问题解决方案

使用API请求模型,code返回504的情况时,可以尝试使用"stream": true来进行API请求。

在使用API请求模型时,如果遇到返回状态码为504的情况,这通常意味着后端服务器在处理请求时超时。具体来说,504错误表示代理服务器(或网关)在尝试完成请求时,未能及时从上游服务器接收到响应。这可能是由于后端服务器处理请求的时间过长,或者网络延迟导致的。

为了解决这个问题,可以尝试使用"stream": true参数来进行API请求。"stream": true参数允许API响应以流的形式返回,这意味着客户端可以在接收到部分数据时就开始处理,而不需要等待整个响应完成。这样可以提高响应速度,尤其是在后端处理时间较长的情况下。

7.https://api.siliconflow.cn 遇到网络连接问题

新增全局接入API端点:https://api.siliconflow.com。如果您在使用源端点 https://api.siliconflow.cn 时遇到网络连接问题,建议切换至新端点尝试。

如遇其他问题,请点击硅基流动MaaS线上需求收集表反馈。