限速规则

免费模型限速固定;付费模型根据账户用量级别进行分层限速。同一用量级别下,模型类别不同、模型参数量不同,速率峰值不同。

免费模型限速

  1. 调用免费,产生的API 调用消耗不计入账户费用账单
  2. 用户注册后即可使用国内免费模型。注册用户在实名认证后可使用免费国际先进模型
  3. 免费模型的限速固定。对于部分模型,平台同时提供免费版收费版。免费版按照原名称命名;收费版会在名称前加上“Pro/”以示区分。例如,Qwen2-7B-Instruct的免费版命名为“Qwen/Qwen2-7B-Instruct”,收费版则命名为“Pro/Qwen/Qwen2-7B-Instruct”。

付费模型限速

  1. 按照用量付费。API 调用消耗计入账户费用账单
  2. 根据账户用量级别进行分层限速。速率峰值随着用量级别提升而增大。
  3. 同一用量级别下,模型类别不同、模型参数量大小不同,速率峰值不同。

用量级别

  • 月消费金额:用户当月调用 API 推理消费总金额、Playground消费金额和购买升级包消费金额的总和。
  • 用量级别设定:根据账户最近三个月(当前月份与前两个月)中月消费金额的最高值来定级。新用户注册后初始用量级别为L0。
  • 升级权益:月消费金额达到更高级别标准时,账户自动提升至相应用量级别。升级立即生效,并提供更宽松的速率限制。
  • 级别查看:您可以在账户管理-速率限制中查看您组织当前的用量级别和限制速率详情。
用量级别L0L1L2L3L4L5
资质¥0≦最近三个月中最高月消费金额<¥50¥50≦最近三个月中最高月消费金额<¥200¥200≦最近三个月中最高月消费金额<¥2000¥2000≦最近三个月中最高月消费金额<¥5000¥5000≦最近三个月中最高月消费金额<¥10000¥10000≦最近三个月中最高月消费金额

模型类别与参数

根据模型参数量大小划分成以下四种。同一用量级别下,所使用的模型参数量越大,其速率峰值越小。规则如下:

模型参数量L0~L5
0-10B(不含)RPM=1K~10K TPM=80K~5000K;
10-50B(不含)RPM=1K~10K TPM=40K~2000K;
50-200B(不含)RPM=1K~10K TPM=20000~1000K;
200B以上RPM=1K~10K TPM=10K~500K;


🚧

注意事项:

  • 每个模型单独限速,一个模型速率达峰不影响其他模型正常使用。
  • 被限速了该怎么办?

如果超出速率调用限制,用户的API请求将会因为限速控制而失败。用户需要等待一段时间待满足限速条件后方能再次调用。对应的 HTTP 错误信息为:
HTTP/1.1 429
Too Many Requests
Content Type: text/html
Request was rejected due to rate limiting. If you want more, please contact [email protected]
详细报错信息与处理请参考速率处理代码逻辑