1. Rate Limits 概述

1.1 什么是 Rate Limits

Rate Limits 是指用户 API 在指定时间内访问 SiliconCloud 平台服务频次规则。

1.2 为什么做 Rate Limits

Rate Limits 是 API 的常见做法,其实施原因如下:

  • 保障资源的公平性及合理利用:确保资源公平使用。 防止某些用户过多请求,影响其他用户的正常使用体验。
  • 防止请求过载:提高服务可靠性。帮助管理平台总体负载,避免因请求激增而导致服务器出现性能问题。
  • 安全防护:防止恶意性攻击,导致平台过载甚至服务中断。

1.3 Rate Limits 指标

目前Rate Limit以四种指标衡量:

  • RPM( requests per minute,一分钟最多发起的请求数)
  • TPM( tokens per minute,一分钟最多生成的 token 数)
  • IPM( images per minute,一分钟最多生成的图片数)
  • IPD( images per day,一天最多生成的图片数)

1.4 不同模型的 Rate Limits 指标

模型名称Rate Limit指标当前指标
语言模型(Chat)RPM、 TPMRPM=1000-10000 TPM=50000-5000000
向量模型(Embedding)RPM、 TPMRPM:2000-10000 TPM:500000-10000000
重排序模型(Reranker)RPM、 TPMRPM:2000 TPM:500000
图像生成模型(Image)IPM、IPDIPM:2- IPD:400-
多模态模型 (Multimodal Models)--

Rate Limits 可能会因在任一选项(RPM、TPM、IPM、IPD)中达峰而触发,取决于哪个先发生。 例如,在 RPM 限制为20,TPM 限制为 200K 时,一分钟内,账户向 ChatCompletions 发送了 20 个请求,每个请求有 100个Token ,限制即触发,即使账户在这些 20 个请求中没有发满 200K 个 Token。

1.5 Rate Limits 主体

  1. Rate Limit是在用户账户级别定义的,而不是密钥(API key)维度。
  2. 每个模型单独设置 Rate Limit,一个模型请求超出 Rate Limit 不影响其他模型正常使用。

2. Rate Limits 规则

  • 当前免费模型 Rate Limit 指标是固定值,收费模型根据账户用量级别有不同的 Rate Limit 指标
  • 同一用量级别下,模型类别不同、模型参数量不同,Rate Limit 峰值不同。

2.1 免费模型Rate Limits

  1. 实名认证后使用全部的免费模型。
  2. 免费模型调用免费,账户的费用账单中看到此类模型的费用为调用消耗是 0。
  3. 免费模型的 Rate Limits 固定。对于部分模型,平台同时提供免费版收费版。免费版按照原名称命名;收费版会在名称前加上“Pro/”以示区分。例如,Qwen2.5-7B-Instruct 的免费版命名为“Qwen/Qwen2.5-7B-Instruct”,收费版则命名为“Pro/Qwen/Qwen2.5-7B-Instruct”。

2.2 收费模型 Rate Limits

  1. 按照用量付费。API 调用消耗计入账户费用账单
  2. 根据账户用量级别进行分层 Rate Limit 。Rate Limit 峰值随着用量级别提升而增大。
  3. 同一用量级别下,模型类别不同、模型参数量大小不同,Rate Limit 峰值不同。

2.3 用户用量级别与 Rate Limits

平台依据账户每月消费金额将其划分为不同的用量级别,每个级别有各自的 Rate Limit 标准。月消费达到更高级别标准时,自动升级至相应用量级别。升级立即生效,并提供更宽松的 Rate Limit。

  • 月消费金额:包含充值金额消费和赠送金额在内的账户每个月的总消费金额
  • 级别设置:比较上个自然月当月 1 号到今日的消费金额,取最高值换算成对应的用量级别。新用户注册后初始用量级别为L0。
用量级别资质(单位:人民币元)
L0上月或当月消费金额最高值 < ¥50
L1¥50 ≤ 上月或当月消费金额最高值 < ¥200
L2¥200 ≤ 上月或当月消费金额最高值 < ¥2000
L3¥2000 ≤ 上月或当月消费金额最高值 < ¥5000
L4¥5000 ≤ 上月或当月消费金额最高值 < ¥10000
L5¥10000 ≤ 上月或当月消费金额最高值

2.4 具体模型的 Rate Limits

平台目前提供文本生成、图像生成、向量化、重排序和语音五大类,具体模型的 Rate Limit 指标在模型广场中查看。

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

如果超出 Rate Limit 调用限制,用户的 API 请求将会因为超过 Rate Limit 而失败。用户需要等待一段时间待满足 Rate Limit 条件后方能再次调用。对应的 HTTP 错误信息为:

    HTTP/1.1 429
    Too Many Requests
    Content Type: text/html
    Request was rejected due to rate limiting. If you want more, please contact contact@siliconflow.cn

3.2 超出 Rate Limits 处理方式

  • 在已有的限速条件下,可以参考 超出 Rate Limit 处理 进行错误回避。
  • 也可以通过提升用量级别来提升模型 Rate Limit 峰值,业务目标。

4. 如何提升模型 Rate Limits 指标

4.1 提升 Rate Limit 的方式

  • 根据用量自动升级:您可以通过提高用量来增加月消费金额,满足下一级别资质时,会自动升级。
  • 购买升级包快速提升:如果您需要快速达到更高用量级别、提高 Rate Limit 峰值,可以通过购买等级包来提升用量级别。

4.2 等级包购买细则

  • 在线购买:请前往平台在线购买 等级包
  • 有效时间:升级包购买后立即生效,适用于当月(N)和下一个自然月(N+1)。自下下个自然月(N+2)起,将根据上一个月(N+1)的消费金额重新计算账户的最新用量级别。
  • 支付方式:升级包仅支持使用平台充值余额支付,不支持使用平台赠送余额支付。
  • 发票开具:关于升级包的发票开具,参考开具发票部分。
  • 专属实例:升级包不适用于专属实例需求,若有相关需求,请联系您的专属客户经理。

4.3 其他情况

  • 联系我们:不属于上述情况的场景,请联系我们