1. 速率限制概述

1.1 什么是速率限制

速率限制是指用户 API 在指定时间内访问 SiliconCloud 平台服务次数的限制。

1.2 为什么做速率限制

速率限制是 API 的常见做法,其实施原因如下:

  • 保障资源的公平性及合理利用:确保资源公平使用。 防止某些用户过多请求,影响其他用户的正常使用体验。
  • 防止请求过载:提高服务可靠性。帮助管理平台总体负载,避免因请求激增而导致服务器出现性能问题。
  • 安全防护:防止恶意性攻击,导致平台过载甚至服务中断。

1.3 速率限制指标

目前速率限制以四种指标衡量:

  • RPM( requests per minute,一分钟最多发起的请求数)
  • TPM( tokens per minute,一分钟最多消耗的 token 数)
  • IPM( images per minute,一分钟最多生成的图片数)
  • IPD( images per day,一天最多生成的图片数)

1.4 不同模型的速率限制指标概览

模型名称限速指标当前限速
文本生成模型(Chat)RPM、 TPMRPM=1000-10000 TPM=50000-5000000
向量模型(Embedding)RPM、 TPMRPM:2000-10000 TPM:500000-10000000
重排序模型(Reranker)RPM、 TPMRPM:2000 TPM:500000
图像生成模型(Image)IPM、IPDIPM:2- IPD:400-
多模态模型 (Multimodal Models)--

速率限制可能会因在任一选项(RPM、TPM、IPM、IPD)中达峰而触发,取决于哪个先发生。 例如,在 RPM 限制为20,TPM 限制为 200K 时,一分钟内,账户向 ChatCompletions 发送了 20 个请求,每个请求有 100个Token ,限制即触发,即使账户在这些 20 个请求中没有发满 200K 个 Token。

1.5 速率限制主体

  1. 速率限制是在用户账户级别定义的,而不是密钥(API key)维度。
  2. 每个模型单独限速,一个模型速率被限速不影响其他模型正常使用。

2. 速率限制规则

  • 当前免费模型限速是固定值,收费模型根据账户用量级别进行分层限速。
  • 同一用量级别下,模型类别不同、模型参数量不同,速率峰值不同。

2.1 免费模型限速

  1. 实名认证后使用全部的免费模型。
  2. 免费模型调用免费,账户的费用账单中看到此类模型的费用为调用消耗是 0。
  3. 免费模型的限速固定。对于部分模型,平台同时提供免费版收费版。免费版按照原名称命名;收费版会在名称前加上“Pro/”以示区分。例如,Qwen2-7B-Instruct 的免费版命名为“Qwen/Qwen2-7B-Instruct”,收费版则命名为“Pro/Qwen/Qwen2-7B-Instruct”。

2.2 收费模型限速

  1. 按照用量付费。API 调用消耗计入账户费用账单
  2. 根据账户用量级别进行分层限速。速率峰值随着用量级别提升而增大。
  3. 同一用量级别下,模型类别不同、模型参数量大小不同,速率峰值不同。

2.3 用户用量级别与限速

平台依据账户每月消费金额将其划分为不同的用量级别,每个级别有各自的限速标准。月消费达到更高级别标准时,自动升级至相应用量级别。升级立即生效,并提供更宽松的速率限制。

  • 月消费金额:包含充值金额消费和赠送金额在内的账户每个月的总消费金额
  • 级别设置:比较上个自然月当月 1 号到今日的消费金额,取最高值换算成对应的用量级别。新用户注册后初始用量级别为L0。
用量级别资质(单位:人民币元)
LO上月或当月消费金额最高值 < ¥50
L1¥50 ≤ 上月或当月消费金额最高值 < ¥200
L2¥200 ≤ 上月或当月消费金额最高值 < ¥2000
L3¥2000 ≤ 上月或当月消费金额最高值 < ¥5000
L4¥5000 ≤ 上月或当月消费金额最高值 < ¥10000
L5¥10000 ≤ 上月或当月消费金额最高值

2.4 模型类别与参数

文本生成根据模型参数量大小划分成以下四种。同一用量级别下,所使用的模型参数量越大,其速率峰值越小。规则如下:

文本生成模型参数量LO-L5
0-10B(不含)RPM=1K-10K, TPM=80K-5000K
10-50B(不含)RPM=1K-10K, TPM=40K-2000K
50-200B(不含)RPM=1K-10K, TPM=20K-1000K
200B以上RPM=1K-10K, TPM=10K-500K

3. 限速详情

模型的具体限速数值

平台目前提供文本生成、图像生成、向量化、重排序和多模态五大类模型。

以下是模型的具体限速:

3.1 文本生成

3.1.1 免费模型

文本生成模型名称LO~L5
Qwen/Qwen2.5-7B-InstructRPM=1K TPM=50K
Qwen/Qwen2.5-Coder-7B-InstructRPM=1K TPM=50K
Qwen/Qwen2-7B-InstructRPM=1K TPM=50K
Qwen/Qwen2-1.5B-InstructRPM=1K TPM=50K
meta-llama/Meta-Llama-3-8B-InstructRPM=1K TPM=50K
meta-llama/Meta-Llama-3.1-8B-InstructRPM=1K TPM=50K
01-ai/Yi-1.5-9B-Chat-16KRPM=1K TPM=50K
01-ai/Yi-1.5-6B-ChatRPM=1K TPM=50K
internlm/internlm2_5-7b-chatRPM=1K TPM=50K
THUDM/chatglm3-6bRPM=1K TPM=50K
THUDM/glm-4-9b-chatRPM=1K TPM=50K
google/gemma-2-9b-itRPM=1K TPM=50K

3.1.2 收费模型

0-10B(不含)

文本生成模型名称L0L1L2L3L4L5
Pro/Qwen/Qwen2.5-7B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/Qwen2.5-Coder-7B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/Qwen/Qwen2-7B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/Qwen/Qwen2-1.5B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/meta-llama/Meta-Llama-3.1-8B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/meta-llama/Meta-Llama-3-8B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/01-ai/Yi-1.5-6B-ChatRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/01-ai/Yi-1.5-9B-Chat-16KRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/internlm/internlm2_5-7b-chatRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/THUDM/glm-4-9b-chatRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/THUDM/chatglm3-6bRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/google/gemma-2-9b-itRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K

10-50B(不含)

文本生成模型名称L0L1L2L3L4L5
Qwen/Qwen2.5-32B-InstructRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
Qwen/Qwen2.5-14B-InstructRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
01-ai/Yi-1.5-34B-Chat-16KRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
internlm/internlm2_5-20b-chatRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
google/gemma-2-27b-itRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K

50-200B(不含)

文本生成模型名称L0L1L2L3L4L5
meta-llama/Meta-Llama-3.1-70B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
meta-llama/Meta-Llama-3-70B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2.5-72B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2.5-Math-72B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2-57B-A14B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2-72B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2-Math-72B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K

200B以上

文本生成模型名称L0L1L2L3L4L5
deepseek-ai/DeepSeek-V2-ChatRPM=1K TPM=10KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K
deepseek-ai/DeepSeek-Coder-V2-InstructRPM=1K TPM=20KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K
deepseek-ai/DeepSeek-V2.5RPM=1K TPM=20KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K
meta-llama/Meta-Llama-3.1-405B-InstructRPM=1K TPM=10KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K

3.2 向量模型

3.2.1 免费模型

向量模型名称LO-L5
BAAI/bge-m3RPM=2K, TPM=500K
BAAI/bge-large-en-v1.5RPM=2K, TPM=500K
BAAI/bge-large-zh-v1.5RPM=2K, TPM=500K
netease-youdao/bce-embedding-base_v1RPM=2K, TPM=500K

3.2.2 收费模型

向量模型名称L0L1L2L3L4L5
pro/BAAI/bge-m3RPM=2K TPM=1000KRPM=3K TPM=1000KRPM=5K TPM=1000KRPM=5K TPM=5000KRPM=10K TPM=5000KRPM=10K TPM=10000K

3.3 重排序模型

3.3.1 免费模型

重排序模型名称LO-L5
BAAl/bge-reranker-v2-m3RPM=2K TPM=500K
netease-youdao/bce-reranker-base_v1RPM=2K TPM=500K

3.4 图像生成

3.4.1 免费模型

图像生成模型名称LO~L5
black-forest-labs/FLUX.1-schnellIPM=2 IPD=400
ByteDance/SDXL-LightningIPM=2 IPD=400
InstantX/InstantIDIPM=2 IPD=400
stabilityai/stable-diffusion-xl-base-1.0IPM=2 IPD=400
stabilityai/stable-diffusion-2-1IPM=2 IPD=400
stabilityai/sdxl-turboIPM=2 IPD=400
stabilityai/sd-turboIPM=2 IPD=400
stabilityai/stable-diffusion-3-mediumIPM=2 IPD=400
TencentARC/PhotoMakerIPM=2 IPD=400

3.4.2 收费模型

图像生成模型名称LO~L5
black-forest-labs/FLUX.1-dev暂不限速
Pro/black-forest-labs/FLUX.1-schnell暂不限速

3.5 多模态模型

暂不限速。

多模态模型名称LO-L5
iic/SenseVoiceSmall/

4. 限速处理

4.1 限速报错信息

  • 在您的场景中,如果频繁出现 429 错误信息,【注意事项】 被限速了该怎么办? 如果超出速率调用限制,用户的 API 请求将会因为限速控制而失败。用户需要等待一段时间待满足限速条件后方能再次调用。对应的 HTTP 错误信息为: HTTP/1.1 429 Too Many Requests Content Type: text/html Request was rejected due to rate limiting. If you want more, please contact contact@siliconflow.cn

4.2 限速处理方式

  • 您可以参考速率处理代码逻辑 进行错误回避。
  • 您也可以通过提升用量级别来提升模型速率,以达成您的业务目标。

4.3 如何提升模型速率限制指标

  • 提高用量:您可以通过提高用量来增加月消费金额,满足下一级别资质时,会自动升级。
  • 购买升级包:如果您需要快速达到更高用量级别、提高限速峰值,可以通过购买升级包来提升用量级别。
  • 联系我们:如果您需要测试更高用量级别的速率是否满足生产需求,或者短期需要更高速率峰值,请联系我们

5. 模型限速升级包

5.1 适用场景

  • 适用于需要快速提升用量级别来获取更高速率峰值的场景。用户可根据实际业务需求购买相应等级包。

5.2 模型限速升级包购买细则

  • 购买升级包仅支持使用平台充值余额进行支付,不支持使用平台赠送余额进行支付。
  • 专属实例不在此列,如有需求请联系您的专属客户经理。

用量级别 1-5 的升级包价格:

用量级别升级包价格
用量级别150元
用量级别2200元
用量级别31000元
用量级别42000元
用量级别55000元

5.3 升级包注意事项

  • 升级到更高用量级别的费用固定。例如,从用量级别 1 或从用量级别 4 升级到用量级别 5 ,费用均为 5000 元。
  • 升级包购买之后仅当月(自然月)有效,下月1日根据上个自然月的消费金额重新调整账户用量级别。
  • 升级包的发票开具,参考开具发票一节。