速度限制
速率限制
1. 速率限制概述
1.1 什么是速率限制
速率限制是指用户 API 在指定时间内访问 SiliconCloud 平台服务次数的限制。
1.2 为什么做速率限制
速率限制是 API 的常见做法,其实施原因如下:
- 保障资源的公平性及合理利用:确保资源公平使用。 防止某些用户过多请求,影响其他用户的正常使用体验。
- 防止请求过载:提高服务可靠性。帮助管理平台总体负载,避免因请求激增而导致服务器出现性能问题。
- 安全防护:防止恶意性攻击,导致平台过载甚至服务中断。
1.3 速率限制指标
目前速率限制以四种指标衡量:
- RPM( requests per minute,一分钟最多发起的请求数)
- TPM( tokens per minute,一分钟最多消耗的 token 数)
- IPM( images per minute,一分钟最多生成的图片数)
- IPD( images per day,一天最多生成的图片数)
1.4 不同模型的速率限制指标概览
模型名称 | 限速指标 | 升级时间 | 当前限速 |
---|---|---|---|
文本生成模型(Chat) | RPM、 TPM | 2024年8月1日 | RPM=1000-10000 TPM=50000-5000000 |
向量模型(Embedding) | RPM、 TPM | RPM:2000 TPM:500000 | |
重排序模型(Reranker) | RPM、 TPM | - | RPM:2000 TPM:500000 |
图像生成模型(Image) | IPM、IPD | 2024年9月23日上线 | IPM:2- IPD:400- |
多模态模型 (Multimodal Models) | 待定 | - |
速率限制可能会因在任一选项(RPM、TPM、IPM、IPD)中达峰而触发,取决于哪个先发生。 例如,在 RPM 限制为20,TPM 限制为 200K 时,一分钟内,账户向 ChatCompletions 发送了 20 个请求,每个请求有 100个Token ,限制即触发,即使账户在这些 20 个请求中没有发满 200K 个 Token。
1.5 速率限制主体
- 速率限制是在用户账户级别定义的,而不是密钥(API key)维度。
- 每个模型单独限速,一个模型速率被限速不影响其他模型正常使用。
2. 速率限制规则
- 当前免费模型限速是固定值,而付费模型根据账户用量级别进行分层限速。
- 同一用量级别下,模型类别不同、模型参数量不同,速率峰值不同。
2.1 免费模型限速
- 进行实名认证后使用全部的免费模型。
- 免费模型调用免费,账户的费用账单中看到此类模型的费用为调用消耗是 0。
- 免费模型的限速固定。对于部分模型,平台同时提供免费版和收费版。免费版按照原名称命名;收费版会在名称前加上“Pro/”以示区分。例如,Qwen2-7B-Instruct 的免费版命名为“Qwen/Qwen2-7B-Instruct”,收费版则命名为“Pro/Qwen/Qwen2-7B-Instruct”。
2.2 付费模型限速
- 按照用量付费。API 调用消耗计入账户费用账单。
- 根据账户用量级别进行分层限速。速率峰值随着用量级别提升而增大。
- 同一用量级别下,模型类别不同、模型参数量大小不同,速率峰值不同。
2.3 用户用量级别
- 月消费金额:用户消费金额。
- 用量级别设定:根据账户最近三个月(当前月份与前两个月)中月消费金额的最高值来定级。新用户注册后初始用量级别为L0。
- 升级权益:月消费金额达到更高级别标准时,账户自动提升至相应用量级别。升级立即生效,并提供更宽松的速率限制。
- 级别查看:您可以在“账户管理-速率限制”中查看您组织当前的用量级别和限制速率详情。
用量级别 | 资质(单位:人民币元) |
---|---|
LO | ¥0 ≤ 最近三个月中最高月消费金额值 < ¥50 |
L1 | ¥50 ≤ 最近三个月中最高月消费金额值 < ¥200 |
L2 | ¥200 ≤ 最近三个月中最高月消费金额值 < ¥2000 |
L3 | ¥2000 ≤ 最近三个月中最高月消费金额值 < ¥5000 |
L4 | ¥5000 ≤ 最近三个月中最高月消费金额值 < ¥10000 |
L5 | ¥10000 ≤ 最近三个月中最高月消费金额值 |
2.4 模型类别与参数
根据模型参数量大小划分成以下四种。同一用量级别下,所使用的模型参数量越大,其速率峰值越小。规则如下:
模型参数量 | LO-L5 |
---|---|
0-10B(不含) | RPM=1K-10K, TPM=80K-5000K |
10-50B(不含) | RPM=1K-10K, TPM=40K-2000K |
50-200B(不含) | RPM=1K-10K, TPM=20000-1000K |
200B以上 | RPM=1K-10K, TPM=10K-500K |
3. 限速详情
模型的具体限速数值
平台目前提供文本生成、图像生成、向量化、重排序和多模态五大类模型。
以下是模型的具体限速:
3.1 文本生成
3.1.1 免费模型
文本生成模型名称 | LO~L5 |
---|---|
Qwen/Qwen2.5-7B-Instruct | RPM=1K TPM=50K |
Qwen/Qwen2.5-Coder-7B-Instruct | RPM=1K TPM=50K |
Qwen/Qwen2-7B-Instruct | RPM=1K TPM=50K |
Qwen/Qwen2-1.5B-Instruct | RPM=1K TPM=50K |
meta-llama/Meta-Llama-3-8B-Instruct | RPM=1K TPM=50K |
meta-llama/Meta-Llama-3.1-8B-Instruct | RPM=1K TPM=50K |
01-ai/Yi-1.5-9B-Chat-16K | RPM=1K TPM=50K |
01-ai/Yi-1.5-6B-Chat | RPM=1K TPM=50K |
internlm/internlm2_5-7b-chat | RPM=1K TPM=50K |
THUDM/chatglm3-6b | RPM=1K TPM=50K |
THUDM/glm-4-9b-chat | RPM=1K TPM=50K |
google/gemma-2-9b-it | RPM=1K TPM=50K |
3.1.2 付费模型
0-10B(不含)
文本生成模型名称 | L0 | L1 | L2 | L3 | L4 | L5 |
---|---|---|---|---|---|---|
Pro/Qwen/Qwen2.5-7B-Instruct | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/Qwen2.5-Coder-7B-Instruct | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/Qwen/Qwen2-7B-Instruct | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/Qwen/Qwen2-1.5B-Instruct | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/meta-llama/Meta-Llama-3.1-8B-Instruct | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/meta-llama/Meta-Llama-3-8B-Instruct | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/01-ai/Yi-1.5-6B-Chat | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/01-ai/Yi-1.5-9B-Chat-16K | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/internlm/internlm2_5-7b-chat | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/THUDM/glm-4-9b-chat | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/THUDM/chatglm3-6b | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
Pro/google/gemma-2-9b-it | RPM=1K TPM=80K | RPM=1.2K TPM=120K | RPM=2K TPM=160K | RPM=4K TPM=320K | RPM=8K TPM=1000K | RPM=10K TPM=5000K |
10-50B(不含)
文本生成模型名称 | L0 | L1 | L2 | L3 | L4 | L5 |
---|---|---|---|---|---|---|
Qwen/Qwen2.5-32B-Instruct | RPM=1K TPM=40K | RPM=1.2K TPM=60K | RPM=2K TPM=80K | RPM=4K TPM=160K | RPM=8K TPM=500K | RPM=10K TPM=2000K |
Qwen/Qwen2.5-14B-Instruct | RPM=1K TPM=40K | RPM=1.2K TPM=60K | RPM=2K TPM=80K | RPM=4K TPM=160K | RPM=8K TPM=500K | RPM=10K TPM=2000K |
01-ai/Yi-1.5-34B-Chat-16K | RPM=1K TPM=40K | RPM=1.2K TPM=60K | RPM=2K TPM=80K | RPM=4K TPM=160K | RPM=8K TPM=500K | RPM=10K TPM=2000K |
internlm/internlm2_5-20b-chat | RPM=1K TPM=40K | RPM=1.2K TPM=60K | RPM=2K TPM=80K | RPM=4K TPM=160K | RPM=8K TPM=500K | RPM=10K TPM=2000K |
google/gemma-2-27b-it | RPM=1K TPM=40K | RPM=1.2K TPM=60K | RPM=2K TPM=80K | RPM=4K TPM=160K | RPM=8K TPM=500K | RPM=10K TPM=2000K |
50-200B(不含)
文本生成模型名称 | L0 | L1 | L2 | L3 | L4 | L5 |
---|---|---|---|---|---|---|
meta-llama/Meta-Llama-3.1-70B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
meta-llama/Meta-Llama-3-70B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
Qwen/Qwen2.5-72B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
Qwen/Qwen2.5-Math-72B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
Qwen/Qwen2-57B-A14B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
Qwen/Qwen2-72B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
Qwen/Qwen2-Math-72B-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=30K | RPM=2K TPM=40K | RPM=4K TPM=80K | RPM=8K TPM=250K | RPM=10K TPM=1000K |
200B以上
文本生成模型名称 | L0 | L1 | L2 | L3 | L4 | L5 |
---|---|---|---|---|---|---|
deepseek-ai/DeepSeek-V2-Chat | RPM=1K TPM=10K | RPM=1.2K TPM=15K | RPM=2K TPM=20K | RPM=4K TPM=40K | RPM=8K TPM=125K | RPM=10K TPM=500K |
deepseek-ai/DeepSeek-Coder-V2-Instruct | RPM=1K TPM=20K | RPM=1.2K TPM=15K | RPM=2K TPM=20K | RPM=4K TPM=40K | RPM=8K TPM=125K | RPM=10K TPM=500K |
deepseek-ai/DeepSeek-V2.5 | RPM=1K TPM=20K | RPM=1.2K TPM=15K | RPM=2K TPM=20K | RPM=4K TPM=40K | RPM=8K TPM=125K | RPM=10K TPM=500K |
meta-llama/Meta-Llama-3.1-405B-Instruct | RPM=1K TPM=10K | RPM=1.2K TPM=15K | RPM=2K TPM=20K | RPM=4K TPM=40K | RPM=8K TPM=125K | RPM=10K TPM=500K |
3.2 向量模型
限时免费。固定限速(RPM 2000,TPM 500000)。下图是目前平台提供的向量模型限速:
向量模型名称LO-L5 | LO-L5 |
---|---|
BAAI/bge-m3 | RPM=2K, TPM=500K |
BAAI/bge-large-en-v1.5 | RPM=2K, TPM=500K |
BAAI/bge-large-zh-v1.5 | RPM=2K, TPM=500K |
netease-youdao/bce-embedding-base_v1 | RPM=2K, TPM=500K |
3.3 重排序模型
限时免费。固定限速(RPM 2000,TPM 500000)。下图是目前平台提供的重排序模型限速表:
重排序模型名称 | LO-L5 |
---|---|
BAAl/bge-reranker-v2-m3 | RPM=2K, TPM=500K |
netease-youdao/bce-reranker-base_v1 | RPM=2K, TPM=500K |
3.4 图像生成
3.4.1 免费模型
图像生成模型名称 | LO~L5 |
---|---|
black-forest-labs/FLUX.1-schnell | IPM=2 IPD=400 |
ByteDance/SDXL-Lightning | IPM=2 IPD=400 |
InstantX/InstantID | IPM=2 IPD=400 |
stabilityai/stable-diffusion-xl-base-1.0 | IPM=2 IPD=400 |
stabilityai/stable-diffusion-2-1 | IPM=2 IPD=400 |
stabilityai/sdxl-turbo | IPM=2 IPD=400 |
stabilityai/sd-turbo | IPM=2 IPD=400 |
stabilityai/stable-diffusion-3-medium | IPM=2 IPD=400 |
TencentARC/PhotoMaker | IPM=2 IPD=400 |
3.4.2 收费模型
图像生成模型名称 | LO~L5 |
---|---|
black-forest-labs/FLUX.1-dev | / |
Pro/black-forest-labs/FLUX.1-schnell | / |
3.5 多模态模型
限时免费。下图是目前平台提供的多模态模型名称列表:
多模态模型名称 | LO-L5 |
---|---|
THUDM/CogVideoX-2b | / |
iic/SenseVoiceSmall | / |
4. 限速处理
4.1 限速报错信息
- 在您的场景中,如果频繁出现 429 错误信息,【注意事项】 被限速了该怎么办? 如果超出速率调用限制,用户的 API 请求将会因为限速控制而失败。用户需要等待一段时间待满足限速条件后方能再次调用。对应的 HTTP 错误信息为: HTTP/1.1 429 Too Many Requests Content Type: text/html Request was rejected due to rate limiting. If you want more, please contact [email protected]
4.2 限速处理方式
- 此处您可以参考速率处理代码逻辑 来进行错误回避。
- 此外您也可以通过提升模型限速的方式来提升模型限速,以达成您的业务目标。
4.3 如何提升模型速率限制指标
- 通过消费提高模型速率限制指标:用的越多,级别越高。用户用量达到指定值时,会自动升级到对应用量级别。
- 通过购买升级包提升速率限制指标:如果用户临时有超过当前用量级别的需求时,可以通过购买升级包的方式来临时提升用量级别。
5. 模型限速升级包
5.1 模型限速升级包功能
- 针对用户的临时提升用量级别的需求,平台通过升级包的形式来进行提供。
5.2 模型限速升级包购买细则
- 通过购买升级包后获得等值的平台代金券。
- 代金券自确认生效后 31 天内有效,过期金额会失效。
- 专属实例不在此列,如有需求请联系您的专属客户经理。
- 用量级别 1-5 的升级包价格:
用量级别 | 升级包价格 | 代金券金额 | 代金券有效时长 |
---|---|---|---|
用量级别1 | 50元 | 50元 | 自代金券生效后31天内有效 |
用量级别2 | 200元 | 200元 | 自代金券生效后31天内有效 |
用量级别3 | 2000元 | 2000元 | 自代金券生效后31天内有效 |
用量级别4 | 5000元 | 5000元 | 自代金券生效后31天内有效 |
用量级别5 | 10000元 | 10000元 | 自代金券生效后31天内有效 |
5.3 升级包购买注意
- 购买升级包仅支持使用平台充值余额进行支付,不支持使用平台赠送余额进行支付。
- 代金券自确认生效后 31 天内有效,过期金额会失效。
- 在代金券余额不为 0 且处于有效期的场景下,会优先使用代金券来支付平台 API 调用开销。
5.4 升级包操作流程
请联系[email protected]进行下单。
5.5 升级包注意事项
- 在不同的用量级别上,升级到更高的用量级别的费用是固定的。 比如此处,从用量级别 1 或者用量级别 4 升级到用量级别 5,对应的费用相同,均为 10000 元整。
- 用量级别在购买成功后即时生效,后续的升降级规则参见“限速规则-用量级别与资质”。
- 赠送的平台代金券发放在“财务管理-财务总览“的赠送金额中。
- 升级包的发票开具,参考“开具发票”一节。