Rate Limits

1. Rate Limits 概述

1.1 什么是 Rate Limits

Rate Limits 是指用户 API 在指定时间内访问 SiliconFlow 平台服务频次规则。

1.2 为什么做 Rate Limits

Rate Limits 是 API 的常见做法，其实施原因如下：

保障资源的公平性及合理利用：确保资源公平使用。防止某些用户过多请求，影响其他用户的正常使用体验。
防止请求过载：提高服务可靠性。帮助管理平台总体负载，避免因请求激增而导致服务器出现性能问题。
安全防护：防止恶意性攻击，导致平台过载甚至服务中断。

1.3 Rate Limits 指标

目前Rate Limit以七种指标衡量：

RPM（ requests per minute，一分钟最多发起的请求数）
RPH（ requests per hour，每小时允许的最大请求数）
RPD (Requests per day，每天允许的最大请求数)
TPM（ tokens per minute，一分钟最多允许的 token 数）
TPD（ tokens per day，每天最多允许的 token 数）
IPM（ images per minute，一分钟最多生成的图片数）
IPD（ images per day，一天最多生成的图片数）

1.4 不同模型的 Rate Limits 指标

模型名称	Rate Limit指标	当前指标
语言模型(Chat)	RPM、 TPM	RPM=1000-10000 TPM=50000-5000000
向量模型(Embedding)	RPM、 TPM	RPM:2000-10000 TPM:500000-10000000
重排序模型(Reranker)	RPM、 TPM	RPM:2000 TPM:500000
图像生成模型(Image)	IPM、IPD	IPM:2 IPD:400
多模态模型 (Multimodal Models)	-	-

Rate Limits 可能会因在任一选项（RPM、RPH、RPD、TPM、TPD、IPM、IPD）中达峰而触发，取决于哪个先发生。例如，在 RPM 限制为20，TPM 限制为 200K 时，一分钟内，账户向 ChatCompletions 发送了 20 个请求，每个请求有 100个Token ，限制即触发，即使账户在这些 20 个请求中没有发满 200K 个 Token。

注意：每个模型的Rate Limits 可以通过模型广场进行查询。

1.5 Rate Limits 主体

Rate Limit是在用户账户级别定义的，而不是密钥（API key）维度。
每个模型单独设置 Rate Limits，一个模型请求超出 Rate Limits 不影响其他模型正常使用。

2. Rate Limits 规则

当前免费模型 Rate Limits 指标是固定值，收费模型根据账户用量级别有不同的 Rate Limits 指标。
同一用量级别下，模型类别不同、模型参数量不同，Rate Limits 峰值不同。

2.1 免费模型Rate Limits

实名认证后使用全部的免费模型。
免费模型调用免费，账户的费用账单中看到此类模型的费用为调用消耗是 0。
免费模型的 Rate Limits 固定。对于部分模型，平台同时提供免费版和收费版。免费版按照原名称命名；收费版会在名称前加上“Pro/”以示区分。例如，Qwen2.5-7B-Instruct 的免费版命名为“Qwen/Qwen2.5-7B-Instruct”，收费版则命名为“Pro/Qwen/Qwen2.5-7B-Instruct”。

2.2 收费模型 Rate Limits

按照用量付费。API 调用消耗计入账户费用账单。
根据账户用量级别进行分层 Rate Limits 。 Rate Limits 峰值随着用量级别提升而增大。
同一用量级别下，模型类别不同、模型参数量大小不同， Rate Limits 峰值不同。

2.3 用户用量级别与 Rate Limits

平台依据账户每月消费金额将其划分为不同的用量级别，每个级别有各自的 Rate Limits 标准。月消费达到更高级别标准时，自动升级至相应用量级别。升级立即生效，并提供更宽松的 Rate Limits。

月消费金额：包含充值金额消费和赠送金额在内的账户每个月的总消费金额。
级别设置：比较上个自然月和当月 1 号到今日的消费金额，取最高值换算成对应的用量级别。新用户注册后初始用量级别为L0。

用量级别	资质（单位：人民币元）
L0	上月或当月消费金额最高值 < ¥50
L1	¥50 ≤ 上月或当月消费金额最高值 < ¥200
L2	¥200 ≤ 上月或当月消费金额最高值 < ¥2000
L3	¥2000 ≤ 上月或当月消费金额最高值 < ¥5000
L4	¥5000 ≤ 上月或当月消费金额最高值 < ¥10000
L5	¥10000 ≤ 上月或当月消费金额最高值

2.4 具体模型的 Rate Limits

平台目前提供文本生成、图像生成、向量化、重排序和语音五大类，具体模型的 Rate Limits 指标在模型广场中查看。

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

如果超出 Rate Limits 调用限制，用户的 API 请求将会因为超过 Rate Limits 而失败。用户需要等待一段时间待满足 Rate Limits 条件后方能再次调用。对应的 HTTP 错误信息为：

    HTTP/1.1 429
    Too Many Requests
    Content Type: application/json
    Request was rejected due to rate limiting. If you want more, please contact contact@siliconflow.cn

3.2 超出 Rate Limits 处理方式

在已有的Rate Limits下，可以参考超出 Rate Limits 处理进行错误回避。
也可以通过提升用量级别来提升模型 Rate Limits 峰值，业务目标。

4. 如何提升模型 Rate Limits 指标

根据用量自动升级：您可以通过提高用量来增加月消费金额，满足下一级别资质时，会自动升级。
购买等级包快速提升：如果您需要快速达到更高用量级别、提高 Rate Limits 峰值，请联系我们。

开始使用

功能特性

常见问题

硅基流动产品集

1. Rate Limits 概述

1.1 什么是 Rate Limits

1.2 为什么做 Rate Limits

1.3 Rate Limits 指标

1.4 不同模型的 Rate Limits 指标

1.5 Rate Limits 主体

2. Rate Limits 规则

2.1 免费模型Rate Limits

2.2 收费模型 Rate Limits

2.3 用户用量级别与 Rate Limits

2.4 具体模型的 Rate Limits

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

3.2 超出 Rate Limits 处理方式

4. 如何提升模型 Rate Limits 指标

​1. Rate Limits 概述

​1.1 什么是 Rate Limits

​1.2 为什么做 Rate Limits

​1.3 Rate Limits 指标

​1.4 不同模型的 Rate Limits 指标

​1.5 Rate Limits 主体

​2. Rate Limits 规则

​2.1 免费模型Rate Limits

​2.2 收费模型 Rate Limits

​2.3 用户用量级别与 Rate Limits

​2.4 具体模型的 Rate Limits

​3. 超出 Rate Limits 处理

​3.1 超出 Rate Limits 报错信息

​3.2 超出 Rate Limits 处理方式

​4. 如何提升模型 Rate Limits 指标

1. Rate Limits 概述

1.1 什么是 Rate Limits

1.2 为什么做 Rate Limits

1.3 Rate Limits 指标

1.4 不同模型的 Rate Limits 指标

1.5 Rate Limits 主体

2. Rate Limits 规则

2.1 免费模型Rate Limits

2.2 收费模型 Rate Limits

2.3 用户用量级别与 Rate Limits

2.4 具体模型的 Rate Limits

3. 超出 Rate Limits 处理

3.1 超出 Rate Limits 报错信息

3.2 超出 Rate Limits 处理方式

4. 如何提升模型 Rate Limits 指标