限速概述

什么是速率限制

速率限制是指用户API在指定时间内访问 SiliconCloud 平台服务次数的限制。


为什么做速率限制

速率限制是 API 的常见做法,它们的实施有几个不同的原因:

  • 保障资源的公平性及合理利用:确保资源公平使用。 防止某些用户过多请求,影响其他用户的正常使用体验。
  • 防止请求过载:提高服务可靠性。帮助管理平台总体负载,避免因请求激增而导致服务器出现性能问题。
  • 安全防护:防止恶意性攻击,导致平台过载甚至服务中断。

预置服务限速指标

目前速率限制以四种指标衡量:

  • RPM( requests per minute ,指一个账户一分钟内最多发起的请求数)、 TPM( tokens per minute 指一个账户一分钟内最多消耗的token数)
  • IPM( images per minute,指一个账户一分钟内最多生成的图片数)、IPD( images per day,指一个账户一天内最多生成的图片数) 。
模型名称限速指标升级时间当前限速
文本生成模型(Chat)RPM、TPM2024 年 8 月 1 日当前:
· RPM=1000~10000
· TPM=50000~5000000
向量模型(Embedding)RPM、TPM-当前:
· RPM:2000
· TPM:500000
重排序模型(Reranker)RPM、TPM-当前:
· RPM:2000
· TPM:500000
图像生成模型(Image)IPM、IPD即将于2024 年 9 月 23 日上线预计:
· IPM:2~100
· IPD:400~144000
多模态模型(Multimodal Models)待定--

速率限制可能会因在任一选项(RPM/TPM;IPM/IPD)中达峰而触发,取决于哪个先发生。例如,在RPM限制为20,TPM限制为200K时,一分钟内,账户向 ChatCompletions 发送了 20 个请求,每个请求有 100 个 Token ,限制即触发,即使账户在这些 20 个请求中没有发满 200K 个 Token 。

🚧

注意事项:

  • 速率限制是在用户账户级别定义的,而不是密钥( API key) 维度。