限速详情

模型的具体限速数值

平台目前提供文本生成、图像生成、向量化、重排序和多模态五大类模型。

以下是模型的具体限速:


文本生成

免费模型

文本生成模型名称L0~L5
01-ai/Yi-1.5-9B-Chat-16KRPM=1K TPM=50K
01-ai/Yi-1.5-6B-ChatRPM=1K TPM=50K
google/gemma-2-9b-itRPM=1K TPM=50K
internlm/internlm2_5-7b-chatRPM=1K TPM=50K
meta-llama/Meta-Llama-3-8B-InstructRPM=1K TPM=50K
meta-llama/Meta-Llama-3.1-8B-InstructRPM=1K TPM=50K
mistralai/Mistral-7B-Instruct-v0.2RPM=1K TPM=50K
Qwen/Qwen1.5-7B-ChatRPM=1K TPM=50K
Qwen/Qwen2-1.5B-InstructRPM=1K TPM=50K
Qwen/Qwen2-7B-InstructRPM=1K TPM=50K
THUDM/chatglm3-6bRPM=1K TPM=50K
THUDM/glm-4-9b-chatRPM=1K TPM=50K
Vendor-A/Qwen/Qwen2-72B-InstructRPM=1K TPM=50K

付费模型

0-10B(不含)

文本生成模型名称L0L1L2L3L4L5
Pro/01-ai/Yi-1.5-6B-ChatRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/01-ai/Yi-1.5-9B-Chat-16KRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/google/gemma-2-9b-itRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/internlm/internlm2_5-7b-chatRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/meta-llama/Meta-Llama-3.1-8B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/meta-llama/Meta-Llama-3-8B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/mistralai/Mistral-7B-Instruct-v0.2RPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/Qwen/Qwen1.5-7B-ChatRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/Qwen/Qwen2-1.5B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/Qwen/Qwen2-7B-InstructRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K
Pro/THUDM/chatglm3-6bRPM=1K TPM=80KRPM=1.2K TPM=120KRPM=2K TPM=160KRPM=4K TPM=320KRPM=8K TPM=1000KRPM=10K TPM=5000K

10-50B(不含)

文本生成模型名称L0L1L2L3L4L5
Pro/THUDM/glm-4-9b-chatRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
01-ai/Yi-1.5-34B-Chat-16KRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
internlm/internlm2_5-20b-chatRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K
google/gemma-2-27b-itRPM=1K TPM=40KRPM=1.2K TPM=60KRPM=2K TPM=80KRPM=4K TPM=160KRPM=8K TPM=500KRPM=10K TPM=2000K

50-200B(不含)

文本生成模型名称L0L1L2L3L4L5
deepseek-ai/deepseek-llm-67b-chatRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
meta-llama/Meta-Llama-3.1-70B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
meta-llama/Meta-Llama-3-70B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
mistralai/Mixtral-8x7B-Instruct-v0.1RPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen1.5-110B-ChatRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2-57B-A14B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2-72B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
Qwen/Qwen2-Math-72B-InstructRPM=1K TPM=20KRPM=1.2K TPM=30KRPM=2K TPM=40KRPM=4K TPM=80KRPM=8K TPM=250KRPM=10K TPM=1000K
deepseek-ai/DeepSeek-Coder-V2-InstructRPM=1K TPM=20KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K

200B以上

文本生成模型名称L0L1L2L3L4L5
deepseek-ai/DeepSeek-V2-ChatRPM=1K TPM=10KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K
meta-llama/Meta-Llama-3.1-405B-InstructRPM=1K TPM=10KRPM=1.2K TPM=15KRPM=2K TPM=20KRPM=4K TPM=40KRPM=8K TPM=125KRPM=10K TPM=500K

向量化

限时免费。固定限速(RPM 2000,TPM 500000)。下图是目前平台提供的向量模型限速表。

向量模型名称L0~L5
BAAI/bge-m3RPM=2K TPM=500K
BAAI/bge-large-en-v1.5RPM=2K TPM=500K
BAAI/bge-large-zh-v1.5RPM=2K TPM=500K
netease-youdao/bce-embedding-base_v1RPM=2K TPM=500K

重排序

限时免费。固定限速(RPM 2000,TPM 500000)。下图是目前平台提供的重排序模型限速表。

重排序模型名称L0~L5
BAAI/bge-reranker-v2-m3RPM=2K TPM=500K
netease-youdao/bce-reranker-base_v1RPM=2K TPM=500K

图像生成

免费模型

图像生成模型名称L0~L5
black-forest-labs/FLUX.1-devIPM=2 IPD=400
black-forest-labs/FLUX.1-schnellIPM=2 IPD=400
ByteDance/SDXL-LightningIPM=2 IPD=400
InstantX/InstantIDIPM=2 IPD=400
stabilityai/stable-diffusion-xl-base-1.0IPM=2 IPD=400
stabilityai/stable-diffusion-2-1IPM=2 IPD=400
stabilityai/sdxl-turboIPM=2 IPD=400
stabilityai/sd-turboIPM=2 IPD=400
stabilityai/stable-diffusion-3-mediumIPM=2 IPD=400
TencentARC/PhotoMakerIPM=2 IPD=400

收费模型

图像生成模型名称L0L1L2L3L4L5
black-forest-labs/FLUX.1-devIPM=2 IPD=2880IPM=4 IPD=5760IPM=10 IPD=14400IPM=2 IPD=28800IPM=40 IPD=57600IPM=100 IPD=144000

多模态

限时免费。下图是目前平台提供的多模态模型名称列表。

多模态模型名称L0~L5
THUDM/CogVideoX-2b/
iic/SenseVoiceSmall/