1. 概述
多模态模型是能够同时处理多种模态信息(文本、图像、音频、视频)的大语言模型。SiliconFlow 提供了多个支持不同模态组合的强大模型,能够:- 视觉理解:理解图片内容、OCR、图像描述
 - 视频分析:提取视频帧、理解视频内容、动作识别
 - 音频处理:语音识别、音频内容分析
 - 多模态融合:同时处理多种媒体类型的综合分析
 
2. 支持模型概览
| 模型系列 | 视觉输入 | 音频输入 | 视频输入 | 主要特点 | 
|---|---|---|---|---|
| Qwen3-Omni 系列 | ✅ | ✅ | ✅ | 全面多模态支持,音视频同时处理 | 
| Qwen3-VL 系列 | ✅ | ❌ | ✅ | 视觉+视频理解,无音频支持 | 
| GLM 系列 | ✅ | ❌ | ❌ | 仅视觉理解 | 
| Qwen2-VL 系列 | ✅ | ❌ | ❌ | 仅视觉理解 | 
| DeepseekVL2 系列 | ✅ | ❌ | ❌ | 仅视觉理解 | 
| Step3 | ✅ | ❌ | ❌ | 仅视觉理解 | 
| DeepSeek-OCR | ✅ | ❌ | ❌ | 仅视觉理解,支持pdf输入 | 
通过模型广场查看当前支持的多模态模型列表。
支持的模型可能发生调整,请以平台实际展示为准。
3. 使用方式
所有多模态模型都通过/chat/completions 接口调用,使用标准化的 messages 格式,其中 content 可以包含不同类型的内容部分。
3.1 基本消息格式
3.2 通用参数说明
图像参数 (image_url)
url: 图像 URL 或 base64 编码数据,DeepSeek-OCR 还支持 PDF URL 或 base64 编码数据detail: 细节级别 (auto,low,high)
视频参数 (video_url)
url: 视频 URL 或 base64 编码数据detail: 细节级别 (auto,low,high)max_frames: 最大提取帧数fps: 每秒提取帧数,最终帧数为min(fps × T, max_frames)
音频参数 (audio_url)
url: 音频 URL 或 base64 编码数据
4. 使用示例
4.1 视觉理解
图像分析
多图对比
PDF OCR
DeepSeek-OCR 还支持 PDF URL 或 base64 编码数据。 DeepSeek-OCR 支持多种场景的提示词:4.2 视频理解
基础视频分析
多模态分析(视频 + 图片)
4.3 音频理解
音频内容分析
4.4 全模态分析
音视频综合分析
5. Python SDK 使用示例
5.1 视觉识别
5.2 视频分析
5.3 音频理解
6. 计费说明
6.1 视觉输入计费
不同模型的视觉内容转换方式不同。下表对比展示核心规则与计费口径:| 模型系列 | 尺寸/像素约束 | detail=low | detail=high | Token 计算方式 | 
|---|---|---|---|---|
| Qwen 系列 | 最小 56×56,最大 3584×3584;按 28 的倍数取整到区间 | 统一 448×448,≈256 token | 长宽先上取整到 28 的倍数,再等比裁剪到区间 | ceil(h/28) * ceil(w/28) | 
| DeepseekVL2 系列 | 以 384×384 为基块;1 ≤ h*w ≤ 9 的 (h,w) 块数 | 统一 384×384,421 token | 按 (h*384, w*384) 放缩,选择有效像素最大且无效像素更小的组合 | (h*w + 1) * 196 + (w + 1) * 14 + 1 | 
| GLM 系列 | 最小 28×28;按 28 的倍数取整到区间;若小于 112×112 或超出上限则回压到区间 | 统一 448×448,≈256 token | 长宽取最近 28 倍数并限制在 (12544, 4816894) 像素区间 | (h/28) * (w/28) | 
h,w为最终用于计费的像素尺寸;表中 token 为视觉输入侧的估算,实际账单以请求时的最终转换结果为准。
6.2 视频输入计费
视频内容根据提取的帧数转换为 tokens:- 最终帧数 = 
min(fps × 视频时长, max_frames) - 每帧图像按对应视觉模型的标准转换
 
6.3 音频输入计费
音频内容转换为 tokens 进行计费,对于 Qwen3 omni 多模态模型,输入音频每秒对应 13 个 token, 如 22.5s 音频对应 292 个 token。7. 最佳实践
7.1 性能优化
- 视频时长控制:建议 30 秒内以获得最佳分析效果
 - 帧数选择:
max_frames=8-16,fps=1-2通常足够 - 图像尺寸:根据模型推荐尺寸进行预处理
 
7.2 使用建议
- 逐步分析:复杂任务分解为多个简单步骤
 - 多模态组合:充分利用不同类型媒体的优势
 - 错误处理:检查媒体文件可访问性和格式兼容性
 
7.3 常见问题
Q: 文件大小限制? A: 建议音频视频文件保持适中大小,超大文件可能影响性能 Q: 可以同时处理多少个媒体文件? A: 可以在同一请求中包含多个媒体 URL,但建议控制总体数据量 Q: 帧提取策略? A: 对于长视频,合理设置fps和max_frames参数以获得最优的分析效果和成本平衡