全面解析 LongCat-Flash-Omni、Qwen3-Omni 等主流开源全模态大模型的架构设计与技术细节
- 项目简介
- 2025-2026 新增开源 Omni 模型速览
- 开源 Omni 模型全景对比
- LongCat-Flash-Omni 深度解析
- Qwen3-Omni 深度解析
- 核心架构对比分析
- 技术演进趋势
- 流式视频理解与实时解说
- 选型建议
本项目旨在深入分析当前主流的开源 Omni(全模态)多模态大模型,重点对比:
| 模型 | 机构 | 发布时间 | 核心特点 |
|---|---|---|---|
| LongCat-Flash-Omni | 美团 | 2024 | 560B MoE,128K长上下文 |
| Qwen3-Omni | 阿里巴巴 | 2025.09 | Thinker-Talker双MoE,234ms超低延迟 |
| MiniCPM-o 2.6 | 面壁智能 | 2025.01 | 8B端侧可用,全双工流式 |
| GLM-4-Voice | 智谱AI | 2024.10 | 端到端情感语音 |
| Janus-Pro | DeepSeek | 2025.01 | 理解生成统一架构 |
以下模型适合补充到当前对比体系中。参数规模统一优先采用官方模型卡、官方仓库或技术报告口径;若官方存在不同口径(如模型卡参数 vs. 文件页元数据),会在备注中说明。
| 模型 | 机构 / 团队 | 发布时间 | 模型大小 | 架构 / 特点 | 模态支持 | 备注 |
|---|---|---|---|---|---|---|
| HumanOmniV2 | HumanMLLM | 2025.07 | 9B | 强调全局上下文理解与 Omni 推理,偏视频 + 音频理解 | 文 / 图 / 音 / 视 → 文 | 更偏”理解 / 推理型 Omni”,而非统一生成型 |
| Ming-Flash-Omni | Inclusion AI | 2025.10 | 100B 总参数 / 6.1B 激活 | 稀疏统一 MoE,理解 + 生成一体 | 文 / 图 / 音 / 视 → 文 / 图 / 音 | 参数口径来自官方论文;官方仓库在 2026.02 继续发布 Ming-flash-omni 2.0 更新 |
| NExT-OMNI | NUS(新加坡国立大学) | 2025.10 | 未公开 | 基于离散流匹配(Discrete Flow Matching)的统一 Any-to-Any 生成,非自回归范式 | 文 / 图 / 音 / 视 → 文 / 图 / 音 / 视 | CC BY 4.0;arXiv:2510.13721;首个基于 DFM 的开源 Omni 模型 |
| Uni-MoE-2.0-Omni | HITsz-TMG / Lychee 系列 | 2025.11 | 基于 Qwen2.5-7B;完整集合约 33B | 动态容量 Omni-MoE,支持 10 种跨模态输入;GSPO-DPO 强化学习对齐 | 文 / 图 / 音 / 视等多模态 → 文 / 图 / 音 | 官方摘要未明确公开总参数;arXiv:2511.12609 |
| HyperCLOVAX-SEED-Omni-8B | NAVER Cloud | 2025.12 | 8B | Dense Omni,共享 next-token prediction 统一各模态;支持韩语与英语 | 文 / 图 / 音 / 视 → 文 / 图 / 音 | 官方模型卡写 8B;HF 元数据显示 11B;arXiv:2601.01792 |
| AR-Omni | ModalityDance | 2026.01 | ~7.5B(Anole-7B + CosyVoice2-0.5B) | 单一 Transformer 解码器的纯自回归 Any-to-Any;Finite-state decoding 保证生成稳定性;语音实时因子 0.88 | 文 / 图 / 音 → 文 / 图 / 音 | MIT;arXiv:2601.17761;HF: ModalityDance/AR-Omni-Chat-v0.1 |
| MERaLiON2-Omni | A*STAR(新加坡科技研究局) | 2026.02 | 10B | 面向东南亚多语言场景的 Omni 理解模型;探讨感知能力与推理能力的权衡 | 文 / 图 / 音 / 视 → 文 | 理解型 Omni;聚焦低资源语言 |
| Omni-R1 | ModalityDance | 2026.01 | 7B | 基于 SFT + RL 的多模态推理增强 Omni 模型;强化学习驱动的跨模态推理能力 | 文 / 图 / 音 / 视 → 文 | HF: ModalityDance/Omni-R1;更偏推理增强,而非生成型 |
- 最新一档开源 Omni:
Ming-Flash-Omni 2.0(2026.02)、AR-Omni(2026.01)、MERaLiON2-Omni(2026.02)是 2026 年初最新发布的代表,覆盖大参数生成、轻量纯自回归、多语言理解三个方向。 - 架构范式新分支:
NExT-OMNI引入离散流匹配(DFM)替代自回归,是目前开源 Omni 中唯一的非自回归 Any-to-Any 生成方案;AR-Omni则走向另一个极端——单流纯自回归,架构极简。 - 参数口径需区分:Omni 模型常同时出现”总参数””激活参数””HF 页面统计参数”三种口径,横向比较时需要明确区分。
- 路线进一步分化:新增模型分成三类——① 统一理解 + 生成(
Ming-Flash-Omni、HyperCLOVAX-SEED-Omni-8B、AR-Omni);② 推理 / 特定模态理解增强(HumanOmniV2、Omni-R1、MERaLiON2-Omni);③ 非自回归生成探索(NExT-OMNI)。
- HumanOmniV2:论文发布于 2025.06.26,权重与训练代码于 2025.07.01 公开,截至 2026.03 约 8 个月。Hugging Face 模型页显示为 9B params。其核心定位就是 human-centric omni reasoning,官方基准
IntentBench需要同时理解视频 + 音频 + 全局上下文,因此对视频理解任务是强支持,且属于主打方向。 - Ming-Flash-Omni / Ming-flash-omni 2.0:预览版首发于 2025.10.27,截至 2026.03 约 4 个月;
2.0官方版于 2026.02.11 发布,距今约 1 个月。官方论文口径为 100B 总参数 / 6.1B 激活参数。官方仓库明确支持Image / Text / Video / Audio输入,并提供Streaming Video Conversation用例,因此支持视频理解任务。 - NExT-OMNI:论文于 2025.10.15 发布(arXiv:2510.13721),截至 2026.03 约 5 个月。参数量未在论文摘要中公开。核心技术亮点是离散流匹配(Discrete Flow Matching)——这是目前开源 Omni 模型中唯一基于 DFM 而非自回归的 Any-to-Any 方案。代码和权重以 CC BY 4.0 开源。
- Uni-MoE-2.0-Omni:论文公开于 2025.11.16,截至 2026.03 接近 4 个月。官方技术报告说明其基于
Qwen2.5-7Bdense architecture 构建,Hugging Face 集合页显示整模为 33B。论文明确提到其在 video understanding 上有显著提升,官方示例代码也包含videos=video_inputs,因此对视频理解任务是强支持。 - HyperCLOVAX-SEED-Omni-8B:模型卡于 2026.01.06 公开,截至 2026.03 约 2 个月。官方模型卡口径为 8B,而 Hugging Face 页面元数据显示为 11B params。官方模型卡明确写有
Text / Image / Video / Audio输入与Text / Image / Audio输出,因此支持视频理解任务,但不支持视频生成输出。 - AR-Omni:论文于 2026.01.25 发布(arXiv:2601.17761),截至 2026.03 约 6 周。模型由 Anole-7B(7B)+ CosyVoice2-0.5B 组合而成,总量约 7.5B。架构极简:单一 Transformer 解码器 + 单 token 流,无专用的语音解码器分支。实测语音实时因子 0.88(低于 1 即支持实时)。以 MIT 协议开源。
- MERaLiON2-Omni:论文于 2026.02 提交,截至 2026.03 约 1 个月。参数规模 10B。由新加坡 A*STAR 主导,聚焦东南亚多语言低资源场景,并在论文中系统探讨感知能力与推理能力之间的权衡(perception vs. reasoning trade-off)。属于理解型 Omni,无多模态生成输出。
- Omni-R1:发布于 2026.01,参数规模 7B。由 ModalityDance 团队(即 AR-Omni 同一团队)发布。通过 SFT + RL 强化多模态推理能力,属于推理增强型 Omni而非生成型。HF 链接:
ModalityDance/Omni-R1。
注:上面的”多久”以 2026-03-07 为基准;参数规模优先采用官方模型卡 / 官方仓库 / 官方论文口径,若与 Hugging Face 页面元数据不一致,则一并标注。
| 维度 | LongCat-Flash-Omni | Qwen3-Omni | MiniCPM-o 2.6 | GLM-4-Voice | Janus-Pro |
|---|---|---|---|---|---|
| 总参数 | 560B | 34B (Thinker+Talker) | 8B | - | 7B |
| 激活参数 | 27B (4.8%) | Thinker 3B / Talker 0.3B | 8B | - | 7B |
| 架构 | Shortcut MoE | Thinker-Talker 双MoE | 多编码器融合 | 音频Tokenizer | 解耦视觉编码 |
| 上下文 | 128K | 32K | 8K | - | - |
| 端到端延迟 | - | 234ms (音频) | ~300ms | ~200ms | - |
| 模态支持 | 文/图/音/视 | 文/图/音/视 | 文/图/音/视 | 文/音 | 文/图 |
| 音频编码 | DFSMN | AuT (自研) | Whisper | GLM-4-Voice-Tokenizer | - |
| 位置编码 | RoPE | TM-RoPE | RoPE | RoPE | - |
| 训练数据 | - | 36T tokens | - | - | - |
| 开源协议 | 开源 | Apache 2.0 | Apache 2.0 | 开源 | MIT |
| 最小显存 | 8×H20 141G | ~24GB | ~8GB | ~12GB | ~16GB |
| 模型 | 帧粒度 | 编码器 | 最大音频长度 | 语音生成 |
|---|---|---|---|---|
| LongCat-Flash-Omni | 80ms | DFSMN (22层) | - | 4-codebook |
| Qwen3-Omni | 80ms | AuT (650M) | 40分钟 | MTP+Code2Wav |
| MiniCPM-o 2.6 | 320ms | Whisper-medium | ~10分钟 | ChatTTS |
| GLM-4-Voice | 80ms | 自研Tokenizer | - | Flow Matching |
| 模型 | ASR (WenetSpeech) | 视频理解 | 文本(MMLU) | 语音延迟 |
|---|---|---|---|---|
| LongCat-Flash-Omni | - | - | - | - |
| Qwen3-Omni | 4.69 (SOTA) | 70.5 (Video-MME) | 86.6 | 234ms |
| MiniCPM-o 2.6 | ~6.0 | ~65 | ~75 | ~300ms |
| GPT-4o (参考) | 15.30 | 71.9 | 91.3 | ~200ms |
美团 LongCat 团队开发的全能型 AI 模型 - 560B 参数 (27B 激活) 的多模态大模型
| 项目 | 规格 |
|---|---|
| 总参数量 | 560B (5600 亿) |
| 激活参数 | 27B (~4.8%) |
| 架构 | Shortcut-connected MoE (Mixture-of-Experts) |
| 模态支持 | 文本、音频、图像、视频 |
| 上下文长度 | 128K tokens |
| 音频帧粒度 | 80ms |
| 推理精度 | FP8 (单节点) / BF16 (多节点) |
┌─────────────────────────────────────────────────────────────────────┐
│ LongCat-Flash-Omni 架构 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ Visual │ │ Audio │ │ Text │ │
│ │ Encoder │ │ Encoder │ │ Embedding │ │
│ │ (Univitar) │ │ (DFSMN) │ │ (131K vocab)│ │
│ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │
│ │ │ │ │
│ └───────────────────┼───────────────────┘ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ Embedding Fusion│ ← 统一嵌入空间 (7168维) │
│ └────────┬─────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ LongCat Flash │ ← MoE 主干 (560B参数) │
│ │ (MoE Backbone) │ 激活 27B │
│ └────────┬─────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────┐ │
│ │ Output Heads │ │
│ │ (Text + Audio) │ │
│ └──────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
配置参数:
LongCatVisionConfig:
├── num_hidden_layers: 24 # Transformer 层数
├── num_attention_heads: 16 # 注意力头数
├── hidden_size: 1024 # 隐藏层维度
├── intermediate_size: 4224 # FFN 中间层维度
├── patch_size: 14 # 空间 patch 大小
├── temporal_patch_size: 2 # 时间 patch 大小 (视频)
├── image_size: 1792 # 输入图像分辨率
└── attention_type: "flash_attention"处理流程:
输入图像 (H×W×3)
↓
3D Convolution (kernel: [2, 14, 14])
↓
Patch Embeddings (1024维)
↓
24× Transformer Layers
├── FlashAttention (双向)
├── 2D Rotary Position Embedding
├── SwiGLU Activation
└── RMSNorm
↓
Vision Projector (1024 → 7168)
↓
输出 (7168维, 与文本对齐)
配置参数:
LongCatAudioConfig:
├── input_size: 1200 # fbank 特征维度
├── hidden_size: 6144 # FSMN 隐藏层
├── proj_size: 1536 # 投影层维度
├── nlayer: 22 # DFSMN 层数
├── ndnn: 2 # DNN 层数
├── left_order: 10 # 左记忆窗口 (800ms)
├── right_order: 1 # 右记忆窗口 (80ms)
└── activation: relu6DFSMN 架构:
输入音频特征 (1200维 fbank)
↓
22× DFSMN Layers
├── Memory Block
│ └── Depthwise 1D Conv (kernel_size = 12)
└── FFN Block
├── LayerNorm
├── Linear (1200 → 6144)
├── ReLU6
└── Linear (6144 → 1200)
↓
2× DNN Layers
↓
Audio Projector (1200 → 7168)
↓
输出 (7168维)
音频帧粒度: 每帧 80ms
┌─────────────────────────────────────────────────────────────────┐
│ LongCat MoE 架构 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 输入Embedding (7168维) │
│ ↓ │
│ ┌─────────────────────────────────────────────────────────────┐│
│ │ MoE Layer ││
│ │ ┌─────────┐ ││
│ │ │ Router │ → 选择 Top-2 专家 ││
│ │ └────┬────┘ ││
│ │ ↓ ││
│ │ ┌────┴────┬────────┬────────┬────────┐ ││
│ │ │ 专家0 │ 专家1 │ 专家2 │ ... │ 专家63 ││
│ │ │ (文本) │ (视觉) │ (音频) │ │ (混合) ││
│ │ │ ~9B │ ~9B │ ~9B │ │ ~9B ││
│ │ └────┬────┴───┬────┴────────┘ └───────────────────┘││
│ │ └────┬───┘ ││
│ │ ↓ ││
│ │ 加权融合输出 ││
│ └─────────────────────────────────────────────────────────────┘│
│ │
│ 每层激活参数: ~0.5B (2专家 × 每层参数) │
│ 总激活参数: 27B │
│ 总参数量: 560B │
│ │
└─────────────────────────────────────────────────────────────────┘
完整调用链:
longcat_omni_demo.py:main()
│
├─→ init_global_config(args)
│ └─→ set_global_variables(config)
│
├─→ LoncatOmniInfer.__init__(args)
│ │
│ ├─→ build_modality_models()
│ │ ├─→ TextEmbedding()
│ │ ├─→ LongCatOmniVisionAdaptor()
│ │ ├─→ LongCatOmniAudioAdaptor()
│ │ ├─→ AudioEmbedding(audio_head_num=4)
│ │ ├─→ DataProcessor()
│ │ └─→ OmniUnifiedPostProcessor()
│ │
│ └─→ create_sglang_engine()
│
└─→ infer_engine.generate(input, sampling_params)
单次推理详细流程:
# 步骤 1: 数据预处理
def _process_input(input_dict):
data = self._input_processor.process(input_dict)
# 返回: prompts, audios, audio_masks, images, grid_shapes
# 步骤 2: 嵌入生成
def _get_input_embedding(input_ids, codecs, audios, images):
# 2.1 基础文本嵌入
merged = self.text_embedding(input_ids)
# 2.2 音频 codec 嵌入 (4个 codebook 相加)
if codecs is not None:
audio_embs = self.audio_embedding(codecs)
for i in range(4):
merged += audio_embs[i]
# 2.3 连续音频嵌入 (替换 pad 位置)
if audios is not None:
audio_emb = self.audio_adaptor_model(audios, audio_masks)
merged[audio_pad_mask] = audio_emb
# 2.4 视觉嵌入 (替换 pad 位置)
if images is not None:
vision_emb = self.vision_adaptor_model(images, grid_shapes)
merged[vision_pad_mask] = vision_emb
return merged
# 步骤 3: SGLang 推理
async def generate():
output = await self.sglang_engine.async_generate(
input_embeds=input_embedding,
sampling_params={"temperature": 1.0, "max_new_tokens": 4096}
)
return output
# 步骤 4: 后处理
def post_processor.process(output):
text = tokenizer.decode(output["output_ids"])
waveform = codec_decoder.decode(output["aux_info"]["audio_codes"])
return ProcessedOutput(text=text, audio_waveform=waveform)特殊 Token 定义:
# 音频相关
AUDIO_BOS_TOKEN = "<|audio|>" # 音频开始
AUDIO_EOS_TOKEN = "<|/audio|>" # 音频结束
AUDIO_PAD_TOKEN = "<|audio_pad|>" # 音频填充占位符
# 视觉相关
IMAGE_PAD_TOKEN = "<|image_pad|>" # 图像填充
DEFAULT_IMAGE_TOKEN = "<image>"
# 对话角色
SYSTEM_BOS_TOKEN = "<begin-of-system>"
USER_BOS_TOKEN = "<begin-of-user>"
ASSISTANT_BOS_TOKEN = "<begin-of-assistant>"
# 音频 Codec
CODEC_EOS_ID = 2
CODEC_PAD_ID = 3
NUM_CODEC_PLACEHOLDERS = 32嵌入融合策略:
# 文本: 直接 embedding
merged = text_embedding(input_ids)
# 音频 Codec: 相加融合
for i in range(4):
merged += audio_embedding[i](codecs[:, :, i])
# 连续音频: 替换 pad 位置
merged[audio_pad_mask] = audio_adaptor_embedding
# 视觉: 替换 pad 位置
merged[vision_pad_mask] = vision_adaptor_embedding音频 Codec 结构:
4-codebook 编码:
┌─────────────────────────────────────────────┐
│ Codebook 0: 语义 Token (Semantic) │
│ Codebook 1-3: 声学 Token (Acoustic) │
│ │
│ 每帧 80ms → 4 个 token │
│ Codec ID 偏移: +32 │
└─────────────────────────────────────────────┘
TP + EP 并行架构:
┌────────────────────────────────────────────────────────────┐
│ TP + EP 并行架构 │
├────────────────────────────────────────────────────────────┤
│ │
│ Node 0 Node 1 │
│ ┌────┬────┬────┬────┐ ┌────┬────┬────┬────┐│
│ │GPU0│GPU1│GPU2│GPU3│ │GPU4│GPU5│GPU6│GPU7││
│ ├────┼────┼────┼────┤ ├────┼────┼────┼────┤│
│ │ TP │ TP │ TP │ TP │ │ TP │ TP │ TP │ TP ││
│ │ EP │ EP │ EP │ EP │ │ EP │ EP │ EP │ EP ││
│ │ E0 │ E1 │ E2 │ E3 │ │ E4 │ E5 │ E6 │ E7 ││
│ └────┴────┴────┴────┘ └────┴────┴────┴────┘│
│ │
│ TP (Tensor Parallelism): 模型层内切分 │
│ EP (Expert Parallelism): MoE 专家分布 │
│ │
└────────────────────────────────────────────────────────────┘
推荐配置:
| 配置 | GPU | 精度 | 参数 |
|---|---|---|---|
| 单节点 | 8× H20-141G | FP8 | --tp-size 8 --ep-size 8 |
| 双节点 | 16× H800-80G | BF16 | --tp-size 16 --ep-size 16 --nodes 2 |
最低配置:
- GPU: 单节点 8× H20-141G (141GB VRAM)
- 精度: FP8
- 并行: TP=8, EP=8
推荐配置:
- GPU: 双节点 16× H800-80G (80GB VRAM)
- 精度: BF16
- 并行: TP=16, EP=16
阿里巴巴 Qwen 团队 2025年9月发布的全模态端到端模型 - 首个无性能退化的多模态系统
| 项目 | 规格 |
|---|---|
| 总参数量 | Thinker 30B + Talker 3B = ~34B |
| 激活参数 | Thinker 3B + Talker 0.3B |
| 架构 | Thinker-Talker 双 MoE |
| 模态支持 | 文本、音频、图像、视频 |
| 上下文长度 | 32K tokens |
| 端到端延迟 | 234ms (音频) / 547ms (视频) |
| 音频帧粒度 | 80ms |
| 训练数据 | 36T tokens |
| 开源协议 | Apache 2.0 |
"全能不偏科" - 36项音视频基准测试,32项开源SOTA
| 能力 | 表现 |
|---|---|
| ASR (WenetSpeech) | 4.69 WER (超越 GPT-4o 的 15.30) |
| 视频理解 (Video-MME) | 70.5 |
| 文本 (MMLU) | 86.6 (与同规模单模态持平) |
| 多语言 | 119种文本 / 19种语音输入 / 10种语音输出 |
| 长音频 | 支持 40分钟 音频输入 |
┌─────────────────────────────────────────────────────────────────────────────┐
│ Qwen3-Omni 架构全景 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────────────────────────────────────────────────┐ │
│ │ 感知层 (Perception) │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌───────────┐ │ │
│ │ │ 文本输入 │ │ 音频输入 │ │ 图像输入 │ │ 视频输入 │ │ │
│ │ │ Tokenizer │ │ AuT编码器 │ │ SigLIP2编码器 │ │ (同上) │ │ │
│ │ │ 151K词汇表 │ │ 650M参数 │ │ 540M参数 │ │ │ │ │
│ │ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ └─────┬─────┘ │ │
│ │ └─────────────────┴─────────────────┴────────────────┘ │ │
│ │ ↓ │ │
│ │ TM-RoPE 位置编码 │ │
│ │ (时间对齐多模态旋转位置编码) │ │
│ └────────────────────────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────────────────────────────────────────────────────────┐ │
│ │ Thinker (思考器) - MoE架构 │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────────────────┐ │ │
│ │ │ MoE Transformer (30B总参, 3B激活) │ │ │
│ │ │ 功能:多模态理解 + 文本生成 │ │ │
│ │ │ 输出:文本 Token + 高层语义特征 (给Talker) │ │ │
│ │ └─────────────────────────────────────────────────────────────┘ │ │
│ └────────────────────────────────────┬───────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────────────────────────────────────────────────────────┐ │
│ │ Talker (发声器) - MoE架构 │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────────────────┐ │ │
│ │ │ MoE Transformer (3B总参, 0.3B激活) │ │ │
│ │ │ 接收:Thinker的高层特征 + 历史对话上下文 │ │ │
│ │ │ 功能:流式语音生成 │ │ │
│ │ └────────────────────────┬────────────────────────────────────┘ │ │
│ │ ↓ │ │
│ │ ┌─────────────────────────────────────────────────────────────┐ │ │
│ │ │ MTP 模块 (80M参数) │ │ │
│ │ │ 多Token预测 - 一次生成多个码本层 │ │ │
│ │ └────────────────────────┬────────────────────────────────────┘ │ │
│ │ ↓ │ │
│ │ ┌─────────────────────────────────────────────────────────────┐ │ │
│ │ │ Code2Wav (200M参数) │ │ │
│ │ │ 轻量级因果卷积网络 - 波形合成 │ │ │
│ │ └────────────────────────┬────────────────────────────────────┘ │ │
│ │ ↓ │ │
│ │ 音频波形输出 │ │
│ └───────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────┐
│ Qwen3-Omni vs Qwen2.5-Omni 升级对比 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 1. 双MoE设计 │
│ Qwen2.5: Dense Thinker + Dense Talker │
│ Qwen3: MoE Thinker (30B-A3B) + MoE Talker (3B-A0.3B) │
│ └── 高并发下延迟更稳定,TPS更高 │
│ │
│ 2. 音频编码器升级 │
│ Qwen2.5: Whisper (外部预训练) │
│ Qwen3: AuT (自研, 2000万小时训练) │
│ └── 中文ASR更强,支持实时预填充缓存 │
│ │
│ 3. 语音表示升级 │
│ Qwen2.5: 单码本 │
│ Qwen3: 多码本 (8层) + MTP多Token预测 │
│ └── 更精细的音色和副语言建模 │
│ │
│ 4. 延迟优化 │
│ Qwen2.5: 扩散模型声码器 (DiT) │
│ Qwen3: Code2Wav轻量级卷积网络 (200M) │
│ └── 首包延迟 234ms │
│ │
│ 5. 位置编码升级 │
│ Qwen2.5: M-RoPE (固定2秒分块) │
│ Qwen3: TM-RoPE (时间锚定,灵活对齐) │
│ └── 支持任意时长流式输入 │
│ │
└─────────────────────────────────────────────────────────────────────┘
为什么替代 Whisper?
┌─────────────────────────────────────────────┐
│ AuT (Audio Transformer) │
│ 650M 参数 │
├─────────────────────────────────────────────┤
│ │
│ 输入: 原始音频波形 (16kHz) │
│ ↓ │
│ ┌─────────────────────┐ │
│ │ Conv2D 下采样 │ ← 8倍下采样 │
│ │ (滤波器组特征) │ │
│ └─────────────────────┘ │
│ ↓ │
│ ┌─────────────────────┐ │
│ │ 动态窗口 FlashAttention │
│ │ 窗口: 1-8秒可调 │
│ │ Token率: 12.5 Hz (每80ms一帧) │
│ └─────────────────────┘ │
│ ↓ │
│ 输出: 音频特征向量 │
│ │
│ 训练数据: 2000万小时有监督音频 │
│ - 80% 中英文ASR │
│ - 10% 其他语言ASR │
│ - 10% 音频理解数据 │
│ │
└─────────────────────────────────────────────┘
性能对比:
| 数据集 | GPT-4o | Gemini-2.5 | Qwen2.5-Omni | Qwen3-Omni |
|---|---|---|---|---|
| Librispeech | 1.39 | 2.89 | 1.74 | 1.22 |
| Wenetspeech | 15.30 | 14.43 | 5.91 | 4.69 |
核心创新:音视频精确同步,支持长序列
┌─────────────────────────────────────────────────────────────┐
│ TM-RoPE (Time-aligned M-RoPE) │
├─────────────────────────────────────────────────────────────┤
│ │
│ 维度分配 (相比M-RoPE优化): │
│ ┌───────────────────────────────────────────────────────┐ │
│ │ - 时间维度: 24个旋转角度 (M-RoPE: 16) │ │
│ │ - 高度维度: 20个旋转角度 │ │
│ │ - 宽度维度: 20个旋转角度 │ │
│ │ │ │
│ │ 更多时间维度 → 更好的长序列外推能力 │ │
│ └───────────────────────────────────────────────────────┘ │
│ │
│ 不同模态的处理: │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ 文本 │ │ 音频 │ │ 图像/视频│ │
│ │ │ │ │ │ │ │
│ │ T/H/W │ │ T/H/W │ │ T/H/W │ │
│ │ 相同ID │ │ 相同ID │ │ T:帧ID │ │
│ │ │ │ +绝对时间│ │ H/W:位置│ │
│ │ │ │ 80ms/步 │ │ │ │
│ └─────────┘ └─────────┘ └─────────┘ │
│ │
│ 音视频同步机制: │
│ - 音频: 每80ms一个时间ID │
│ - 视频: 按实际时间戳对齐到80ms粒度 │
│ - 连续编号: 后一模态起始位置 = 前一模态最大位置 + 1 │
│ │
│ 优势: 支持任意时长流式输入,无需固定分块 │
│ │
└─────────────────────────────────────────────────────────────┘
MTP + Code2Wav 详解:
┌──────────────────────────────────────────────────────────────────────┐
│ 流式语音生成流程 │
├──────────────────────────────────────────────────────────────────────┤
│ │
│ 传统方式 (逐个预测) Qwen3方式 (MTP一次预测) │
│ │
│ Step1: [C0] ────────→ Step1: [C0,C1,C2,C3,C4,C5,C6,C7] │
│ Step2: [C1] ────────→ ↑ │
│ Step3: [C2] ────────→ MTP模块: 一次预测所有残差码本 │
│ ... │
│ Step8: [C7] ────────→ │
│ │
│ 延迟: 8步 × 每步时间 延迟: 1步 × 每步时间 │
│ │
│ ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ │
│ │
│ Code2Wav 波形合成: │
│ │
│ Talker输出 ──→ MTP预测残差码本 ──→ Code2Wav(因果ConvNet) ──→ 波形 │
│ │
│ 对比: │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 扩散模型 DiT │ │ 轻量ConvNet │ │
│ │ (计算密集型) │ → │ (200M参数) │ │
│ │ 需等上下文 │ │ 单帧即可合成 │ │
│ │ 延迟高 │ │ 延迟极低 │ │
│ └─────────────────┘ └─────────────────┘ │
│ │
│ 首包延迟: 234ms (音频) / 547ms (视频) │
│ │
└──────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────┐
│ 分块预填充流程 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ 用户输入音频/视频流 │
│ ↓ │
│ ┌─────────────────────────────────────────────────────────────────┐│
│ │ Block 0 (2秒) ─────────────────────────────────────────────→ ││
│ │ ↓ (Thinker处理) ││
│ │ ↓ (同时) ││
│ │ Block 1 (2秒) ─────────────────────────────────────────────→ ││
│ │ ↓ (Thinker处理) ──→ 输出给Talker ──→ 开始生成语音 ││
│ │ ↓ (同时) ││
│ │ Block 2 (2秒) ─────────────────────────────────────────────→ ││
│ │ ↓ (Thinker处理下一块...) ││
│ │ ││
│ │ 关键: Thinker和Talker并行处理! ││
│ │ - Thinker处理当前块时,Talker在生成上一块的语音 ││
│ │ - 大幅降低首Token时间 (TTFT) ││
│ └─────────────────────────────────────────────────────────────────┘│
│ │
│ 并发优化: │
│ - MoE架构减少KV Cache IO消耗 │
│ - 轻量级MTP和Code2Wav支持批量推理 │
│ - 不同并发下延迟稳定 │
│ │
└─────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────┐
│ 三阶段预训练 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ Stage 1: 编码器对齐 (S1) │
│ ┌────────────────────────────────────────────────────────────────┐ │
│ │ - 冻结LLM参数 │ │
│ │ - 只训练视觉编码器(SigLIP)和音频编码器(AuT) │ │
│ │ - 目标: 让编码器输出与LLM输入空间对齐 │ │
│ └────────────────────────────────────────────────────────────────┘ │
│ ↓ │
│ Stage 2: 通用训练 (S2) │
│ ┌────────────────────────────────────────────────────────────────┐ │
│ │ - 训练所有参数 │ │
│ │ - 数据量: 2万亿 tokens │ │
│ │ ├─ 文本: 0.57T (28.5%) │ │
│ │ ├─ 音频: 0.77T (38.5%) │ │
│ │ ├─ 图像: 0.82T (41%) │ │
│ │ ├─ 视频: 0.05T (2.5%) │ │
│ │ └─ 音视频: 0.05T (2.5%) │ │
│ │ - 关键: 早期就融合单模态和跨模态数据! │ │
│ └────────────────────────────────────────────────────────────────┘ │
│ ↓ │
│ Stage 3: 长上下文 (S3) │
│ ┌────────────────────────────────────────────────────────────────┐ │
│ │ - 最大长度扩展到 32,768 tokens │ │
│ │ - 增加长音频(40分钟+)和长视频比例 │ │
│ │ - 提升长程依赖建模能力 │ │
│ └────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
清华大学 & 字节跳动智能创作实验室联合发布 - 可控人中心音视屏生成统一框架
| 项目 | 规格 |
|---|---|
| 总参数量 | 基于 Ovi 初始化 (具体规模未披露) |
| 架构 | Symmetric Conditional DiT (双流传输) |
| 模态支持 | 图像(参考身份)、音频(参考音色/驱动)、文本、视频 |
| 核心任务 | R2AV / RV2AV / RA2V 三任务统一 |
| 上下文长度 | 标准 DiT 配置 |
| 训练数据 | ~1M 高质量音视频对 (OpenHumanVid) |
| 开源协议 | 代码将开源 (论文承诺) |
┌─────────────────────────────────────────────────────────────────────────────┐
│ DreamID-Omni 架构 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ Symmetric Conditional DiT │ │
│ │ ┌─────────────────────┐ ┌─────────────────────┐ │ │
│ │ │ Video Stream │ ←────→ │ Audio Stream │ │ │
│ │ │ (视觉合成骨干) │ 双向交叉注意力 │ (音频合成骨干) │ │ │
│ │ └─────────────────────┘ └─────────────────────┘ │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ┌─────────────────────────────────┼─────────────────────────────────┐ │
│ │ 条件注入机制 │ │
│ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ Reference │ │ Source │ │ Driving │ │ │
│ │ │ Images (ℐ) │ │ Video │ │ Audio │ │ │
│ │ │ 参考身份图像 │ │ (V_src) │ │ (A_dri) │ │ │
│ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │
│ │ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ Voice │ │ Text │ │ │
│ │ │ Timbers (𝒜) │ │ Prompt │ │ │
│ │ │ 参考音色 │ │ (𝒯) │ │ │
│ │ └──────────────┘ └──────────────┘ │ │
│ └───────────────────────────────────────────────────────────────────┘ │
│ │ │
│ ┌─────────────────────────────────┼─────────────────────────────────┐ │
│ │ Dual-Level Disentanglement │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────────────┐ │ │
│ │ │ Signal Level: Syn-RoPE (同步旋转位置编码) │ │ │
│ │ │ • 目标序列: [0, L-1] │ │ │
│ │ │ • 身份k: [k·M, (k+1)·M-1] (M=150, 大间隔) │ │ │
│ │ │ • 同身份图像+音色共享相同RoPE段 → 自动绑定 │ │ │
│ │ └─────────────────────────────────────────────────────────┘ │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────────────┐ │ │
│ │ │ Semantic Level: Structured Caption (结构化描述) │ │ │
│ │ │ • <sub_1>, <sub_2> 锚点token │ │ │
│ │ │ • Video Caption / Audio Caption / Joint Caption │ │ │
│ │ │ • 显式关联主体与属性 │ │ │
│ │ └─────────────────────────────────────────────────────────┘ │ │
│ └───────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
| 任务 | 名称 | 输入条件 | 应用场景 |
|---|---|---|---|
| R2AV | Reference-to-Audio-Video | ℐ + 𝒜 + 𝒯 | 给定参考图和音色,生成说话视频 |
| RV2AV | Reference-Video-to-Audio-Video | ℐ + 𝒜 + V_src + 𝒯 | 视频人物换脸+换音色 |
| RA2V | Reference-Audio-to-Video | ℐ + A_dri + 𝒯 | 音频驱动动画(对口型) |
1. Syn-RoPE: 信号级身份-音色绑定
# RoPE 位置分配策略
positions = {
"target_video": [0, L-1], # 目标视频
"target_audio": [0, L-1] * γ, # 目标音频 (γ = Lv/La 缩放)
"ref_identity_1": [M, 2M-1], # 身份1的图像+音色
"ref_identity_2": [2M, 3M-1], # 身份2的图像+音色
# ... M=150, 确保不同身份在旋转子空间中分离
}优势:
- 利用 RoPE 周期性,不同身份自然投影到不同子空间
- 同身份的图像和音色共享位置 → 隐性跨模态同步
- 无需显式约束,注意力机制自动实现绑定
2. 多任务渐进训练策略
Stage 1: In-pair Reconstruction (10K steps)
└── 从同一样本提取参考,带掩码重建
└── 学习目标: 建立条件生成先验
Stage 2: Cross-pair Disentanglement (20K steps)
└── 从不同样本提取参考,完整重建
└── 学习目标: 强制解耦身份/音色表示
Stage 3: Omni-Task Fine-tuning (20K steps)
└── R2AV:RV2AV:RA2V = 4:3:3 混合训练
└── 学习目标: 统一三任务能力
关键洞察: 先用弱约束任务(R2AV)建立生成先验,再引入强约束任务(RV2AV/RA2V),防止强任务主导导致弱任务性能下降。
| 维度 | LongCat-Flash-Omni | Qwen3-Omni | MiniCPM-o 2.6 | GLM-4-Voice | Janus-Pro | DreamID-Omni |
|---|---|---|---|---|---|---|
| 机构 | 美团 | 阿里巴巴 | 面壁智能 | 智谱AI | DeepSeek | 清华×字节 |
| 定位 | 通用多模态大模型 | 端到端全模态 | 端侧全模态 | 语音对话 | 理解生成统一 | 可控音视频生成 |
| 发布时间 | 2024 | 2025.09 | 2025.01 | 2024.10 | 2025.01 | 2026.02 |
| 总参数 | 560B (MoE) | 34B (Thinker+Talker) | 8B | - | 7B | 基于 Ovi |
| 激活参数 | 27B | 3B / 0.3B | 8B | - | 7B | 未披露 |
| 架构 | Shortcut MoE | Thinker-Talker 双MoE | 多编码器融合 | 音频Tokenizer | 解耦视觉编码 | Symmetric DiT |
| 核心任务 | 理解+生成 | 理解+生成 | 理解+生成 | 语音对话 | 理解+生成 | R2AV/RV2AV/RA2V |
| 模态支持 | 文/图/音/视 | 文/图/音/视 | 文/图/音/视 | 文/音 | 文/图 | 图+音→视+音 |
| 上下文 | 128K | 32K | 8K | - | - | 标准 DiT |
| 延迟 | - | 234ms | ~300ms | ~200ms | - | 生成式(非实时) |
| 音频编码 | DFSMN (22层) | AuT (650M) | Whisper-medium | 自研Tokenizer | - | WavLM + CosyVoice |
| 位置编码 | RoPE | TM-RoPE | RoPE | RoPE | - | Syn-RoPE |
| 特色技术 | Shortcut Connection | Thinker-Talker解耦 | 全双工流式 | 端到端情感 | 统一自回归 | 双层解耦+三任务统一 |
| 开源协议 | 开源 | Apache 2.0 | Apache 2.0 | 开源 | MIT | 即将开源 |
| 最小显存 | 8×H20 141G | ~24GB | ~8GB | ~12GB | ~16GB | 估计 ~16GB |
┌─────────────────────────────────────────────────────────────────────────────┐
│ Omni 模型技术路线图谱 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 通用多模态大模型 (理解+生成) 专用音视频生成模型 │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ • LongCat-Flash-Omni │ │ • DreamID-Omni │ │
│ │ • Qwen3-Omni │ │ • Wan2.6 │ │
│ │ • MiniCPM-o 2.6 │ │ • Ovi │ │
│ │ • GLM-4-Voice │ │ • LTX-2 │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
│ 核心差异: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ 通用模型: 追求模态全覆盖 + 实时交互 + 大上下文 │ │
│ │ 专用模型: 追求生成质量 + 精细控制 + 多任务统一 │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
│ DreamID-Omni 的独特定位: │
│ ┌─────────────────────────────────────────────────────────────────────┐ │
│ │ • 不是通用对话模型,而是专注于「人中心音视频生成」 │ │
│ │ • 三任务统一:生成(R2AV) + 编辑(RV2AV) + 动画(RA2V) │ │
│ │ • 解决核心痛点:多人场景身份-音色绑定 + 说话人混淆 │ │
│ │ • 输出: 同步的音视频流 (而非纯文本或纯图像) │ │
│ └─────────────────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
| 模型 | 设计哲学 | 关键取舍 |
|---|---|---|
| LongCat-Flash-Omni | 大MoE追求通用能力 | 560B参数换128K长上下文,推理成本高 |
| Qwen3-Omni | 延迟优先的端到端架构 | Thinker-Talker解耦,234ms超低延迟 |
| MiniCPM-o 2.6 | 端侧可用的小模型 | 8B参数牺牲性能换部署便利 |
| Janus-Pro | 理解与生成统一 | 单一自回归模型简化架构 |
| DreamID-Omni | 生成质量与可控性优先 | 接受非实时生成,换取精细控制和三任务统一 |
| 模型 | 位置编码 | 核心创新 | 解决的问题 |
|---|---|---|---|
| LongCat-Flash-Omni | 2D RoPE | 空间位置编码 | 图像patch的位置感知 |
| Qwen3-Omni | TM-RoPE | Time-Multiplexed RoPE | 视频时间步与文本的位置对齐 |
| DreamID-Omni | Syn-RoPE | Synchronized RoPE | 多身份图像-音色的绑定与解耦 |
TM-RoPE vs Syn-RoPE:
- TM-RoPE: 解决的是「视频帧与文本token如何共享位置空间」的问题
- Syn-RoPE: 解决的是「多个参考身份的图像和音色如何绑定」的问题
┌─────────────────────────────────────────────────────────────────────────────┐
│ 两种架构范式对比 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ LongCat-Flash-Omni (单流MoE) Qwen3-Omni (双流MoE) │
│ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ 多模态输入 │ │ 多模态输入 │ │
│ │ 文/图/音/视 → Embedding │ │ 文/图/音/视 → Embedding │ │
│ └──────────┬──────────────┘ └──────────┬──────────────┘ │
│ ↓ ↓ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ Unified MoE Backbone │ │ Thinker (思考器) │ │
│ │ (560B / 激活27B) │ │ MoE 30B-A3B │ │
│ │ │ │ 功能:理解+文本生成 │ │
│ │ 统一处理所有任务 │ └──────────┬──────────────┘ │
│ │ (理解+生成) │ ↓ │
│ └──────────┬──────────────┘ ┌─────────────────────────┐ │
│ ↓ │ Talker (发声器) │ │
│ ┌─────────────────────────┐ │ MoE 3B-A0.3B │ │
│ │ Output Heads │ │ 功能:语音生成 │ │
│ │ 文本 + 音频 │ └──────────┬──────────────┘ │
│ └─────────────────────────┘ ↓ │
│ ┌─────────────────────────┐ │
│ │ MTP + Code2Wav │ │
│ │ 流式波形生成 │ │
│ └─────────────────────────┘ │
│ │
│ 特点: 特点: │
│ - 架构简单,统一优化 - 解耦设计,可独立控制 │
│ - 适合大规模部署 - 适合流式实时交互 │
│ - 上下文更长(128K) - 延迟更低(234ms) │
│ - 参数规模更大 - 支持外部干预(如RAG) │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
| 维度 | LongCat-Flash-Omni | Qwen3-Omni |
|---|---|---|
| 编码器 | DFSMN (22层) | AuT (自研) |
| 参数量 | ~300M | 650M |
| 注意力机制 | 1D Conv 记忆块 | FlashAttention + 动态窗口 |
| Token率 | 12.5 Hz | 12.5 Hz |
| 帧粒度 | 80ms | 80ms |
| 训练数据 | - | 2000万小时 |
| 中文优化 | 一般 | 强 |
| 实时缓存 | 不支持 | 支持 |
DFSMN vs AuT 架构对比:
DFSMN (LongCat) AuT (Qwen3)
┌─────────────────┐ ┌─────────────────┐
│ 1D Conv 记忆块 │ │ Conv2D 下采样 │
│ (固定窗口) │ │ (8倍) │
└────────┬────────┘ └────────┬────────┘
↓ ↓
┌─────────────────┐ ┌─────────────────┐
│ FFN Block │ │ Transformer │
│ (ReLU6) │ │ (动态窗口注意力)│
└────────┬────────┘ └────────┬────────┘
↓ ↓
22层堆叠 多层堆叠
↓ ↓
投影到LLM空间 投影到LLM空间
特点: 特点:
- 计算高效 - 表达能力更强
- 适合固定长度音频 - 支持变长/流式
- 传统语音识别 - 通用音频理解
| 维度 | LongCat-Flash-Omni | Qwen3-Omni |
|---|---|---|
| 表示方式 | 4-codebook | 8-codebook (多码本) |
| 码本预测 | 逐帧预测 | MTP多Token预测 |
| 波形合成 | Codec Decoder | Code2Wav (因果ConvNet) |
| 合成延迟 | 高 | 极低 |
| 首包延迟 | - | 234ms |
| 音色控制 | 较好 | 精细 |
| 流式支持 | 支持 | 支持 (更优) |
生成流程对比:
LongCat-Flash-Omni: Qwen3-Omni:
[Codebook 0] ──┐ [Codebook 0] ──→ MTP ──┬──→ [C1,C2,C3...C7]
[Codebook 1] ──┤──→ Codec [Codebook 0] (下一帧) ──┤
[Codebook 2] ──┤ Decoder ... │
[Codebook 3] ──┘ ↓ │
Code2Wav (因果ConvNet) │
↓ │
波形输出 │
延迟: 高 (需等完整frame) 延迟: 极低 (单帧即可合成)
| 维度 | LongCat-Flash-Omni | Qwen3-Omni |
|---|---|---|
| 类型 | RoPE (标准) | TM-RoPE (时间对齐) |
| 维度 | 1D | 3D (时间/高度/宽度) |
| 时间编码 | 相对位置 | 绝对时间锚定 |
| 音视频同步 | 固定分块对齐 | 灵活时间戳对齐 |
| 长序列 | 128K | 32K |
| 流式支持 | 支持 | 支持 (更灵活) |
LongCat-Flash-Omni: Qwen3-Omni:
单MoE (大而全) 双MoE (小而专)
┌─────────────────┐ ┌─────────────────┐
│ 560B 总参数 │ │ Thinker: 30B │
│ 27B 激活 │ │ (激活3B) │
│ 64+ 专家 │ │ Talker: 3B │
│ │ │ (激活0.3B) │
│ 所有任务共享 │ │ │
│ 同一套专家 │ │ 专家分工明确 │
└─────────────────┘ └─────────────────┘
优势: 优势:
- 参数规模大,容量大 - 延迟可控
- 统一优化 - 高并发稳定
- 适合批处理 - 适合流式服务
| 维度 | LongCat-Flash-Omni | Qwen3-Omni |
|---|---|---|
| 训练阶段 | 未公开 | 三阶段 (S1/S2/S3) |
| 数据规模 | - | 36T tokens |
| 多模态融合 | 早期融合 | 早期融合+渐进式 |
| 长上下文训练 | 支持 | 专门阶段 (S3) |
| 开源程度 | 模型开源 | 完全开源 (含技术细节) |
┌─────────────────────────────────────────────────────────────────────────────┐
│ 开源 Omni 模型演进时间线 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 2024 2025 2026 │
│ │ │ │ │
│ ├── 2024.05: Mini-Omni ├── 2025.01: MiniCPM-o 2.6 ├── 2026.01: AR-Omni│
│ │ 端到端语音 │ 端侧全模态 │ 单流纯自回归 │
│ │ │ │ │
│ ├── 2024.10: GLM-4-Voice├── 2025.01: Janus-Pro ├── 2026.01: Omni-R1│
│ │ 情感语音 │ 理解生成统一 │ RL推理增强 │
│ │ │ │ │
│ └── 2024: LongCat ├── 2025.03: Qwen2.5-Omni ├── 2026.02: Ming │
│ 大规模MoE │ Thinker-Talker │ flash-omni 2.0 │
│ │ │ │
│ ├── 2025.07: HumanOmniV2 └── 2026.02: │
│ │ 人中心Omni推理 MERaLiON2-Omni │
│ │ 多语言理解 │
│ ├── 2025.09: Qwen3-Omni │
│ │ 双MoE+无性能退化 │
│ │ │
│ ├── 2025.10: Ming-Flash-Omni │
│ │ 100B稀疏MoE,理解+生成 │
│ │ │
│ ├── 2025.10: NExT-OMNI │
│ │ 离散流匹配Any-to-Any │
│ │ │
│ ├── 2025.11: Uni-MoE-2.0-Omni │
│ │ 动态容量MoE+RL对齐 │
│ │ │
│ └── 2025.12: HyperCLOVAX-SEED-Omni-8B │
│ NAVER韩英双语Dense Omni │
│ │
│ 趋势1: 架构从 Dense → MoE → 双MoE → 纯自回归单流 (AR-Omni) / DFM (NExT) │
│ 趋势2: 延迟从高 → 低 → 极低 (234ms) → 实时因子<1 (AR-Omni 0.88) │
│ 趋势3: 部署从云端 → 端侧 → 端云协同 │
│ 趋势4: 开源从模型 → 模型+数据+训练细节 │
│ 趋势5: 能力从多模态理解 → 理解+生成统一 → 推理增强 (Omni-R1) │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────────────┐
│ 技术创新关联图谱 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ │
│ │ 基础架构 │ │
│ │ Transformer │ │
│ └──────┬───────┘ │
│ ↓ │
│ ┌──────────────┬──────────────┬──────────────┐ │
│ │ MoE │ 多模态融合 │ 流式生成 │ │
│ │ │ │ │ │
│ │ ┌────────┐ │ ┌────────┐ │ ┌────────┐ │ │
│ │ │LongCat │ │ │ TM-RoPE│ │ │ MTP │ │ │
│ │ │ 560B │ │ │ Qwen3 │ │ │ Qwen3 │ │ │
│ │ └────────┘ │ └────────┘ │ └────────┘ │ │
│ │ ┌────────┐ │ ┌────────┐ │ ┌────────┐ │ │
│ │ │Qwen3 │ │ │早期融合│ │ │Code2Wav│ │ │
│ │ │双MoE │ │ │LongCat │ │ │ Qwen3 │ │ │
│ │ └────────┘ │ └────────┘ │ └────────┘ │ │
│ └──────────────┴──────────────┴──────────────┘ │
│ │
│ 发展方向: │
│ 1. MoE → 更细粒度的专家分工 (Thinker/Talker分离) │
│ 2. 多模态融合 → 更精确的时间/空间对齐 (TM-RoPE) │
│ 3. 流式生成 → 更低延迟 (MTP+轻量级声码器) │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
体育解说、游戏解说、直播 narration 等场景需要模型边看视频边输出,而非等待完整视频后批量处理。本章节专门梳理这一方向的研究进展与实用方案。
┌─────────────────────────────────────────────────────────────────────────────┐
│ 离线 vs 流式:本质区别 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 离线长视频理解 (Offline) 真正流式视频理解 (Streaming/Online) │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ 输入: 完整视频文件 │ │ 输入: 持续视频流 │ │
│ │ 等视频传完 → 处理 │ │ 逐帧/逐块实时处理 │ │
│ │ 一次性给出结果 │ │ 随时可以触发输出 │ │
│ │ │ │ 未来帧不可见 │ │
│ │ 适合: 视频摘要、检索 │ │ 适合: 直播解说、实时QA │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
│ 大多数现有 Video-LLM 属于离线型! │
│ 真正流式模型需要专门的架构设计。 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
| 模型 | 机构 | 时间 | 真流式? | 实时语音输出? | 解说专用? | 开源? | 参数 |
|---|---|---|---|---|---|---|---|
| LiveCC | NUS ShowLab | 2025.04 | ✅ | ❌ 文本 | ✅ LiveSports-3K | ✅ Apache | 7B |
| VITA | 厦门大学等 | 2024.08 | ✅ ~1.5s | ❌ | ✅ | ~47B | |
| ROMA | 中科院 | 2026.01 | ✅ | ✅ 主动 narration | ❌ | 未公开 | |
| VideoLLM-online | NUS ShowLab | 2024.06 | ✅ 10FPS+ | ❌ | ❌ | ✅ | 7-8B |
| Flash-VStream | 多机构 | 2024.06 | ✅ | ❌ | ❌ | ✅ 非商用 | 7B |
| Dispider | 中科院/Shanghai AI Lab | 2025.01 | ✅ 异步 | ❌ | ❌ | ✅ CC BY | 未公开 |
| LiveStar | BUPT 等 | 2025.11 | ✅ always-on | ❌ | ❌ | ✅ CC BY | 未公开 |
| VideoChat-Online | 多机构 | 2025.01 | ✅ | ❌ | ❌ | 未公开 | |
| TimeChat-Online | 多机构 | 2025.04 | ✅ | ❌ | ❌ | ❌ | 未公开 |
| StreamForest | 南京大学 | 2025.09 | ✅ | ❌ | ❌ | ❌ | 未公开 |
| Event-VStream | 多机构 | 2026.01 | ✅ 事件触发 | ❌ | ❌ | ❌ | 8B |
| video-SALMONN S | 多机构 | 2025.10 | ✅ 3h+ | ❌ | ❌ | ❌ CC BY | 未公开 |
| 项目 | 规格 |
|---|---|
| 发布机构 | NUS ShowLab(新加坡国立大学) |
| 发布时间 | 2025.04,CVPR 2025 |
| 参数规模 | 7B(基于 Qwen2-VL-7B 微调) |
| 论文 | arXiv:2504.16030 |
| 开源协议 | Apache 2.0 |
核心设计:
┌─────────────────────────────────────────────────────────────────────────────┐
│ LiveCC 技术方案 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 训练数据构建: │
│ YouTube 直播视频 │
│ ↓ WhisperX 转录 │
│ 时间戳对齐的 ASR 文本 │
│ ↓ 与视频帧按时间戳交错排列 │
│ [frame@0s] [ASR@0-2s] [frame@2s] [ASR@2-4s] ... │
│ ↓ │
│ Live-CC-5M (500万片段) + Live-WhisperX-526K │
│ │
│ 推理流程: │
│ 实时视频流 → 按时间戳逐帧输入 → 模型边看边生成解说文本 │
│ │
│ 输出: "球员抢断成功,快速反击,传球至右路..." (文本,需外接 TTS) │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
关键成果:
- 提出首个体育解说专用评测基准 LiveSports-3K(LLM-as-judge 评分)
- 7B 模型在该基准上超越 Qwen2.5-VL-72B、LLaVA-Video-72B 等 72B 模型
- 不需要预先看完整视频,逐帧处理即可生成解说
| 项目 | 规格 |
|---|---|
| 发布机构 | 中国科学院 |
| 发布时间 | 2026.01,arXiv:2601.10323 |
| 参数规模 | 未公开 |
核心设计:
┌─────────────────────────────────────────────────────────────────────────────┐
│ ROMA 架构 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 输入: 视频流 + 音频流 (同步输入) │
│ │
│ 核心问题: 音频密度 vs 视频帧率不一致 │
│ 解决方案: 同步多模态单元 (Synchronized Multimodal Units) │
│ 将音频片段与视频帧对齐为统一时间单元 │
│ │
│ 两类响应模式: │
│ ┌──────────────────────────┐ ┌──────────────────────────┐ │
│ │ Reactive (被动响应) │ │ Proactive (主动触发) │ │
│ │ 用户提问 → 模型回答 │ │ 模型自主触发解说/警报 │ │
│ │ 类似普通 QA │ │ 类似真正的解说员 │ │
│ └──────────────────────────┘ └──────────────────────────┘ │
│ │
│ 轻量级 speak head: 判断「是否需要说话」与「生成内容」分离 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
ROMA 的 Proactive narration 设计是目前最接近真实解说员行为的架构:不需要外部触发,模型自己判断"这个时刻值得说话"然后生成解说。
| 项目 | 规格 |
|---|---|
| 发布机构 | 厦门大学等 |
| 发布时间 | 2024.08,arXiv:2408.05211 |
| 参数规模 | ~47B(Mixtral 8x7B,激活 ~12.9B) |
| 开源协议 | 开源 |
┌─────────────────────────────────────────────────────────────────────────────┐
│ VITA 双工架构 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 监控模型 (Monitor Model) 生成模型 (Generation Model) │
│ ┌─────────────────────┐ ┌─────────────────────┐ │
│ │ 持续监听麦克风/摄像头 │ │ 生成文本 + 语音输出 │ │
│ │ 检测用户打断信号 │ ←────→ │ ~1.5s 首包延迟 │ │
│ │ 视频流实时感知 │ │ 支持语音打断 │ │
│ └─────────────────────┘ └─────────────────────┘ │
│ │
│ 两个模型同时运行,实现真正的全双工交互 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
局限:视频流理解能力不如 LiveCC 专业,解说质量弱于专用解说模型,但胜在端到端语音输出,开箱即用。
┌─────────────────────────────────────────────────────────────────────────────┐
│ 各模型「流式」的技术实现方式 │
├──────────────────────┬──────────────────────────────────────────────────────┤
│ VideoLLM-online │ LIVE框架: 连续视频流上直接做语言建模,10FPS+ 实时处理 │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Flash-VStream │ 长/短期记忆双层结构,仿人类记忆,异步接受查询 │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Dispider │ 感知-决策-反应三模块异步分离,生成时不阻断视频监控 │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ LiveStar │ always-on 主动响应,峰-末记忆压缩,10分钟+ 视频 │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ TimeChat-Online │ DTD差分Token丢弃,去除82.8%冗余帧token,极致效率 │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ StreamForest │ 事件树记忆,1024token极限压缩仍保留96.8%性能 │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Event-VStream │ 语义边界事件检测,仅在关键事件点触发生成,LLaMA-3-8B │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ video-SALMONN S │ TTT测试时训练作为流式记忆,支持3小时+超长视频流 │
└──────────────────────┴──────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────────────┐
│ 端到端流式解说系统的能力拼图(2026.03 现状) │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ ✅ 已解决: 流式视频理解(LiveCC、VideoLLM-online、Dispider 等) │
│ ✅ 已解决: 实时语音输出(Qwen3-Omni 234ms、VITA ~1.5s) │
│ ✅ 已解决: 体育解说文本质量(LiveCC 7B > 72B 模型) │
│ │
│ ❌ 尚缺: 单一模型同时完成「流式视频理解 + 解说级文本质量 + 实时语音输出」 │
│ ❌ 尚缺: 专门针对游戏解说场景(当前均以体育为主)的训练数据与评测 │
│ ❌ 尚缺: 主动触发解说(proactive narration)的开源实现(ROMA 未开源) │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
方案 A:轻量解说流水线(推荐入门)
视频流 (RTSP/摄像头)
↓ 按时间戳采帧 (1-2 FPS)
LiveCC-7B(流式视频理解 + 解说文本生成)
↓
CosyVoice / Fish-Speech(低延迟 TTS)
↓
实时语音解说输出
方案 B:完整 Omni 交互解说
视频流 + 用户语音输入
↓
VITA (~47B,双工架构)
↓
实时语音解说 + 支持观众语音提问打断
方案 C:主动触发解说(研究方向)
视频流 + 音频流
↓
ROMA(Reactive + Proactive 双模式)
↓
关键时刻自动触发解说(进球、击杀等事件)
(ROMA 暂未完全开源,适合跟踪研究进展)
IBM Watson Sports Commentary(arXiv:2402.15514)已在 2023 年 Wimbledon、US Open、Masters 高尔夫、Grammy Awards 等赛事实际部署,覆盖 9 亿用户、80 亿页浏览量。技术路线是多模态输入(视频片段 + 实时比分 + 统计数据 + 文章)组合生成解说文本,非纯端到端视频流处理。评测指标 ROUGE-L 82.00,Perplexity 6.6,但完全闭源。
| 基准 | 论文 | 说明 |
|---|---|---|
| LiveSports-3K | arXiv:2504.16030 | 首个体育解说专用基准,LLM-as-judge 评分 |
| StreamingBench | arXiv:2411.03628 | 18类任务,900视频,4500 QA,GPT-4o 也远低于人类水平 |
| OVOBench / OVBench | arXiv:2501.00584 | CVPR 2025,在线视频理解标准基准 |
| VStream-QA | arXiv:2406.08085 | Flash-VStream 提出,流式视频问答 |
| 应用场景 | 推荐模型 | 理由 |
|---|---|---|
| 企业级大规模服务 | LongCat-Flash-Omni | 560B参数,128K上下文,适合批处理 |
| 实时语音助手 | Qwen3-Omni | 234ms延迟,双MoE架构,流式优化 |
| 端侧/手机部署 | MiniCPM-o 2.6 | 8B参数,全双工,消费级GPU可跑 |
| 多语言场景 | Qwen3-Omni | 119种文本语言,中文ASR最强 |
| 情感陪伴/娱乐 | GLM-4-Voice | 情感控制,方言支持 |
| 图像生成+理解 | Janus-Pro | 统一架构,文生图+图理解 |
| 嵌入式/IoT | Mini-Omni2 | 1.2GB体积,极致轻量 |
| 研究/学习 | Qwen3-Omni | 完全开源,技术报告详细 |
| 体育/游戏解说(文本) | LiveCC-7B | 唯一体育解说专用模型,7B超72B,需搭配TTS |
| 体育/游戏解说(语音交互) | VITA | 端到端语音输出+流式视频,~1.5s延迟,可语音打断 |
| 直播主动解说(研究) | ROMA | Proactive narration,自动触发解说,暂未完全开源 |
| 技术需求 | 推荐模型 | 关键特性 |
|---|---|---|
| MoE架构研究 | LongCat / Qwen3 | 大规模MoE实践 |
| 流式生成优化 | Qwen3 | MTP + Code2Wav |
| 音频编码器设计 | Qwen3 | AuT自研编码器 |
| 位置编码创新 | Qwen3 | TM-RoPE时间对齐 |
| 端侧优化 | MiniCPM-o | 全双工低功耗 |
| 多模态对齐 | LongCat | 早期融合策略 |
┌─────────────────────────────────────────────────────────────────┐
│ 部署成本估算 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ LongCat-Flash-Omni: │
│ ├─ 硬件: 8× H20-141G (单节点) │
│ ├─ 成本: ~$20万 (硬件) │
│ ├─ 功耗: ~4000W │
│ └─ 适合: 大企业/云服务 │
│ │
│ Qwen3-Omni: │
│ ├─ 硬件: 2× A100 80G 或 4× RTX 4090 │
│ ├─ 成本: ~$1-3万 (硬件) │
│ ├─ 功耗: ~1000W │
│ └─ 适合: 中型企业/研究机构 │
│ │
│ MiniCPM-o 2.6: │
│ ├─ 硬件: 1× RTX 4090 或 苹果M系列 │
│ ├─ 成本: ~$2000 (硬件) │
│ ├─ 功耗: ~300W │
│ └─ 适合: 小团队/端侧应用 │
│ │
└─────────────────────────────────────────────────────────────────┘
| 功能模块 | 文件路径 |
|---|---|
| 推理入口 | longcat_omni_demo.py |
| 视觉编码器 | encoders/vision_adaptor.py |
| 音频编码器 | encoders/audio_adaptor.py |
| 文本嵌入 | encoders/embedding.py |
| 数据处理 | data/data_processor.py |
| 多模态分词器 | data/multimodal_tokenizer.py |
| 后处理 | post_process/unified_post_processor.py |
| 常量定义 | constants.py |
| 全局配置 | global_vars.py |
| 功能模块 | 文件路径 | 说明 |
|---|---|---|
| 推理入口 | qwen3_omni_demo.py |
主入口 |
| Thinker | modeling_thinker.py |
MoE思考器 |
| Talker | modeling_talker.py |
MoE发声器 |
| AuT编码器 | modeling_aut.py |
自研音频编码器 |
| MTP模块 | modeling_mtp.py |
多Token预测 |
| Code2Wav | modeling_code2wav.py |
轻量级声码器 |
| TM-RoPE | modeling_rope.py |
时间对齐位置编码 |
- MiniCPM-o 2.6
- GLM-4-Voice
- Janus-Pro
- HumanOmniV2
- Ming / Ming-flash-omni 2.0
- NExT-OMNI 论文
- Uni-MoE-2.0-Omni 论文
- HyperCLOVAX-SEED-Omni-8B
- AR-Omni / AR-Omni 论文
- Omni-R1 (HuggingFace)
- SGLang
- LiveCC (GitHub) / LiveCC 论文 / LiveCC Demo
- VITA (GitHub) / VITA 论文
- ROMA 论文
- VideoLLM-online 论文
- Flash-VStream 论文
- Dispider (GitHub) / Dispider 论文
- LiveStar (GitHub) / LiveStar 论文
- VideoChat-Online 论文
- TimeChat-Online 论文
- StreamForest 论文
- Event-VStream 论文
- video-SALMONN S 论文
- StreamingBench 论文
- IBM Sports Commentary 论文
本分析文档基于以下开源项目编写:
- LongCat-Flash-Omni (开源)
- Qwen3-Omni (Apache 2.0)
- MiniCPM-o (Apache 2.0)
- GLM-4-Voice (开源)
- Janus-Pro (MIT)
最后更新: 2026年3月
贡献: 欢迎提交 PR 补充更多模型分析