Skip to content

Dominic789654/longcat-omni-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

开源 Omni 多模态大模型深度技术分析与对比

全面解析 LongCat-Flash-Omni、Qwen3-Omni 等主流开源全模态大模型的架构设计与技术细节

📋 目录


项目简介

本项目旨在深入分析当前主流的开源 Omni(全模态)多模态大模型,重点对比:

模型 机构 发布时间 核心特点
LongCat-Flash-Omni 美团 2024 560B MoE,128K长上下文
Qwen3-Omni 阿里巴巴 2025.09 Thinker-Talker双MoE,234ms超低延迟
MiniCPM-o 2.6 面壁智能 2025.01 8B端侧可用,全双工流式
GLM-4-Voice 智谱AI 2024.10 端到端情感语音
Janus-Pro DeepSeek 2025.01 理解生成统一架构

2025-2026 新增开源 Omni 模型速览

以下模型适合补充到当前对比体系中。参数规模统一优先采用官方模型卡、官方仓库或技术报告口径;若官方存在不同口径(如模型卡参数 vs. 文件页元数据),会在备注中说明。

模型 机构 / 团队 发布时间 模型大小 架构 / 特点 模态支持 备注
HumanOmniV2 HumanMLLM 2025.07 9B 强调全局上下文理解与 Omni 推理,偏视频 + 音频理解 文 / 图 / 音 / 视 → 文 更偏”理解 / 推理型 Omni”,而非统一生成型
Ming-Flash-Omni Inclusion AI 2025.10 100B 总参数 / 6.1B 激活 稀疏统一 MoE,理解 + 生成一体 文 / 图 / 音 / 视 → 文 / 图 / 音 参数口径来自官方论文;官方仓库在 2026.02 继续发布 Ming-flash-omni 2.0 更新
NExT-OMNI NUS(新加坡国立大学) 2025.10 未公开 基于离散流匹配(Discrete Flow Matching)的统一 Any-to-Any 生成,非自回归范式 文 / 图 / 音 / 视 → 文 / 图 / 音 / 视 CC BY 4.0;arXiv:2510.13721;首个基于 DFM 的开源 Omni 模型
Uni-MoE-2.0-Omni HITsz-TMG / Lychee 系列 2025.11 基于 Qwen2.5-7B;完整集合约 33B 动态容量 Omni-MoE,支持 10 种跨模态输入;GSPO-DPO 强化学习对齐 文 / 图 / 音 / 视等多模态 → 文 / 图 / 音 官方摘要未明确公开总参数;arXiv:2511.12609
HyperCLOVAX-SEED-Omni-8B NAVER Cloud 2025.12 8B Dense Omni,共享 next-token prediction 统一各模态;支持韩语与英语 文 / 图 / 音 / 视 → 文 / 图 / 音 官方模型卡写 8B;HF 元数据显示 11B;arXiv:2601.01792
AR-Omni ModalityDance 2026.01 ~7.5B(Anole-7B + CosyVoice2-0.5B) 单一 Transformer 解码器的纯自回归 Any-to-Any;Finite-state decoding 保证生成稳定性;语音实时因子 0.88 文 / 图 / 音 → 文 / 图 / 音 MIT;arXiv:2601.17761;HF: ModalityDance/AR-Omni-Chat-v0.1
MERaLiON2-Omni A*STAR(新加坡科技研究局) 2026.02 10B 面向东南亚多语言场景的 Omni 理解模型;探讨感知能力与推理能力的权衡 文 / 图 / 音 / 视 → 文 理解型 Omni;聚焦低资源语言
Omni-R1 ModalityDance 2026.01 7B 基于 SFT + RL 的多模态推理增强 Omni 模型;强化学习驱动的跨模态推理能力 文 / 图 / 音 / 视 → 文 HF: ModalityDance/Omni-R1;更偏推理增强,而非生成型

补充观察

  • 最新一档开源 OmniMing-Flash-Omni 2.0(2026.02)、AR-Omni(2026.01)、MERaLiON2-Omni(2026.02)是 2026 年初最新发布的代表,覆盖大参数生成、轻量纯自回归、多语言理解三个方向。
  • 架构范式新分支NExT-OMNI 引入离散流匹配(DFM)替代自回归,是目前开源 Omni 中唯一的非自回归 Any-to-Any 生成方案;AR-Omni 则走向另一个极端——单流纯自回归,架构极简。
  • 参数口径需区分:Omni 模型常同时出现”总参数””激活参数””HF 页面统计参数”三种口径,横向比较时需要明确区分。
  • 路线进一步分化:新增模型分成三类——① 统一理解 + 生成(Ming-Flash-OmniHyperCLOVAX-SEED-Omni-8BAR-Omni);② 推理 / 特定模态理解增强(HumanOmniV2Omni-R1MERaLiON2-Omni);③ 非自回归生成探索(NExT-OMNI)。

截至 2026.03 的补充说明

  • HumanOmniV2:论文发布于 2025.06.26,权重与训练代码于 2025.07.01 公开,截至 2026.038 个月。Hugging Face 模型页显示为 9B params。其核心定位就是 human-centric omni reasoning,官方基准 IntentBench 需要同时理解视频 + 音频 + 全局上下文,因此对视频理解任务是强支持,且属于主打方向
  • Ming-Flash-Omni / Ming-flash-omni 2.0:预览版首发于 2025.10.27,截至 2026.034 个月2.0 官方版于 2026.02.11 发布,距今约 1 个月。官方论文口径为 100B 总参数 / 6.1B 激活参数。官方仓库明确支持 Image / Text / Video / Audio 输入,并提供 Streaming Video Conversation 用例,因此支持视频理解任务
  • NExT-OMNI:论文于 2025.10.15 发布(arXiv:2510.13721),截至 2026.035 个月。参数量未在论文摘要中公开。核心技术亮点是离散流匹配(Discrete Flow Matching)——这是目前开源 Omni 模型中唯一基于 DFM 而非自回归的 Any-to-Any 方案。代码和权重以 CC BY 4.0 开源。
  • Uni-MoE-2.0-Omni:论文公开于 2025.11.16,截至 2026.03 接近 4 个月。官方技术报告说明其基于 Qwen2.5-7B dense architecture 构建,Hugging Face 集合页显示整模为 33B。论文明确提到其在 video understanding 上有显著提升,官方示例代码也包含 videos=video_inputs,因此对视频理解任务是强支持
  • HyperCLOVAX-SEED-Omni-8B:模型卡于 2026.01.06 公开,截至 2026.032 个月。官方模型卡口径为 8B,而 Hugging Face 页面元数据显示为 11B params。官方模型卡明确写有 Text / Image / Video / Audio 输入与 Text / Image / Audio 输出,因此支持视频理解任务,但不支持视频生成输出
  • AR-Omni:论文于 2026.01.25 发布(arXiv:2601.17761),截至 2026.036 周。模型由 Anole-7B(7B)+ CosyVoice2-0.5B 组合而成,总量约 7.5B。架构极简:单一 Transformer 解码器 + 单 token 流,无专用的语音解码器分支。实测语音实时因子 0.88(低于 1 即支持实时)。以 MIT 协议开源。
  • MERaLiON2-Omni:论文于 2026.02 提交,截至 2026.031 个月。参数规模 10B。由新加坡 A*STAR 主导,聚焦东南亚多语言低资源场景,并在论文中系统探讨感知能力与推理能力之间的权衡(perception vs. reasoning trade-off)。属于理解型 Omni,无多模态生成输出。
  • Omni-R1:发布于 2026.01,参数规模 7B。由 ModalityDance 团队(即 AR-Omni 同一团队)发布。通过 SFT + RL 强化多模态推理能力,属于推理增强型 Omni而非生成型。HF 链接:ModalityDance/Omni-R1

注:上面的”多久”以 2026-03-07 为基准;参数规模优先采用官方模型卡 / 官方仓库 / 官方论文口径,若与 Hugging Face 页面元数据不一致,则一并标注。


开源 Omni 模型全景对比

核心参数对比表

维度 LongCat-Flash-Omni Qwen3-Omni MiniCPM-o 2.6 GLM-4-Voice Janus-Pro
总参数 560B 34B (Thinker+Talker) 8B - 7B
激活参数 27B (4.8%) Thinker 3B / Talker 0.3B 8B - 7B
架构 Shortcut MoE Thinker-Talker 双MoE 多编码器融合 音频Tokenizer 解耦视觉编码
上下文 128K 32K 8K - -
端到端延迟 - 234ms (音频) ~300ms ~200ms -
模态支持 文/图/音/视 文/图/音/视 文/图/音/视 文/音 文/图
音频编码 DFSMN AuT (自研) Whisper GLM-4-Voice-Tokenizer -
位置编码 RoPE TM-RoPE RoPE RoPE -
训练数据 - 36T tokens - - -
开源协议 开源 Apache 2.0 Apache 2.0 开源 MIT
最小显存 8×H20 141G ~24GB ~8GB ~12GB ~16GB

音频处理能力对比

模型 帧粒度 编码器 最大音频长度 语音生成
LongCat-Flash-Omni 80ms DFSMN (22层) - 4-codebook
Qwen3-Omni 80ms AuT (650M) 40分钟 MTP+Code2Wav
MiniCPM-o 2.6 320ms Whisper-medium ~10分钟 ChatTTS
GLM-4-Voice 80ms 自研Tokenizer - Flow Matching

性能表现对比

模型 ASR (WenetSpeech) 视频理解 文本(MMLU) 语音延迟
LongCat-Flash-Omni - - - -
Qwen3-Omni 4.69 (SOTA) 70.5 (Video-MME) 86.6 234ms
MiniCPM-o 2.6 ~6.0 ~65 ~75 ~300ms
GPT-4o (参考) 15.30 71.9 91.3 ~200ms

LongCat-Flash-Omni 深度解析

美团 LongCat 团队开发的全能型 AI 模型 - 560B 参数 (27B 激活) 的多模态大模型

模型概述

项目 规格
总参数量 560B (5600 亿)
激活参数 27B (~4.8%)
架构 Shortcut-connected MoE (Mixture-of-Experts)
模态支持 文本、音频、图像、视频
上下文长度 128K tokens
音频帧粒度 80ms
推理精度 FP8 (单节点) / BF16 (多节点)

整体架构图

┌─────────────────────────────────────────────────────────────────────┐
│                     LongCat-Flash-Omni 架构                          │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│    ┌──────────────┐    ┌──────────────┐    ┌──────────────┐         │
│    │  Visual      │    │   Audio      │    │    Text      │         │
│    │  Encoder     │    │   Encoder    │    │  Embedding   │         │
│    │  (Univitar)  │    │   (DFSMN)    │    │  (131K vocab)│         │
│    └──────┬───────┘    └──────┬───────┘    └──────┬───────┘         │
│           │                   │                   │                  │
│           └───────────────────┼───────────────────┘                  │
│                               ▼                                      │
│                    ┌──────────────────┐                               │
│                    │  Embedding Fusion│  ← 统一嵌入空间 (7168维)      │
│                    └────────┬─────────┘                               │
│                             │                                         │
│                             ▼                                         │
│                    ┌──────────────────┐                               │
│                    │   LongCat Flash  │  ← MoE 主干 (560B参数)        │
│                    │   (MoE Backbone) │     激活 27B                 │
│                    └────────┬─────────┘                               │
│                             │                                         │
│                             ▼                                         │
│                    ┌──────────────────┐                               │
│                    │  Output Heads     │                               │
│                    │  (Text + Audio)   │                               │
│                    └──────────────────┘                               │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

视觉编码器 (Univitar)

配置参数:

LongCatVisionConfig:
├── num_hidden_layers: 24          # Transformer 层数
├── num_attention_heads: 16        # 注意力头数
├── hidden_size: 1024              # 隐藏层维度
├── intermediate_size: 4224        # FFN 中间层维度
├── patch_size: 14                 # 空间 patch 大小
├── temporal_patch_size: 2         # 时间 patch 大小 (视频)
├── image_size: 1792               # 输入图像分辨率
└── attention_type: "flash_attention"

处理流程:

输入图像 (H×W×3)
    ↓
3D Convolution (kernel: [2, 14, 14])
    ↓
Patch Embeddings (1024维)
    ↓
24× Transformer Layers
    ├── FlashAttention (双向)
    ├── 2D Rotary Position Embedding
    ├── SwiGLU Activation
    └── RMSNorm
    ↓
Vision Projector (1024 → 7168)
    ↓
输出 (7168维, 与文本对齐)

音频编码器 (DFSMN)

配置参数:

LongCatAudioConfig:
├── input_size: 1200      # fbank 特征维度
├── hidden_size: 6144     # FSMN 隐藏层
├── proj_size: 1536       # 投影层维度
├── nlayer: 22            # DFSMN 层数
├── ndnn: 2               # DNN 层数
├── left_order: 10        # 左记忆窗口 (800ms)
├── right_order: 1        # 右记忆窗口 (80ms)
└── activation: relu6

DFSMN 架构:

输入音频特征 (1200维 fbank)
    ↓
22× DFSMN Layers
    ├── Memory Block
    │   └── Depthwise 1D Conv (kernel_size = 12)
    └── FFN Block
        ├── LayerNorm
        ├── Linear (1200 → 6144)
        ├── ReLU6
        └── Linear (6144 → 1200)
    ↓
2× DNN Layers
    ↓
Audio Projector (1200 → 7168)
    ↓
输出 (7168维)

音频帧粒度: 每帧 80ms

MoE 架构详解

┌─────────────────────────────────────────────────────────────────┐
│                    LongCat MoE 架构                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  输入Embedding (7168维)                                          │
│       ↓                                                         │
│  ┌─────────────────────────────────────────────────────────────┐│
│  │                    MoE Layer                                ││
│  │  ┌─────────┐                                                ││
│  │  │  Router │  → 选择 Top-2 专家                             ││
│  │  └────┬────┘                                                ││
│  │       ↓                                                     ││
│  │  ┌────┴────┬────────┬────────┬────────┐                    ││
│  │  │ 专家0   │ 专家1  │ 专家2  │ ...   │ 专家63            ││
│  │  │ (文本)  │ (视觉) │ (音频) │       │ (混合)            ││
│  │  │ ~9B    │ ~9B    │ ~9B    │       │ ~9B               ││
│  │  └────┬────┴───┬────┴────────┘       └───────────────────┘││
│  │       └────┬───┘                                            ││
│  │            ↓                                                 ││
│  │      加权融合输出                                            ││
│  └─────────────────────────────────────────────────────────────┘│
│                                                                  │
│  每层激活参数: ~0.5B (2专家 × 每层参数)                           │
│  总激活参数: 27B                                                 │
│  总参数量: 560B                                                  │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

推理流程

完整调用链:

longcat_omni_demo.py:main()
    │
    ├─→ init_global_config(args)
    │   └─→ set_global_variables(config)
    │
    ├─→ LoncatOmniInfer.__init__(args)
    │   │
    │   ├─→ build_modality_models()
    │   │   ├─→ TextEmbedding()
    │   │   ├─→ LongCatOmniVisionAdaptor()
    │   │   ├─→ LongCatOmniAudioAdaptor()
    │   │   ├─→ AudioEmbedding(audio_head_num=4)
    │   │   ├─→ DataProcessor()
    │   │   └─→ OmniUnifiedPostProcessor()
    │   │
    │   └─→ create_sglang_engine()
    │
    └─→ infer_engine.generate(input, sampling_params)

单次推理详细流程:

# 步骤 1: 数据预处理
def _process_input(input_dict):
    data = self._input_processor.process(input_dict)
    # 返回: prompts, audios, audio_masks, images, grid_shapes

# 步骤 2: 嵌入生成
def _get_input_embedding(input_ids, codecs, audios, images):
    # 2.1 基础文本嵌入
    merged = self.text_embedding(input_ids)

    # 2.2 音频 codec 嵌入 (4个 codebook 相加)
    if codecs is not None:
        audio_embs = self.audio_embedding(codecs)
        for i in range(4):
            merged += audio_embs[i]

    # 2.3 连续音频嵌入 (替换 pad 位置)
    if audios is not None:
        audio_emb = self.audio_adaptor_model(audios, audio_masks)
        merged[audio_pad_mask] = audio_emb

    # 2.4 视觉嵌入 (替换 pad 位置)
    if images is not None:
        vision_emb = self.vision_adaptor_model(images, grid_shapes)
        merged[vision_pad_mask] = vision_emb

    return merged

# 步骤 3: SGLang 推理
async def generate():
    output = await self.sglang_engine.async_generate(
        input_embeds=input_embedding,
        sampling_params={"temperature": 1.0, "max_new_tokens": 4096}
    )
    return output

# 步骤 4: 后处理
def post_processor.process(output):
    text = tokenizer.decode(output["output_ids"])
    waveform = codec_decoder.decode(output["aux_info"]["audio_codes"])
    return ProcessedOutput(text=text, audio_waveform=waveform)

Token 处理机制

特殊 Token 定义:

# 音频相关
AUDIO_BOS_TOKEN = "<|audio|>"        # 音频开始
AUDIO_EOS_TOKEN = "<|/audio|>"       # 音频结束
AUDIO_PAD_TOKEN = "<|audio_pad|>"    # 音频填充占位符

# 视觉相关
IMAGE_PAD_TOKEN = "<|image_pad|>"    # 图像填充
DEFAULT_IMAGE_TOKEN = "<image>"

# 对话角色
SYSTEM_BOS_TOKEN = "<begin-of-system>"
USER_BOS_TOKEN = "<begin-of-user>"
ASSISTANT_BOS_TOKEN = "<begin-of-assistant>"

# 音频 Codec
CODEC_EOS_ID = 2
CODEC_PAD_ID = 3
NUM_CODEC_PLACEHOLDERS = 32

嵌入融合策略:

# 文本: 直接 embedding
merged = text_embedding(input_ids)

# 音频 Codec: 相加融合
for i in range(4):
    merged += audio_embedding[i](codecs[:, :, i])

# 连续音频: 替换 pad 位置
merged[audio_pad_mask] = audio_adaptor_embedding

# 视觉: 替换 pad 位置
merged[vision_pad_mask] = vision_adaptor_embedding

音频 Codec 结构:

4-codebook 编码:
┌─────────────────────────────────────────────┐
│  Codebook 0: 语义 Token (Semantic)         │
│  Codebook 1-3: 声学 Token (Acoustic)       │
│                                             │
│  每帧 80ms → 4 个 token                    │
│  Codec ID 偏移: +32                         │
└─────────────────────────────────────────────┘

并行策略

TP + EP 并行架构:

┌────────────────────────────────────────────────────────────┐
│               TP + EP 并行架构                              │
├────────────────────────────────────────────────────────────┤
│                                                            │
│   Node 0                              Node 1              │
│   ┌────┬────┬────┬────┐              ┌────┬────┬────┬────┐│
│   │GPU0│GPU1│GPU2│GPU3│              │GPU4│GPU5│GPU6│GPU7││
│   ├────┼────┼────┼────┤              ├────┼────┼────┼────┤│
│   │ TP │ TP │ TP │ TP │              │ TP │ TP │ TP │ TP ││
│   │ EP │ EP │ EP │ EP │              │ EP │ EP │ EP │ EP ││
│   │ E0 │ E1 │ E2 │ E3 │              │ E4 │ E5 │ E6 │ E7 ││
│   └────┴────┴────┴────┘              └────┴────┴────┴────┘│
│                                                            │
│   TP (Tensor Parallelism): 模型层内切分                    │
│   EP (Expert Parallelism): MoE 专家分布                    │
│                                                            │
└────────────────────────────────────────────────────────────┘

推荐配置:

配置 GPU 精度 参数
单节点 8× H20-141G FP8 --tp-size 8 --ep-size 8
双节点 16× H800-80G BF16 --tp-size 16 --ep-size 16 --nodes 2

硬件要求

最低配置:

  • GPU: 单节点 8× H20-141G (141GB VRAM)
  • 精度: FP8
  • 并行: TP=8, EP=8

推荐配置:

  • GPU: 双节点 16× H800-80G (80GB VRAM)
  • 精度: BF16
  • 并行: TP=16, EP=16

Qwen3-Omni 深度解析

阿里巴巴 Qwen 团队 2025年9月发布的全模态端到端模型 - 首个无性能退化的多模态系统

模型概述

项目 规格
总参数量 Thinker 30B + Talker 3B = ~34B
激活参数 Thinker 3B + Talker 0.3B
架构 Thinker-Talker 双 MoE
模态支持 文本、音频、图像、视频
上下文长度 32K tokens
端到端延迟 234ms (音频) / 547ms (视频)
音频帧粒度 80ms
训练数据 36T tokens
开源协议 Apache 2.0

核心成就

"全能不偏科" - 36项音视频基准测试,32项开源SOTA

能力 表现
ASR (WenetSpeech) 4.69 WER (超越 GPT-4o 的 15.30)
视频理解 (Video-MME) 70.5
文本 (MMLU) 86.6 (与同规模单模态持平)
多语言 119种文本 / 19种语音输入 / 10种语音输出
长音频 支持 40分钟 音频输入

整体架构图

┌─────────────────────────────────────────────────────────────────────────────┐
│                          Qwen3-Omni 架构全景                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ┌───────────────────────────────────────────────────────────────────────┐  │
│  │                         感知层 (Perception)                            │  │
│  │  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌───────────┐  │  │
│  │  │   文本输入    │  │   音频输入    │  │   图像输入    │  │  视频输入  │  │  │
│  │  │  Tokenizer   │  │   AuT编码器   │  │ SigLIP2编码器 │  │  (同上)   │  │  │
│  │  │  151K词汇表  │  │   650M参数   │  │   540M参数   │  │           │  │  │
│  │  └──────┬───────┘  └──────┬───────┘  └──────┬───────┘  └─────┬─────┘  │  │
│  │         └─────────────────┴─────────────────┴────────────────┘        │  │
│  │                                    ↓                                  │  │
│  │                        TM-RoPE 位置编码                                │  │
│  │                    (时间对齐多模态旋转位置编码)                          │  │
│  └────────────────────────────────────┬───────────────────────────────────┘  │
│                                       ↓                                     │
│  ┌───────────────────────────────────────────────────────────────────────┐  │
│  │                    Thinker (思考器) - MoE架构                          │  │
│  │                                                                       │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │              MoE Transformer (30B总参, 3B激活)               │     │  │
│  │   │   功能:多模态理解 + 文本生成                                │     │  │
│  │   │   输出:文本 Token + 高层语义特征 (给Talker)                  │     │  │
│  │   └─────────────────────────────────────────────────────────────┘     │  │
│  └────────────────────────────────────┬───────────────────────────────────┘  │
│                                       ↓                                     │
│  ┌───────────────────────────────────────────────────────────────────────┐  │
│  │                    Talker (发声器) - MoE架构                           │  │
│  │                                                                       │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │              MoE Transformer (3B总参, 0.3B激活)              │     │  │
│  │   │   接收:Thinker的高层特征 + 历史对话上下文                    │     │  │
│  │   │   功能:流式语音生成                                          │     │  │
│  │   └────────────────────────┬────────────────────────────────────┘     │  │
│  │                            ↓                                          │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │                  MTP 模块 (80M参数)                          │     │  │
│  │   │         多Token预测 - 一次生成多个码本层                      │     │  │
│  │   └────────────────────────┬────────────────────────────────────┘     │  │
│  │                            ↓                                          │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │                Code2Wav (200M参数)                           │     │  │
│  │   │         轻量级因果卷积网络 - 波形合成                          │     │  │
│  │   └────────────────────────┬────────────────────────────────────┘     │  │
│  │                            ↓                                          │  │
│  │                      音频波形输出                                       │  │
│  └───────────────────────────────────────────────────────────────────────┘  │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

五大核心升级(相比 Qwen2.5-Omni)

┌─────────────────────────────────────────────────────────────────────┐
│              Qwen3-Omni vs Qwen2.5-Omni 升级对比                     │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  1. 双MoE设计                                                        │
│     Qwen2.5: Dense Thinker + Dense Talker                           │
│     Qwen3:   MoE Thinker (30B-A3B) + MoE Talker (3B-A0.3B)          │
│              └── 高并发下延迟更稳定,TPS更高                          │
│                                                                      │
│  2. 音频编码器升级                                                    │
│     Qwen2.5: Whisper (外部预训练)                                    │
│     Qwen3:   AuT (自研, 2000万小时训练)                              │
│              └── 中文ASR更强,支持实时预填充缓存                       │
│                                                                      │
│  3. 语音表示升级                                                      │
│     Qwen2.5: 单码本                                                  │
│     Qwen3:   多码本 (8层) + MTP多Token预测                           │
│              └── 更精细的音色和副语言建模                             │
│                                                                      │
│  4. 延迟优化                                                          │
│     Qwen2.5: 扩散模型声码器 (DiT)                                    │
│     Qwen3:   Code2Wav轻量级卷积网络 (200M)                           │
│              └── 首包延迟 234ms                                      │
│                                                                      │
│  5. 位置编码升级                                                      │
│     Qwen2.5: M-RoPE (固定2秒分块)                                    │
│     Qwen3:   TM-RoPE (时间锚定,灵活对齐)                            │
│              └── 支持任意时长流式输入                                 │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

AuT 音频编码器(自研)

为什么替代 Whisper?

┌─────────────────────────────────────────────┐
│              AuT (Audio Transformer)         │
│                 650M 参数                     │
├─────────────────────────────────────────────┤
│                                              │
│  输入: 原始音频波形 (16kHz)                   │
│       ↓                                      │
│  ┌─────────────────────┐                    │
│  │   Conv2D 下采样      │  ← 8倍下采样        │
│  │   (滤波器组特征)      │                    │
│  └─────────────────────┘                    │
│       ↓                                      │
│  ┌─────────────────────┐                    │
│  │  动态窗口 FlashAttention                 │
│  │  窗口: 1-8秒可调                         │
│  │  Token率: 12.5 Hz (每80ms一帧)           │
│  └─────────────────────┘                    │
│       ↓                                      │
│  输出: 音频特征向量                           │
│                                              │
│  训练数据: 2000万小时有监督音频               │
│  - 80% 中英文ASR                             │
│  - 10% 其他语言ASR                           │
│  - 10% 音频理解数据                           │
│                                              │
└─────────────────────────────────────────────┘

性能对比:

数据集 GPT-4o Gemini-2.5 Qwen2.5-Omni Qwen3-Omni
Librispeech 1.39 2.89 1.74 1.22
Wenetspeech 15.30 14.43 5.91 4.69

TM-RoPE:时间对齐多模态位置编码

核心创新:音视频精确同步,支持长序列

┌─────────────────────────────────────────────────────────────┐
│              TM-RoPE (Time-aligned M-RoPE)                  │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  维度分配 (相比M-RoPE优化):                                   │
│  ┌───────────────────────────────────────────────────────┐  │
│  │  - 时间维度: 24个旋转角度 (M-RoPE: 16)                 │  │
│  │  - 高度维度: 20个旋转角度                              │  │
│  │  - 宽度维度: 20个旋转角度                              │  │
│  │                                                       │  │
│  │  更多时间维度 → 更好的长序列外推能力                    │  │
│  └───────────────────────────────────────────────────────┘  │
│                                                              │
│  不同模态的处理:                                              │
│                                                              │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐                 │
│  │  文本    │    │  音频    │    │  图像/视频│                 │
│  │         │    │         │    │         │                 │
│  │ T/H/W   │    │ T/H/W   │    │ T/H/W   │                 │
│  │ 相同ID  │    │ 相同ID  │    │ T:帧ID  │                 │
│  │         │    │ +绝对时间│    │ H/W:位置│                 │
│  │         │    │ 80ms/步 │    │         │                 │
│  └─────────┘    └─────────┘    └─────────┘                 │
│                                                              │
│  音视频同步机制:                                              │
│  - 音频: 每80ms一个时间ID                                     │
│  - 视频: 按实际时间戳对齐到80ms粒度                            │
│  - 连续编号: 后一模态起始位置 = 前一模态最大位置 + 1            │
│                                                              │
│  优势: 支持任意时长流式输入,无需固定分块                       │
│                                                              │
└─────────────────────────────────────────────────────────────┘

流式语音生成机制

MTP + Code2Wav 详解:

┌──────────────────────────────────────────────────────────────────────┐
│                    流式语音生成流程                                   │
├──────────────────────────────────────────────────────────────────────┤
│                                                                       │
│  传统方式 (逐个预测)              Qwen3方式 (MTP一次预测)              │
│                                                                       │
│  Step1: [C0] ────────→          Step1: [C0,C1,C2,C3,C4,C5,C6,C7]    │
│  Step2: [C1] ────────→                   ↑                          │
│  Step3: [C2] ────────→          MTP模块: 一次预测所有残差码本         │
│  ...                                                              │
│  Step8: [C7] ────────→                                              │
│                                                                       │
│  延迟: 8步 × 每步时间              延迟: 1步 × 每步时间                │
│                                                                       │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━  │
│                                                                       │
│  Code2Wav 波形合成:                                                    │
│                                                                       │
│  Talker输出 ──→ MTP预测残差码本 ──→ Code2Wav(因果ConvNet) ──→ 波形    │
│                                                                       │
│  对比:                                                                │
│  ┌─────────────────┐    ┌─────────────────┐                          │
│  │   扩散模型 DiT   │    │  轻量ConvNet    │                          │
│  │   (计算密集型)   │ →  │  (200M参数)     │                          │
│  │   需等上下文    │    │  单帧即可合成   │                          │
│  │   延迟高        │    │  延迟极低       │                          │
│  └─────────────────┘    └─────────────────┘                          │
│                                                                       │
│  首包延迟: 234ms (音频) / 547ms (视频)                                │
│                                                                       │
└──────────────────────────────────────────────────────────────────────┘

分块预填充机制

┌─────────────────────────────────────────────────────────────────────┐
│                    分块预填充流程                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  用户输入音频/视频流                                                  │
│       ↓                                                             │
│  ┌─────────────────────────────────────────────────────────────────┐│
│  │  Block 0 (2秒)  ─────────────────────────────────────────────→  ││
│  │       ↓ (Thinker处理)                                            ││
│  │       ↓ (同时)                                                  ││
│  │  Block 1 (2秒)  ─────────────────────────────────────────────→  ││
│  │       ↓ (Thinker处理) ──→ 输出给Talker ──→ 开始生成语音        ││
│  │       ↓ (同时)                                                  ││
│  │  Block 2 (2秒)  ─────────────────────────────────────────────→  ││
│  │       ↓ (Thinker处理下一块...)                                    ││
│  │                                                                  ││
│  │  关键: Thinker和Talker并行处理!                                  ││
│  │       - Thinker处理当前块时,Talker在生成上一块的语音             ││
│  │       - 大幅降低首Token时间 (TTFT)                               ││
│  └─────────────────────────────────────────────────────────────────┘│
│                                                                      │
│  并发优化:                                                            │
│  - MoE架构减少KV Cache IO消耗                                        │
│  - 轻量级MTP和Code2Wav支持批量推理                                    │
│  - 不同并发下延迟稳定                                                  │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

三阶段训练策略

┌─────────────────────────────────────────────────────────────────────┐
│                      三阶段预训练                                     │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  Stage 1: 编码器对齐 (S1)                                             │
│  ┌────────────────────────────────────────────────────────────────┐ │
│  │  - 冻结LLM参数                                                  │ │
│  │  - 只训练视觉编码器(SigLIP)和音频编码器(AuT)                     │ │
│  │  - 目标: 让编码器输出与LLM输入空间对齐                            │ │
│  └────────────────────────────────────────────────────────────────┘ │
│                               ↓                                      │
│  Stage 2: 通用训练 (S2)                                               │
│  ┌────────────────────────────────────────────────────────────────┐ │
│  │  - 训练所有参数                                                 │ │
│  │  - 数据量: 2万亿 tokens                                         │ │
│  │    ├─ 文本:   0.57T (28.5%)                                    │ │
│  │    ├─ 音频:   0.77T (38.5%)                                    │ │
│  │    ├─ 图像:   0.82T (41%)                                      │ │
│  │    ├─ 视频:   0.05T (2.5%)                                     │ │
│  │    └─ 音视频: 0.05T (2.5%)                                     │ │
│  │  - 关键: 早期就融合单模态和跨模态数据!                           │ │
│  └────────────────────────────────────────────────────────────────┘ │
│                               ↓                                      │
│  Stage 3: 长上下文 (S3)                                               │
│  ┌────────────────────────────────────────────────────────────────┐ │
│  │  - 最大长度扩展到 32,768 tokens                                 │ │
│  │  - 增加长音频(40分钟+)和长视频比例                                │ │
│  │  - 提升长程依赖建模能力                                          │ │
│  └────────────────────────────────────────────────────────────────┘ │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

DreamID-Omni 深度解析

清华大学 & 字节跳动智能创作实验室联合发布 - 可控人中心音视屏生成统一框架

模型概述

项目 规格
总参数量 基于 Ovi 初始化 (具体规模未披露)
架构 Symmetric Conditional DiT (双流传输)
模态支持 图像(参考身份)、音频(参考音色/驱动)、文本、视频
核心任务 R2AV / RV2AV / RA2V 三任务统一
上下文长度 标准 DiT 配置
训练数据 ~1M 高质量音视频对 (OpenHumanVid)
开源协议 代码将开源 (论文承诺)

整体架构图

┌─────────────────────────────────────────────────────────────────────────────┐
│                     DreamID-Omni 架构                                        │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│   ┌─────────────────────────────────────────────────────────────────────┐   │
│   │                     Symmetric Conditional DiT                        │   │
│   │  ┌─────────────────────┐         ┌─────────────────────┐            │   │
│   │  │    Video Stream     │ ←────→ │    Audio Stream     │            │   │
│   │  │   (视觉合成骨干)     │ 双向交叉注意力 │   (音频合成骨干)     │            │   │
│   │  └─────────────────────┘         └─────────────────────┘            │   │
│   └─────────────────────────────────────────────────────────────────────┘   │
│                                      │                                       │
│    ┌─────────────────────────────────┼─────────────────────────────────┐    │
│    │                         条件注入机制                              │    │
│    │  ┌──────────────┐    ┌──────────────┐    ┌──────────────┐        │    │
│    │  │  Reference   │    │   Source     │    │   Driving    │        │    │
│    │  │  Images (ℐ)  │    │   Video      │    │   Audio      │        │    │
│    │  │  参考身份图像  │    │   (V_src)    │    │   (A_dri)    │        │    │
│    │  └──────────────┘    └──────────────┘    └──────────────┘        │    │
│    │  ┌──────────────┐    ┌──────────────┐                           │    │
│    │  │   Voice      │    │    Text      │                           │    │
│    │  │  Timbers (𝒜) │    │   Prompt     │                           │    │
│    │  │  参考音色     │    │   (𝒯)        │                           │    │
│    │  └──────────────┘    └──────────────┘                           │    │
│    └───────────────────────────────────────────────────────────────────┘    │
│                                      │                                       │
│    ┌─────────────────────────────────┼─────────────────────────────────┐    │
│    │                      Dual-Level Disentanglement                   │    │
│    │                                                                 │    │
│    │  ┌─────────────────────────────────────────────────────────┐   │    │
│    │  │  Signal Level: Syn-RoPE (同步旋转位置编码)                │   │    │
│    │  │  • 目标序列: [0, L-1]                                    │   │    │
│    │  │  • 身份k: [k·M, (k+1)·M-1]  (M=150, 大间隔)              │   │    │
│    │  │  • 同身份图像+音色共享相同RoPE段 → 自动绑定              │   │    │
│    │  └─────────────────────────────────────────────────────────┘   │    │
│    │                                                                 │    │
│    │  ┌─────────────────────────────────────────────────────────┐   │    │
│    │  │  Semantic Level: Structured Caption (结构化描述)         │   │    │
│    │  │  • <sub_1>, <sub_2> 锚点token                           │   │    │
│    │  │  • Video Caption / Audio Caption / Joint Caption         │   │    │
│    │  │  • 显式关联主体与属性                                     │   │    │
│    │  └─────────────────────────────────────────────────────────┘   │    │
│    └───────────────────────────────────────────────────────────────────┘    │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

三任务统一范式

任务 名称 输入条件 应用场景
R2AV Reference-to-Audio-Video ℐ + 𝒜 + 𝒯 给定参考图和音色,生成说话视频
RV2AV Reference-Video-to-Audio-Video ℐ + 𝒜 + V_src + 𝒯 视频人物换脸+换音色
RA2V Reference-Audio-to-Video ℐ + A_dri + 𝒯 音频驱动动画(对口型)

核心创新点

1. Syn-RoPE: 信号级身份-音色绑定

# RoPE 位置分配策略
positions = {
    "target_video":  [0, L-1],           # 目标视频
    "target_audio":  [0, L-1] * γ,       # 目标音频 (γ = Lv/La 缩放)
    "ref_identity_1": [M, 2M-1],         # 身份1的图像+音色
    "ref_identity_2": [2M, 3M-1],        # 身份2的图像+音色
    # ... M=150, 确保不同身份在旋转子空间中分离
}

优势:

  • 利用 RoPE 周期性,不同身份自然投影到不同子空间
  • 同身份的图像和音色共享位置 → 隐性跨模态同步
  • 无需显式约束,注意力机制自动实现绑定

2. 多任务渐进训练策略

Stage 1: In-pair Reconstruction (10K steps)
   └── 从同一样本提取参考,带掩码重建
   └── 学习目标: 建立条件生成先验

Stage 2: Cross-pair Disentanglement (20K steps)
   └── 从不同样本提取参考,完整重建
   └── 学习目标: 强制解耦身份/音色表示

Stage 3: Omni-Task Fine-tuning (20K steps)
   └── R2AV:RV2AV:RA2V = 4:3:3 混合训练
   └── 学习目标: 统一三任务能力

关键洞察: 先用弱约束任务(R2AV)建立生成先验,再引入强约束任务(RV2AV/RA2V),防止强任务主导导致弱任务性能下降。


核心架构对比分析

六大 Omni 模型全景对比

维度 LongCat-Flash-Omni Qwen3-Omni MiniCPM-o 2.6 GLM-4-Voice Janus-Pro DreamID-Omni
机构 美团 阿里巴巴 面壁智能 智谱AI DeepSeek 清华×字节
定位 通用多模态大模型 端到端全模态 端侧全模态 语音对话 理解生成统一 可控音视频生成
发布时间 2024 2025.09 2025.01 2024.10 2025.01 2026.02
总参数 560B (MoE) 34B (Thinker+Talker) 8B - 7B 基于 Ovi
激活参数 27B 3B / 0.3B 8B - 7B 未披露
架构 Shortcut MoE Thinker-Talker 双MoE 多编码器融合 音频Tokenizer 解耦视觉编码 Symmetric DiT
核心任务 理解+生成 理解+生成 理解+生成 语音对话 理解+生成 R2AV/RV2AV/RA2V
模态支持 文/图/音/视 文/图/音/视 文/图/音/视 文/音 文/图 图+音→视+音
上下文 128K 32K 8K - - 标准 DiT
延迟 - 234ms ~300ms ~200ms - 生成式(非实时)
音频编码 DFSMN (22层) AuT (650M) Whisper-medium 自研Tokenizer - WavLM + CosyVoice
位置编码 RoPE TM-RoPE RoPE RoPE - Syn-RoPE
特色技术 Shortcut Connection Thinker-Talker解耦 全双工流式 端到端情感 统一自回归 双层解耦+三任务统一
开源协议 开源 Apache 2.0 Apache 2.0 开源 MIT 即将开源
最小显存 8×H20 141G ~24GB ~8GB ~12GB ~16GB 估计 ~16GB

技术路线对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                        Omni 模型技术路线图谱                                  │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  通用多模态大模型 (理解+生成)        专用音视频生成模型                       │
│  ┌─────────────────────────┐        ┌─────────────────────────┐             │
│  │  • LongCat-Flash-Omni   │        │  • DreamID-Omni         │             │
│  │  • Qwen3-Omni           │        │  • Wan2.6               │             │
│  │  • MiniCPM-o 2.6        │        │  • Ovi                  │             │
│  │  • GLM-4-Voice          │        │  • LTX-2                │             │
│  └─────────────────────────┘        └─────────────────────────┘             │
│                                                                              │
│  核心差异:                                                                 │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │ 通用模型: 追求模态全覆盖 + 实时交互 + 大上下文                       │   │
│  │ 专用模型: 追求生成质量 + 精细控制 + 多任务统一                       │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                                                                              │
│  DreamID-Omni 的独特定位:                                                   │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │ • 不是通用对话模型,而是专注于「人中心音视频生成」                    │   │
│  │ • 三任务统一:生成(R2AV) + 编辑(RV2AV) + 动画(RA2V)                 │   │
│  │ • 解决核心痛点:多人场景身份-音色绑定 + 说话人混淆                   │   │
│  │ • 输出: 同步的音视频流 (而非纯文本或纯图像)                         │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

架构设计哲学对比

模型 设计哲学 关键取舍
LongCat-Flash-Omni 大MoE追求通用能力 560B参数换128K长上下文,推理成本高
Qwen3-Omni 延迟优先的端到端架构 Thinker-Talker解耦,234ms超低延迟
MiniCPM-o 2.6 端侧可用的小模型 8B参数牺牲性能换部署便利
Janus-Pro 理解与生成统一 单一自回归模型简化架构
DreamID-Omni 生成质量与可控性优先 接受非实时生成,换取精细控制和三任务统一

位置编码技术对比

模型 位置编码 核心创新 解决的问题
LongCat-Flash-Omni 2D RoPE 空间位置编码 图像patch的位置感知
Qwen3-Omni TM-RoPE Time-Multiplexed RoPE 视频时间步与文本的位置对齐
DreamID-Omni Syn-RoPE Synchronized RoPE 多身份图像-音色的绑定与解耦

TM-RoPE vs Syn-RoPE:

  • TM-RoPE: 解决的是「视频帧与文本token如何共享位置空间」的问题
  • Syn-RoPE: 解决的是「多个参考身份的图像和音色如何绑定」的问题

核心架构对比分析

1. 整体架构范式对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                        两种架构范式对比                                       │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  LongCat-Flash-Omni (单流MoE)          Qwen3-Omni (双流MoE)                  │
│                                                                              │
│  ┌─────────────────────────┐          ┌─────────────────────────┐           │
│  │      多模态输入          │          │      多模态输入          │           │
│  │  文/图/音/视 → Embedding │          │  文/图/音/视 → Embedding │           │
│  └──────────┬──────────────┘          └──────────┬──────────────┘           │
│             ↓                                     ↓                          │
│  ┌─────────────────────────┐          ┌─────────────────────────┐           │
│  │    Unified MoE Backbone  │          │    Thinker (思考器)      │           │
│  │    (560B / 激活27B)      │          │    MoE 30B-A3B          │           │
│  │                         │          │    功能:理解+文本生成     │           │
│  │    统一处理所有任务      │          └──────────┬──────────────┘           │
│  │    (理解+生成)           │                     ↓                          │
│  └──────────┬──────────────┘          ┌─────────────────────────┐           │
│             ↓                         │    Talker (发声器)       │           │
│  ┌─────────────────────────┐          │    MoE 3B-A0.3B         │           │
│  │    Output Heads          │          │    功能:语音生成         │           │
│  │    文本 + 音频           │          └──────────┬──────────────┘           │
│  └─────────────────────────┘                     ↓                          │
│                                       ┌─────────────────────────┐           │
│                                       │    MTP + Code2Wav        │           │
│                                       │    流式波形生成          │           │
│                                       └─────────────────────────┘           │
│                                                                              │
│  特点:                                特点:                                  │
│  - 架构简单,统一优化                  - 解耦设计,可独立控制                 │
│  - 适合大规模部署                      - 适合流式实时交互                     │
│  - 上下文更长(128K)                    - 延迟更低(234ms)                      │
│  - 参数规模更大                        - 支持外部干预(如RAG)                  │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

2. 音频处理架构对比

维度 LongCat-Flash-Omni Qwen3-Omni
编码器 DFSMN (22层) AuT (自研)
参数量 ~300M 650M
注意力机制 1D Conv 记忆块 FlashAttention + 动态窗口
Token率 12.5 Hz 12.5 Hz
帧粒度 80ms 80ms
训练数据 - 2000万小时
中文优化 一般
实时缓存 不支持 支持

DFSMN vs AuT 架构对比:

DFSMN (LongCat)                    AuT (Qwen3)
┌─────────────────┐               ┌─────────────────┐
│  1D Conv 记忆块  │               │  Conv2D 下采样   │
│  (固定窗口)      │               │  (8倍)           │
└────────┬────────┘               └────────┬────────┘
         ↓                                 ↓
┌─────────────────┐               ┌─────────────────┐
│  FFN Block      │               │  Transformer    │
│  (ReLU6)        │               │  (动态窗口注意力)│
└────────┬────────┘               └────────┬────────┘
         ↓                                 ↓
    22层堆叠                          多层堆叠
         ↓                                 ↓
    投影到LLM空间                    投影到LLM空间

特点:                            特点:
- 计算高效                        - 表达能力更强
- 适合固定长度音频                - 支持变长/流式
- 传统语音识别                    - 通用音频理解

3. 语音生成架构对比

维度 LongCat-Flash-Omni Qwen3-Omni
表示方式 4-codebook 8-codebook (多码本)
码本预测 逐帧预测 MTP多Token预测
波形合成 Codec Decoder Code2Wav (因果ConvNet)
合成延迟 极低
首包延迟 - 234ms
音色控制 较好 精细
流式支持 支持 支持 (更优)

生成流程对比:

LongCat-Flash-Omni:              Qwen3-Omni:

[Codebook 0] ──┐                [Codebook 0] ──→ MTP ──┬──→ [C1,C2,C3...C7]
[Codebook 1] ──┤──→ Codec      [Codebook 0] (下一帧) ──┤
[Codebook 2] ──┤    Decoder    ...                      │
[Codebook 3] ──┘                         ↓               │
                              Code2Wav (因果ConvNet)      │
                                         ↓               │
                                    波形输出              │

延迟: 高 (需等完整frame)        延迟: 极低 (单帧即可合成)

4. 位置编码对比

维度 LongCat-Flash-Omni Qwen3-Omni
类型 RoPE (标准) TM-RoPE (时间对齐)
维度 1D 3D (时间/高度/宽度)
时间编码 相对位置 绝对时间锚定
音视频同步 固定分块对齐 灵活时间戳对齐
长序列 128K 32K
流式支持 支持 支持 (更灵活)

5. MoE 架构对比

LongCat-Flash-Omni:              Qwen3-Omni:

单MoE (大而全)                   双MoE (小而专)
┌─────────────────┐              ┌─────────────────┐
│  560B 总参数     │              │ Thinker: 30B    │
│  27B 激活       │              │   (激活3B)      │
│  64+ 专家       │              │ Talker: 3B      │
│                 │              │   (激活0.3B)    │
│  所有任务共享    │              │                 │
│  同一套专家      │              │  专家分工明确   │
└─────────────────┘              └─────────────────┘

优势:                           优势:
- 参数规模大,容量大             - 延迟可控
- 统一优化                      - 高并发稳定
- 适合批处理                    - 适合流式服务

6. 训练策略对比

维度 LongCat-Flash-Omni Qwen3-Omni
训练阶段 未公开 三阶段 (S1/S2/S3)
数据规模 - 36T tokens
多模态融合 早期融合 早期融合+渐进式
长上下文训练 支持 专门阶段 (S3)
开源程度 模型开源 完全开源 (含技术细节)

技术演进趋势

开源 Omni 模型发展趋势

┌─────────────────────────────────────────────────────────────────────────────┐
│                    开源 Omni 模型演进时间线                                   │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  2024                    2025                          2026                 │
│    │                       │                              │                  │
│    ├── 2024.05: Mini-Omni  ├── 2025.01: MiniCPM-o 2.6   ├── 2026.01: AR-Omni│
│    │   端到端语音           │   端侧全模态                 │   单流纯自回归   │
│    │                       │                              │                  │
│    ├── 2024.10: GLM-4-Voice├── 2025.01: Janus-Pro        ├── 2026.01: Omni-R1│
│    │   情感语音             │   理解生成统一               │   RL推理增强     │
│    │                       │                              │                  │
│    └── 2024: LongCat       ├── 2025.03: Qwen2.5-Omni     ├── 2026.02: Ming  │
│        大规模MoE            │   Thinker-Talker            │   flash-omni 2.0 │
│                            │                              │                  │
│                            ├── 2025.07: HumanOmniV2      └── 2026.02:       │
│                            │   人中心Omni推理             MERaLiON2-Omni    │
│                            │                              多语言理解         │
│                            ├── 2025.09: Qwen3-Omni                          │
│                            │   双MoE+无性能退化                              │
│                            │                                                 │
│                            ├── 2025.10: Ming-Flash-Omni                     │
│                            │   100B稀疏MoE,理解+生成                        │
│                            │                                                 │
│                            ├── 2025.10: NExT-OMNI                           │
│                            │   离散流匹配Any-to-Any                          │
│                            │                                                 │
│                            ├── 2025.11: Uni-MoE-2.0-Omni                    │
│                            │   动态容量MoE+RL对齐                            │
│                            │                                                 │
│                            └── 2025.12: HyperCLOVAX-SEED-Omni-8B           │
│                                NAVER韩英双语Dense Omni                       │
│                                                                              │
│  趋势1: 架构从 Dense → MoE → 双MoE → 纯自回归单流 (AR-Omni) / DFM (NExT)    │
│  趋势2: 延迟从高 → 低 → 极低 (234ms) → 实时因子<1 (AR-Omni 0.88)            │
│  趋势3: 部署从云端 → 端侧 → 端云协同                                         │
│  趋势4: 开源从模型 → 模型+数据+训练细节                                       │
│  趋势5: 能力从多模态理解 → 理解+生成统一 → 推理增强 (Omni-R1)                 │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

关键技术创新图谱

┌─────────────────────────────────────────────────────────────────────────────┐
│                       技术创新关联图谱                                        │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ┌──────────────┐                                                           │
│  │  基础架构     │                                                           │
│  │  Transformer │                                                           │
│  └──────┬───────┘                                                           │
│         ↓                                                                   │
│  ┌──────────────┬──────────────┬──────────────┐                            │
│  │    MoE       │   多模态融合  │   流式生成    │                            │
│  │              │              │              │                            │
│  │  ┌────────┐  │  ┌────────┐  │  ┌────────┐  │                            │
│  │  │LongCat │  │  │ TM-RoPE│  │  │  MTP   │  │                            │
│  │  │ 560B   │  │  │ Qwen3  │  │  │ Qwen3  │  │                            │
│  │  └────────┘  │  └────────┘  │  └────────┘  │                            │
│  │  ┌────────┐  │  ┌────────┐  │  ┌────────┐  │                            │
│  │  │Qwen3   │  │  │早期融合│  │  │Code2Wav│  │                            │
│  │  │双MoE   │  │  │LongCat │  │  │ Qwen3  │  │                            │
│  │  └────────┘  │  └────────┘  │  └────────┘  │                            │
│  └──────────────┴──────────────┴──────────────┘                            │
│                                                                              │
│  发展方向:                                                                  │
│  1. MoE → 更细粒度的专家分工 (Thinker/Talker分离)                           │
│  2. 多模态融合 → 更精确的时间/空间对齐 (TM-RoPE)                            │
│  3. 流式生成 → 更低延迟 (MTP+轻量级声码器)                                  │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

流式视频理解与实时解说

体育解说、游戏解说、直播 narration 等场景需要模型边看视频边输出,而非等待完整视频后批量处理。本章节专门梳理这一方向的研究进展与实用方案。

核心问题:两类"视频理解"的本质差异

┌─────────────────────────────────────────────────────────────────────────────┐
│                    离线 vs 流式:本质区别                                     │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  离线长视频理解 (Offline)              真正流式视频理解 (Streaming/Online)     │
│  ┌─────────────────────────┐          ┌─────────────────────────┐           │
│  │  输入: 完整视频文件      │          │  输入: 持续视频流        │           │
│  │  等视频传完 → 处理       │          │  逐帧/逐块实时处理       │           │
│  │  一次性给出结果          │          │  随时可以触发输出        │           │
│  │                         │          │  未来帧不可见            │           │
│  │  适合: 视频摘要、检索    │          │  适合: 直播解说、实时QA  │           │
│  └─────────────────────────┘          └─────────────────────────┘           │
│                                                                              │
│  大多数现有 Video-LLM 属于离线型!                                            │
│  真正流式模型需要专门的架构设计。                                              │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

模型速览表

模型 机构 时间 真流式? 实时语音输出? 解说专用? 开源? 参数
LiveCC NUS ShowLab 2025.04 ❌ 文本 ✅ LiveSports-3K ✅ Apache 7B
VITA 厦门大学等 2024.08 ⚠️ 部分 ✅ ~1.5s ~47B
ROMA 中科院 2026.01 ⚠️ 未明确 ✅ 主动 narration 未公开
VideoLLM-online NUS ShowLab 2024.06 ✅ 10FPS+ 7-8B
Flash-VStream 多机构 2024.06 ✅ 非商用 7B
Dispider 中科院/Shanghai AI Lab 2025.01 ✅ 异步 ✅ CC BY 未公开
LiveStar BUPT 等 2025.11 ✅ always-on ✅ CC BY 未公开
VideoChat-Online 多机构 2025.01 ⚠️ 部分 未公开
TimeChat-Online 多机构 2025.04 未公开
StreamForest 南京大学 2025.09 未公开
Event-VStream 多机构 2026.01 ✅ 事件触发 8B
video-SALMONN S 多机构 2025.10 ✅ 3h+ ❌ CC BY 未公开

核心模型详解

LiveCC-7B(最接近体育/游戏解说的模型)

项目 规格
发布机构 NUS ShowLab(新加坡国立大学)
发布时间 2025.04,CVPR 2025
参数规模 7B(基于 Qwen2-VL-7B 微调)
论文 arXiv:2504.16030
开源协议 Apache 2.0

核心设计

┌─────────────────────────────────────────────────────────────────────────────┐
│                         LiveCC 技术方案                                       │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  训练数据构建:                                                               │
│  YouTube 直播视频                                                             │
│       ↓ WhisperX 转录                                                        │
│  时间戳对齐的 ASR 文本                                                        │
│       ↓ 与视频帧按时间戳交错排列                                              │
│  [frame@0s] [ASR@0-2s] [frame@2s] [ASR@2-4s] ...                            │
│       ↓                                                                      │
│  Live-CC-5M (500万片段) + Live-WhisperX-526K                                 │
│                                                                              │
│  推理流程:                                                                   │
│  实时视频流 → 按时间戳逐帧输入 → 模型边看边生成解说文本                        │
│                                                                              │
│  输出:  "球员抢断成功,快速反击,传球至右路..." (文本,需外接 TTS)            │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

关键成果

  • 提出首个体育解说专用评测基准 LiveSports-3K(LLM-as-judge 评分)
  • 7B 模型在该基准上超越 Qwen2.5-VL-72B、LLaVA-Video-72B 等 72B 模型
  • 不需要预先看完整视频,逐帧处理即可生成解说

ROMA(最接近 Omni 解说架构)

项目 规格
发布机构 中国科学院
发布时间 2026.01,arXiv:2601.10323
参数规模 未公开

核心设计

┌─────────────────────────────────────────────────────────────────────────────┐
│                         ROMA 架构                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  输入: 视频流 + 音频流 (同步输入)                                              │
│                                                                              │
│  核心问题: 音频密度 vs 视频帧率不一致                                          │
│  解决方案: 同步多模态单元 (Synchronized Multimodal Units)                     │
│           将音频片段与视频帧对齐为统一时间单元                                  │
│                                                                              │
│  两类响应模式:                                                               │
│  ┌──────────────────────────┐  ┌──────────────────────────┐                 │
│  │   Reactive (被动响应)     │  │   Proactive (主动触发)    │                 │
│  │   用户提问 → 模型回答      │  │   模型自主触发解说/警报    │                 │
│  │   类似普通 QA             │  │   类似真正的解说员         │                 │
│  └──────────────────────────┘  └──────────────────────────┘                 │
│                                                                              │
│  轻量级 speak head: 判断「是否需要说话」与「生成内容」分离                     │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

ROMA 的 Proactive narration 设计是目前最接近真实解说员行为的架构:不需要外部触发,模型自己判断"这个时刻值得说话"然后生成解说。


VITA(唯一同时支持流式视频 + 实时语音输出的开源模型)

项目 规格
发布机构 厦门大学等
发布时间 2024.08,arXiv:2408.05211
参数规模 ~47B(Mixtral 8x7B,激活 ~12.9B)
开源协议 开源
┌─────────────────────────────────────────────────────────────────────────────┐
│                       VITA 双工架构                                           │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  监控模型 (Monitor Model)          生成模型 (Generation Model)               │
│  ┌─────────────────────┐          ┌─────────────────────┐                   │
│  │  持续监听麦克风/摄像头 │          │  生成文本 + 语音输出 │                   │
│  │  检测用户打断信号     │  ←────→  │  ~1.5s 首包延迟     │                   │
│  │  视频流实时感知       │          │  支持语音打断        │                   │
│  └─────────────────────┘          └─────────────────────┘                   │
│                                                                              │
│  两个模型同时运行,实现真正的全双工交互                                        │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

局限:视频流理解能力不如 LiveCC 专业,解说质量弱于专用解说模型,但胜在端到端语音输出,开箱即用。


其他流式视频技术方案对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                    各模型「流式」的技术实现方式                                 │
├──────────────────────┬──────────────────────────────────────────────────────┤
│ VideoLLM-online      │ LIVE框架: 连续视频流上直接做语言建模,10FPS+ 实时处理  │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Flash-VStream        │ 长/短期记忆双层结构,仿人类记忆,异步接受查询          │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Dispider             │ 感知-决策-反应三模块异步分离,生成时不阻断视频监控     │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ LiveStar             │ always-on 主动响应,峰-末记忆压缩,10分钟+ 视频       │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ TimeChat-Online      │ DTD差分Token丢弃,去除82.8%冗余帧token,极致效率      │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ StreamForest         │ 事件树记忆,1024token极限压缩仍保留96.8%性能          │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Event-VStream        │ 语义边界事件检测,仅在关键事件点触发生成,LLaMA-3-8B  │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ video-SALMONN S      │ TTT测试时训练作为流式记忆,支持3小时+超长视频流        │
└──────────────────────┴──────────────────────────────────────────────────────┘

现状与差距

┌─────────────────────────────────────────────────────────────────────────────┐
│              端到端流式解说系统的能力拼图(2026.03 现状)                      │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ✅ 已解决: 流式视频理解(LiveCC、VideoLLM-online、Dispider 等)              │
│  ✅ 已解决: 实时语音输出(Qwen3-Omni 234ms、VITA ~1.5s)                     │
│  ✅ 已解决: 体育解说文本质量(LiveCC 7B > 72B 模型)                          │
│                                                                              │
│  ❌ 尚缺: 单一模型同时完成「流式视频理解 + 解说级文本质量 + 实时语音输出」    │
│  ❌ 尚缺: 专门针对游戏解说场景(当前均以体育为主)的训练数据与评测             │
│  ❌ 尚缺: 主动触发解说(proactive narration)的开源实现(ROMA 未开源)        │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

实用搭建方案

方案 A:轻量解说流水线(推荐入门)

视频流 (RTSP/摄像头)
    ↓ 按时间戳采帧 (1-2 FPS)
LiveCC-7B(流式视频理解 + 解说文本生成)
    ↓
CosyVoice / Fish-Speech(低延迟 TTS)
    ↓
实时语音解说输出

方案 B:完整 Omni 交互解说

视频流 + 用户语音输入
    ↓
VITA (~47B,双工架构)
    ↓
实时语音解说 + 支持观众语音提问打断

方案 C:主动触发解说(研究方向)

视频流 + 音频流
    ↓
ROMA(Reactive + Proactive 双模式)
    ↓
关键时刻自动触发解说(进球、击杀等事件)
(ROMA 暂未完全开源,适合跟踪研究进展)

唯一商业落地案例

IBM Watson Sports Commentary(arXiv:2402.15514)已在 2023 年 Wimbledon、US Open、Masters 高尔夫、Grammy Awards 等赛事实际部署,覆盖 9 亿用户、80 亿页浏览量。技术路线是多模态输入(视频片段 + 实时比分 + 统计数据 + 文章)组合生成解说文本,非纯端到端视频流处理。评测指标 ROUGE-L 82.00,Perplexity 6.6,但完全闭源


相关评测基准

基准 论文 说明
LiveSports-3K arXiv:2504.16030 首个体育解说专用基准,LLM-as-judge 评分
StreamingBench arXiv:2411.03628 18类任务,900视频,4500 QA,GPT-4o 也远低于人类水平
OVOBench / OVBench arXiv:2501.00584 CVPR 2025,在线视频理解标准基准
VStream-QA arXiv:2406.08085 Flash-VStream 提出,流式视频问答

选型建议

按场景选择

应用场景 推荐模型 理由
企业级大规模服务 LongCat-Flash-Omni 560B参数,128K上下文,适合批处理
实时语音助手 Qwen3-Omni 234ms延迟,双MoE架构,流式优化
端侧/手机部署 MiniCPM-o 2.6 8B参数,全双工,消费级GPU可跑
多语言场景 Qwen3-Omni 119种文本语言,中文ASR最强
情感陪伴/娱乐 GLM-4-Voice 情感控制,方言支持
图像生成+理解 Janus-Pro 统一架构,文生图+图理解
嵌入式/IoT Mini-Omni2 1.2GB体积,极致轻量
研究/学习 Qwen3-Omni 完全开源,技术报告详细
体育/游戏解说(文本) LiveCC-7B 唯一体育解说专用模型,7B超72B,需搭配TTS
体育/游戏解说(语音交互) VITA 端到端语音输出+流式视频,~1.5s延迟,可语音打断
直播主动解说(研究) ROMA Proactive narration,自动触发解说,暂未完全开源

按技术栈选择

技术需求 推荐模型 关键特性
MoE架构研究 LongCat / Qwen3 大规模MoE实践
流式生成优化 Qwen3 MTP + Code2Wav
音频编码器设计 Qwen3 AuT自研编码器
位置编码创新 Qwen3 TM-RoPE时间对齐
端侧优化 MiniCPM-o 全双工低功耗
多模态对齐 LongCat 早期融合策略

部署成本对比

┌─────────────────────────────────────────────────────────────────┐
│                     部署成本估算                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  LongCat-Flash-Omni:                                            │
│  ├─ 硬件: 8× H20-141G (单节点)                                   │
│  ├─ 成本: ~$20万 (硬件)                                          │
│  ├─ 功耗: ~4000W                                                 │
│  └─ 适合: 大企业/云服务                                          │
│                                                                  │
│  Qwen3-Omni:                                                    │
│  ├─ 硬件: 2× A100 80G 或 4× RTX 4090                             │
│  ├─ 成本: ~$1-3万 (硬件)                                         │
│  ├─ 功耗: ~1000W                                                 │
│  └─ 适合: 中型企业/研究机构                                      │
│                                                                  │
│  MiniCPM-o 2.6:                                                 │
│  ├─ 硬件: 1× RTX 4090 或 苹果M系列                               │
│  ├─ 成本: ~$2000 (硬件)                                          │
│  ├─ 功耗: ~300W                                                  │
│  └─ 适合: 小团队/端侧应用                                        │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

关键文件索引

LongCat-Flash-Omni

功能模块 文件路径
推理入口 longcat_omni_demo.py
视觉编码器 encoders/vision_adaptor.py
音频编码器 encoders/audio_adaptor.py
文本嵌入 encoders/embedding.py
数据处理 data/data_processor.py
多模态分词器 data/multimodal_tokenizer.py
后处理 post_process/unified_post_processor.py
常量定义 constants.py
全局配置 global_vars.py

Qwen3-Omni

功能模块 文件路径 说明
推理入口 qwen3_omni_demo.py 主入口
Thinker modeling_thinker.py MoE思考器
Talker modeling_talker.py MoE发声器
AuT编码器 modeling_aut.py 自研音频编码器
MTP模块 modeling_mtp.py 多Token预测
Code2Wav modeling_code2wav.py 轻量级声码器
TM-RoPE modeling_rope.py 时间对齐位置编码

相关链接

LongCat-Flash-Omni

Qwen3-Omni

其他模型

流式视频理解与实时解说


许可证

本分析文档基于以下开源项目编写:

  • LongCat-Flash-Omni (开源)
  • Qwen3-Omni (Apache 2.0)
  • MiniCPM-o (Apache 2.0)
  • GLM-4-Voice (开源)
  • Janus-Pro (MIT)

最后更新: 2026年3月

贡献: 欢迎提交 PR 补充更多模型分析

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors