开源 Omni 多模态大模型深度技术分析与对比

全面解析 LongCat-Flash-Omni、Qwen3-Omni 等主流开源全模态大模型的架构设计与技术细节

📋 目录

项目简介

本项目旨在深入分析当前主流的开源 Omni（全模态）多模态大模型，重点对比：

模型	机构	发布时间	核心特点
LongCat-Flash-Omni	美团	2024	560B MoE，128K长上下文
Qwen3-Omni	阿里巴巴	2025.09	Thinker-Talker双MoE，234ms超低延迟
MiniCPM-o 2.6	面壁智能	2025.01	8B端侧可用，全双工流式
GLM-4-Voice	智谱AI	2024.10	端到端情感语音
Janus-Pro	DeepSeek	2025.01	理解生成统一架构

2025-2026 新增开源 Omni 模型速览

以下模型适合补充到当前对比体系中。参数规模统一优先采用官方模型卡、官方仓库或技术报告口径；若官方存在不同口径（如模型卡参数 vs. 文件页元数据），会在备注中说明。

模型	机构 / 团队	发布时间	模型大小	架构 / 特点	模态支持	备注
HumanOmniV2	HumanMLLM	2025.07	9B	强调全局上下文理解与 Omni 推理，偏视频 + 音频理解	文 / 图 / 音 / 视 → 文	更偏”理解 / 推理型 Omni”，而非统一生成型
Ming-Flash-Omni	Inclusion AI	2025.10	100B 总参数 / 6.1B 激活	稀疏统一 MoE，理解 + 生成一体	文 / 图 / 音 / 视 → 文 / 图 / 音	参数口径来自官方论文；官方仓库在 2026.02 继续发布 `Ming-flash-omni 2.0` 更新
NExT-OMNI	NUS（新加坡国立大学）	2025.10	未公开	基于离散流匹配（Discrete Flow Matching）的统一 Any-to-Any 生成，非自回归范式	文 / 图 / 音 / 视 → 文 / 图 / 音 / 视	CC BY 4.0；arXiv:2510.13721；首个基于 DFM 的开源 Omni 模型
Uni-MoE-2.0-Omni	HITsz-TMG / Lychee 系列	2025.11	基于 Qwen2.5-7B；完整集合约 33B	动态容量 Omni-MoE，支持 10 种跨模态输入；GSPO-DPO 强化学习对齐	文 / 图 / 音 / 视等多模态 → 文 / 图 / 音	官方摘要未明确公开总参数；arXiv:2511.12609
HyperCLOVAX-SEED-Omni-8B	NAVER Cloud	2025.12	8B	Dense Omni，共享 next-token prediction 统一各模态；支持韩语与英语	文 / 图 / 音 / 视 → 文 / 图 / 音	官方模型卡写 8B；HF 元数据显示 11B；arXiv:2601.01792
AR-Omni	ModalityDance	2026.01	~7.5B（Anole-7B + CosyVoice2-0.5B）	单一 Transformer 解码器的纯自回归 Any-to-Any；Finite-state decoding 保证生成稳定性；语音实时因子 0.88	文 / 图 / 音 → 文 / 图 / 音	MIT；arXiv:2601.17761；HF: `ModalityDance/AR-Omni-Chat-v0.1`
MERaLiON2-Omni	A*STAR（新加坡科技研究局）	2026.02	10B	面向东南亚多语言场景的 Omni 理解模型；探讨感知能力与推理能力的权衡	文 / 图 / 音 / 视 → 文	理解型 Omni；聚焦低资源语言
Omni-R1	ModalityDance	2026.01	7B	基于 SFT + RL 的多模态推理增强 Omni 模型；强化学习驱动的跨模态推理能力	文 / 图 / 音 / 视 → 文	HF: `ModalityDance/Omni-R1`；更偏推理增强，而非生成型

补充观察

最新一档开源 Omni：Ming-Flash-Omni 2.0（2026.02）、AR-Omni（2026.01）、MERaLiON2-Omni（2026.02）是 2026 年初最新发布的代表，覆盖大参数生成、轻量纯自回归、多语言理解三个方向。
架构范式新分支：NExT-OMNI 引入离散流匹配（DFM）替代自回归，是目前开源 Omni 中唯一的非自回归 Any-to-Any 生成方案；AR-Omni 则走向另一个极端——单流纯自回归，架构极简。
参数口径需区分：Omni 模型常同时出现”总参数””激活参数””HF 页面统计参数”三种口径，横向比较时需要明确区分。
路线进一步分化：新增模型分成三类——① 统一理解 + 生成（Ming-Flash-Omni、HyperCLOVAX-SEED-Omni-8B、AR-Omni）；② 推理 / 特定模态理解增强（HumanOmniV2、Omni-R1、MERaLiON2-Omni）；③ 非自回归生成探索（NExT-OMNI）。

截至 2026.03 的补充说明

HumanOmniV2：论文发布于 2025.06.26，权重与训练代码于 2025.07.01 公开，截至 2026.03 约 8 个月。Hugging Face 模型页显示为 9B params。其核心定位就是 human-centric omni reasoning，官方基准 IntentBench 需要同时理解视频 + 音频 + 全局上下文，因此对视频理解任务是强支持，且属于主打方向。
Ming-Flash-Omni / Ming-flash-omni 2.0：预览版首发于 2025.10.27，截至 2026.03 约 4 个月；2.0 官方版于 2026.02.11 发布，距今约 1 个月。官方论文口径为 100B 总参数 / 6.1B 激活参数。官方仓库明确支持 Image / Text / Video / Audio 输入，并提供 Streaming Video Conversation 用例，因此支持视频理解任务。
NExT-OMNI：论文于 2025.10.15 发布（arXiv:2510.13721），截至 2026.03 约 5 个月。参数量未在论文摘要中公开。核心技术亮点是离散流匹配（Discrete Flow Matching）——这是目前开源 Omni 模型中唯一基于 DFM 而非自回归的 Any-to-Any 方案。代码和权重以 CC BY 4.0 开源。
Uni-MoE-2.0-Omni：论文公开于 2025.11.16，截至 2026.03 接近 4 个月。官方技术报告说明其基于 Qwen2.5-7B dense architecture 构建，Hugging Face 集合页显示整模为 33B。论文明确提到其在 video understanding 上有显著提升，官方示例代码也包含 videos=video_inputs，因此对视频理解任务是强支持。
HyperCLOVAX-SEED-Omni-8B：模型卡于 2026.01.06 公开，截至 2026.03 约 2 个月。官方模型卡口径为 8B，而 Hugging Face 页面元数据显示为 11B params。官方模型卡明确写有 Text / Image / Video / Audio 输入与 Text / Image / Audio 输出，因此支持视频理解任务，但不支持视频生成输出。
AR-Omni：论文于 2026.01.25 发布（arXiv:2601.17761），截至 2026.03 约 6 周。模型由 Anole-7B（7B）+ CosyVoice2-0.5B 组合而成，总量约 7.5B。架构极简：单一 Transformer 解码器 + 单 token 流，无专用的语音解码器分支。实测语音实时因子 0.88（低于 1 即支持实时）。以 MIT 协议开源。
MERaLiON2-Omni：论文于 2026.02 提交，截至 2026.03 约 1 个月。参数规模 10B。由新加坡 A*STAR 主导，聚焦东南亚多语言低资源场景，并在论文中系统探讨感知能力与推理能力之间的权衡（perception vs. reasoning trade-off）。属于理解型 Omni，无多模态生成输出。
Omni-R1：发布于 2026.01，参数规模 7B。由 ModalityDance 团队（即 AR-Omni 同一团队）发布。通过 SFT + RL 强化多模态推理能力，属于推理增强型 Omni而非生成型。HF 链接：ModalityDance/Omni-R1。

注：上面的”多久”以 2026-03-07 为基准；参数规模优先采用官方模型卡 / 官方仓库 / 官方论文口径，若与 Hugging Face 页面元数据不一致，则一并标注。

开源 Omni 模型全景对比

核心参数对比表

维度	LongCat-Flash-Omni	Qwen3-Omni	MiniCPM-o 2.6	GLM-4-Voice	Janus-Pro
总参数	560B	34B (Thinker+Talker)	8B	-	7B
激活参数	27B (4.8%)	Thinker 3B / Talker 0.3B	8B	-	7B
架构	Shortcut MoE	Thinker-Talker 双MoE	多编码器融合	音频Tokenizer	解耦视觉编码
上下文	128K	32K	8K	-	-
端到端延迟	-	234ms (音频)	~300ms	~200ms	-
模态支持	文/图/音/视	文/图/音/视	文/图/音/视	文/音	文/图
音频编码	DFSMN	AuT (自研)	Whisper	GLM-4-Voice-Tokenizer	-
位置编码	RoPE	TM-RoPE	RoPE	RoPE	-
训练数据	-	36T tokens	-	-	-
开源协议	开源	Apache 2.0	Apache 2.0	开源	MIT
最小显存	8×H20 141G	~24GB	~8GB	~12GB	~16GB

音频处理能力对比

模型	帧粒度	编码器	最大音频长度	语音生成
LongCat-Flash-Omni	80ms	DFSMN (22层)	-	4-codebook
Qwen3-Omni	80ms	AuT (650M)	40分钟	MTP+Code2Wav
MiniCPM-o 2.6	320ms	Whisper-medium	~10分钟	ChatTTS
GLM-4-Voice	80ms	自研Tokenizer	-	Flow Matching

性能表现对比

模型	ASR (WenetSpeech)	视频理解	文本(MMLU)	语音延迟
LongCat-Flash-Omni	-	-	-	-
Qwen3-Omni	4.69 (SOTA)	70.5 (Video-MME)	86.6	234ms
MiniCPM-o 2.6	~6.0	~65	~75	~300ms
GPT-4o (参考)	15.30	71.9	91.3	~200ms

LongCat-Flash-Omni 深度解析

美团 LongCat 团队开发的全能型 AI 模型 - 560B 参数 (27B 激活) 的多模态大模型

模型概述

项目	规格
总参数量	560B (5600 亿)
激活参数	27B (~4.8%)
架构	Shortcut-connected MoE (Mixture-of-Experts)
模态支持	文本、音频、图像、视频
上下文长度	128K tokens
音频帧粒度	80ms
推理精度	FP8 (单节点) / BF16 (多节点)

整体架构图

┌─────────────────────────────────────────────────────────────────────┐
│                     LongCat-Flash-Omni 架构                          │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│    ┌──────────────┐    ┌──────────────┐    ┌──────────────┐         │
│    │  Visual      │    │   Audio      │    │    Text      │         │
│    │  Encoder     │    │   Encoder    │    │  Embedding   │         │
│    │  (Univitar)  │    │   (DFSMN)    │    │  (131K vocab)│         │
│    └──────┬───────┘    └──────┬───────┘    └──────┬───────┘         │
│           │                   │                   │                  │
│           └───────────────────┼───────────────────┘                  │
│                               ▼                                      │
│                    ┌──────────────────┐                               │
│                    │  Embedding Fusion│  ← 统一嵌入空间 (7168维)      │
│                    └────────┬─────────┘                               │
│                             │                                         │
│                             ▼                                         │
│                    ┌──────────────────┐                               │
│                    │   LongCat Flash  │  ← MoE 主干 (560B参数)        │
│                    │   (MoE Backbone) │     激活 27B                 │
│                    └────────┬─────────┘                               │
│                             │                                         │
│                             ▼                                         │
│                    ┌──────────────────┐                               │
│                    │  Output Heads     │                               │
│                    │  (Text + Audio)   │                               │
│                    └──────────────────┘                               │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

视觉编码器 (Univitar)

配置参数:

LongCatVisionConfig:
├── num_hidden_layers: 24          # Transformer 层数
├── num_attention_heads: 16        # 注意力头数
├── hidden_size: 1024              # 隐藏层维度
├── intermediate_size: 4224        # FFN 中间层维度
├── patch_size: 14                 # 空间 patch 大小
├── temporal_patch_size: 2         # 时间 patch 大小 (视频)
├── image_size: 1792               # 输入图像分辨率
└── attention_type: "flash_attention"

处理流程:

输入图像 (H×W×3)
    ↓
3D Convolution (kernel: [2, 14, 14])
    ↓
Patch Embeddings (1024维)
    ↓
24× Transformer Layers
    ├── FlashAttention (双向)
    ├── 2D Rotary Position Embedding
    ├── SwiGLU Activation
    └── RMSNorm
    ↓
Vision Projector (1024 → 7168)
    ↓
输出 (7168维, 与文本对齐)

音频编码器 (DFSMN)

配置参数:

LongCatAudioConfig:
├── input_size: 1200      # fbank 特征维度
├── hidden_size: 6144     # FSMN 隐藏层
├── proj_size: 1536       # 投影层维度
├── nlayer: 22            # DFSMN 层数
├── ndnn: 2               # DNN 层数
├── left_order: 10        # 左记忆窗口 (800ms)
├── right_order: 1        # 右记忆窗口 (80ms)
└── activation: relu6

DFSMN 架构:

输入音频特征 (1200维 fbank)
    ↓
22× DFSMN Layers
    ├── Memory Block
    │   └── Depthwise 1D Conv (kernel_size = 12)
    └── FFN Block
        ├── LayerNorm
        ├── Linear (1200 → 6144)
        ├── ReLU6
        └── Linear (6144 → 1200)
    ↓
2× DNN Layers
    ↓
Audio Projector (1200 → 7168)
    ↓
输出 (7168维)

音频帧粒度: 每帧 80ms

MoE 架构详解

┌─────────────────────────────────────────────────────────────────┐
│                    LongCat MoE 架构                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  输入Embedding (7168维)                                          │
│       ↓                                                         │
│  ┌─────────────────────────────────────────────────────────────┐│
│  │                    MoE Layer                                ││
│  │  ┌─────────┐                                                ││
│  │  │  Router │  → 选择 Top-2 专家                             ││
│  │  └────┬────┘                                                ││
│  │       ↓                                                     ││
│  │  ┌────┴────┬────────┬────────┬────────┐                    ││
│  │  │ 专家0   │ 专家1  │ 专家2  │ ...   │ 专家63            ││
│  │  │ (文本)  │ (视觉) │ (音频) │       │ (混合)            ││
│  │  │ ~9B    │ ~9B    │ ~9B    │       │ ~9B               ││
│  │  └────┬────┴───┬────┴────────┘       └───────────────────┘││
│  │       └────┬───┘                                            ││
│  │            ↓                                                 ││
│  │      加权融合输出                                            ││
│  └─────────────────────────────────────────────────────────────┘│
│                                                                  │
│  每层激活参数: ~0.5B (2专家 × 每层参数)                           │
│  总激活参数: 27B                                                 │
│  总参数量: 560B                                                  │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

推理流程

完整调用链:

longcat_omni_demo.py:main()
    │
    ├─→ init_global_config(args)
    │   └─→ set_global_variables(config)
    │
    ├─→ LoncatOmniInfer.__init__(args)
    │   │
    │   ├─→ build_modality_models()
    │   │   ├─→ TextEmbedding()
    │   │   ├─→ LongCatOmniVisionAdaptor()
    │   │   ├─→ LongCatOmniAudioAdaptor()
    │   │   ├─→ AudioEmbedding(audio_head_num=4)
    │   │   ├─→ DataProcessor()
    │   │   └─→ OmniUnifiedPostProcessor()
    │   │
    │   └─→ create_sglang_engine()
    │
    └─→ infer_engine.generate(input, sampling_params)

单次推理详细流程:

# 步骤 1: 数据预处理
def _process_input(input_dict):
    data = self._input_processor.process(input_dict)
    # 返回: prompts, audios, audio_masks, images, grid_shapes

# 步骤 2: 嵌入生成
def _get_input_embedding(input_ids, codecs, audios, images):
    # 2.1 基础文本嵌入
    merged = self.text_embedding(input_ids)

    # 2.2 音频 codec 嵌入 (4个 codebook 相加)
    if codecs is not None:
        audio_embs = self.audio_embedding(codecs)
        for i in range(4):
            merged += audio_embs[i]

    # 2.3 连续音频嵌入 (替换 pad 位置)
    if audios is not None:
        audio_emb = self.audio_adaptor_model(audios, audio_masks)
        merged[audio_pad_mask] = audio_emb

    # 2.4 视觉嵌入 (替换 pad 位置)
    if images is not None:
        vision_emb = self.vision_adaptor_model(images, grid_shapes)
        merged[vision_pad_mask] = vision_emb

    return merged

# 步骤 3: SGLang 推理
async def generate():
    output = await self.sglang_engine.async_generate(
        input_embeds=input_embedding,
        sampling_params={"temperature": 1.0, "max_new_tokens": 4096}
    )
    return output

# 步骤 4: 后处理
def post_processor.process(output):
    text = tokenizer.decode(output["output_ids"])
    waveform = codec_decoder.decode(output["aux_info"]["audio_codes"])
    return ProcessedOutput(text=text, audio_waveform=waveform)

Token 处理机制

特殊 Token 定义:

# 音频相关
AUDIO_BOS_TOKEN = "<|audio|>"        # 音频开始
AUDIO_EOS_TOKEN = "<|/audio|>"       # 音频结束
AUDIO_PAD_TOKEN = "<|audio_pad|>"    # 音频填充占位符

# 视觉相关
IMAGE_PAD_TOKEN = "<|image_pad|>"    # 图像填充
DEFAULT_IMAGE_TOKEN = "<image>"

# 对话角色
SYSTEM_BOS_TOKEN = "<begin-of-system>"
USER_BOS_TOKEN = "<begin-of-user>"
ASSISTANT_BOS_TOKEN = "<begin-of-assistant>"

# 音频 Codec
CODEC_EOS_ID = 2
CODEC_PAD_ID = 3
NUM_CODEC_PLACEHOLDERS = 32

嵌入融合策略:

# 文本: 直接 embedding
merged = text_embedding(input_ids)

# 音频 Codec: 相加融合
for i in range(4):
    merged += audio_embedding[i](codecs[:, :, i])

# 连续音频: 替换 pad 位置
merged[audio_pad_mask] = audio_adaptor_embedding

# 视觉: 替换 pad 位置
merged[vision_pad_mask] = vision_adaptor_embedding

音频 Codec 结构:

4-codebook 编码:
┌─────────────────────────────────────────────┐
│  Codebook 0: 语义 Token (Semantic)         │
│  Codebook 1-3: 声学 Token (Acoustic)       │
│                                             │
│  每帧 80ms → 4 个 token                    │
│  Codec ID 偏移: +32                         │
└─────────────────────────────────────────────┘

并行策略

TP + EP 并行架构:

┌────────────────────────────────────────────────────────────┐
│               TP + EP 并行架构                              │
├────────────────────────────────────────────────────────────┤
│                                                            │
│   Node 0                              Node 1              │
│   ┌────┬────┬────┬────┐              ┌────┬────┬────┬────┐│
│   │GPU0│GPU1│GPU2│GPU3│              │GPU4│GPU5│GPU6│GPU7││
│   ├────┼────┼────┼────┤              ├────┼────┼────┼────┤│
│   │ TP │ TP │ TP │ TP │              │ TP │ TP │ TP │ TP ││
│   │ EP │ EP │ EP │ EP │              │ EP │ EP │ EP │ EP ││
│   │ E0 │ E1 │ E2 │ E3 │              │ E4 │ E5 │ E6 │ E7 ││
│   └────┴────┴────┴────┘              └────┴────┴────┴────┘│
│                                                            │
│   TP (Tensor Parallelism): 模型层内切分                    │
│   EP (Expert Parallelism): MoE 专家分布                    │
│                                                            │
└────────────────────────────────────────────────────────────┘

推荐配置:

配置	GPU	精度	参数
单节点	8× H20-141G	FP8	`--tp-size 8 --ep-size 8`
双节点	16× H800-80G	BF16	`--tp-size 16 --ep-size 16 --nodes 2`

硬件要求

最低配置:

GPU: 单节点 8× H20-141G (141GB VRAM)
精度: FP8
并行: TP=8, EP=8

推荐配置:

GPU: 双节点 16× H800-80G (80GB VRAM)
精度: BF16
并行: TP=16, EP=16

Qwen3-Omni 深度解析

阿里巴巴 Qwen 团队 2025年9月发布的全模态端到端模型 - 首个无性能退化的多模态系统

模型概述

项目	规格
总参数量	Thinker 30B + Talker 3B = ~34B
激活参数	Thinker 3B + Talker 0.3B
架构	Thinker-Talker 双 MoE
模态支持	文本、音频、图像、视频
上下文长度	32K tokens
端到端延迟	234ms (音频) / 547ms (视频)
音频帧粒度	80ms
训练数据	36T tokens
开源协议	Apache 2.0

核心成就

"全能不偏科" - 36项音视频基准测试，32项开源SOTA

能力	表现
ASR (WenetSpeech)	4.69 WER (超越 GPT-4o 的 15.30)
视频理解 (Video-MME)	70.5
文本 (MMLU)	86.6 (与同规模单模态持平)
多语言	119种文本 / 19种语音输入 / 10种语音输出
长音频	支持 40分钟音频输入

整体架构图

┌─────────────────────────────────────────────────────────────────────────────┐
│                          Qwen3-Omni 架构全景                                 │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ┌───────────────────────────────────────────────────────────────────────┐  │
│  │                         感知层 (Perception)                            │  │
│  │  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌───────────┐  │  │
│  │  │   文本输入    │  │   音频输入    │  │   图像输入    │  │  视频输入  │  │  │
│  │  │  Tokenizer   │  │   AuT编码器   │  │ SigLIP2编码器 │  │  (同上)   │  │  │
│  │  │  151K词汇表  │  │   650M参数   │  │   540M参数   │  │           │  │  │
│  │  └──────┬───────┘  └──────┬───────┘  └──────┬───────┘  └─────┬─────┘  │  │
│  │         └─────────────────┴─────────────────┴────────────────┘        │  │
│  │                                    ↓                                  │  │
│  │                        TM-RoPE 位置编码                                │  │
│  │                    (时间对齐多模态旋转位置编码)                          │  │
│  └────────────────────────────────────┬───────────────────────────────────┘  │
│                                       ↓                                     │
│  ┌───────────────────────────────────────────────────────────────────────┐  │
│  │                    Thinker (思考器) - MoE架构                          │  │
│  │                                                                       │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │              MoE Transformer (30B总参, 3B激活)               │     │  │
│  │   │   功能：多模态理解 + 文本生成                                │     │  │
│  │   │   输出：文本 Token + 高层语义特征 (给Talker)                  │     │  │
│  │   └─────────────────────────────────────────────────────────────┘     │  │
│  └────────────────────────────────────┬───────────────────────────────────┘  │
│                                       ↓                                     │
│  ┌───────────────────────────────────────────────────────────────────────┐  │
│  │                    Talker (发声器) - MoE架构                           │  │
│  │                                                                       │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │              MoE Transformer (3B总参, 0.3B激活)              │     │  │
│  │   │   接收：Thinker的高层特征 + 历史对话上下文                    │     │  │
│  │   │   功能：流式语音生成                                          │     │  │
│  │   └────────────────────────┬────────────────────────────────────┘     │  │
│  │                            ↓                                          │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │                  MTP 模块 (80M参数)                          │     │  │
│  │   │         多Token预测 - 一次生成多个码本层                      │     │  │
│  │   └────────────────────────┬────────────────────────────────────┘     │  │
│  │                            ↓                                          │  │
│  │   ┌─────────────────────────────────────────────────────────────┐     │  │
│  │   │                Code2Wav (200M参数)                           │     │  │
│  │   │         轻量级因果卷积网络 - 波形合成                          │     │  │
│  │   └────────────────────────┬────────────────────────────────────┘     │  │
│  │                            ↓                                          │  │
│  │                      音频波形输出                                       │  │
│  └───────────────────────────────────────────────────────────────────────┘  │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

五大核心升级（相比 Qwen2.5-Omni）

┌─────────────────────────────────────────────────────────────────────┐
│              Qwen3-Omni vs Qwen2.5-Omni 升级对比                     │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  1. 双MoE设计                                                        │
│     Qwen2.5: Dense Thinker + Dense Talker                           │
│     Qwen3:   MoE Thinker (30B-A3B) + MoE Talker (3B-A0.3B)          │
│              └── 高并发下延迟更稳定，TPS更高                          │
│                                                                      │
│  2. 音频编码器升级                                                    │
│     Qwen2.5: Whisper (外部预训练)                                    │
│     Qwen3:   AuT (自研, 2000万小时训练)                              │
│              └── 中文ASR更强，支持实时预填充缓存                       │
│                                                                      │
│  3. 语音表示升级                                                      │
│     Qwen2.5: 单码本                                                  │
│     Qwen3:   多码本 (8层) + MTP多Token预测                           │
│              └── 更精细的音色和副语言建模                             │
│                                                                      │
│  4. 延迟优化                                                          │
│     Qwen2.5: 扩散模型声码器 (DiT)                                    │
│     Qwen3:   Code2Wav轻量级卷积网络 (200M)                           │
│              └── 首包延迟 234ms                                      │
│                                                                      │
│  5. 位置编码升级                                                      │
│     Qwen2.5: M-RoPE (固定2秒分块)                                    │
│     Qwen3:   TM-RoPE (时间锚定，灵活对齐)                            │
│              └── 支持任意时长流式输入                                 │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

AuT 音频编码器（自研）

为什么替代 Whisper？

┌─────────────────────────────────────────────┐
│              AuT (Audio Transformer)         │
│                 650M 参数                     │
├─────────────────────────────────────────────┤
│                                              │
│  输入: 原始音频波形 (16kHz)                   │
│       ↓                                      │
│  ┌─────────────────────┐                    │
│  │   Conv2D 下采样      │  ← 8倍下采样        │
│  │   (滤波器组特征)      │                    │
│  └─────────────────────┘                    │
│       ↓                                      │
│  ┌─────────────────────┐                    │
│  │  动态窗口 FlashAttention                 │
│  │  窗口: 1-8秒可调                         │
│  │  Token率: 12.5 Hz (每80ms一帧)           │
│  └─────────────────────┘                    │
│       ↓                                      │
│  输出: 音频特征向量                           │
│                                              │
│  训练数据: 2000万小时有监督音频               │
│  - 80% 中英文ASR                             │
│  - 10% 其他语言ASR                           │
│  - 10% 音频理解数据                           │
│                                              │
└─────────────────────────────────────────────┘

性能对比:

数据集	GPT-4o	Gemini-2.5	Qwen2.5-Omni	Qwen3-Omni
Librispeech	1.39	2.89	1.74	1.22
Wenetspeech	15.30	14.43	5.91	4.69

TM-RoPE：时间对齐多模态位置编码

核心创新：音视频精确同步，支持长序列

┌─────────────────────────────────────────────────────────────┐
│              TM-RoPE (Time-aligned M-RoPE)                  │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  维度分配 (相比M-RoPE优化):                                   │
│  ┌───────────────────────────────────────────────────────┐  │
│  │  - 时间维度: 24个旋转角度 (M-RoPE: 16)                 │  │
│  │  - 高度维度: 20个旋转角度                              │  │
│  │  - 宽度维度: 20个旋转角度                              │  │
│  │                                                       │  │
│  │  更多时间维度 → 更好的长序列外推能力                    │  │
│  └───────────────────────────────────────────────────────┘  │
│                                                              │
│  不同模态的处理:                                              │
│                                                              │
│  ┌─────────┐    ┌─────────┐    ┌─────────┐                 │
│  │  文本    │    │  音频    │    │  图像/视频│                 │
│  │         │    │         │    │         │                 │
│  │ T/H/W   │    │ T/H/W   │    │ T/H/W   │                 │
│  │ 相同ID  │    │ 相同ID  │    │ T:帧ID  │                 │
│  │         │    │ +绝对时间│    │ H/W:位置│                 │
│  │         │    │ 80ms/步 │    │         │                 │
│  └─────────┘    └─────────┘    └─────────┘                 │
│                                                              │
│  音视频同步机制:                                              │
│  - 音频: 每80ms一个时间ID                                     │
│  - 视频: 按实际时间戳对齐到80ms粒度                            │
│  - 连续编号: 后一模态起始位置 = 前一模态最大位置 + 1            │
│                                                              │
│  优势: 支持任意时长流式输入，无需固定分块                       │
│                                                              │
└─────────────────────────────────────────────────────────────┘

流式语音生成机制

MTP + Code2Wav 详解:

┌──────────────────────────────────────────────────────────────────────┐
│                    流式语音生成流程                                   │
├──────────────────────────────────────────────────────────────────────┤
│                                                                       │
│  传统方式 (逐个预测)              Qwen3方式 (MTP一次预测)              │
│                                                                       │
│  Step1: [C0] ────────→          Step1: [C0,C1,C2,C3,C4,C5,C6,C7]    │
│  Step2: [C1] ────────→                   ↑                          │
│  Step3: [C2] ────────→          MTP模块: 一次预测所有残差码本         │
│  ...                                                              │
│  Step8: [C7] ────────→                                              │
│                                                                       │
│  延迟: 8步 × 每步时间              延迟: 1步 × 每步时间                │
│                                                                       │
│  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━  │
│                                                                       │
│  Code2Wav 波形合成:                                                    │
│                                                                       │
│  Talker输出 ──→ MTP预测残差码本 ──→ Code2Wav(因果ConvNet) ──→ 波形    │
│                                                                       │
│  对比:                                                                │
│  ┌─────────────────┐    ┌─────────────────┐                          │
│  │   扩散模型 DiT   │    │  轻量ConvNet    │                          │
│  │   (计算密集型)   │ →  │  (200M参数)     │                          │
│  │   需等上下文    │    │  单帧即可合成   │                          │
│  │   延迟高        │    │  延迟极低       │                          │
│  └─────────────────┘    └─────────────────┘                          │
│                                                                       │
│  首包延迟: 234ms (音频) / 547ms (视频)                                │
│                                                                       │
└──────────────────────────────────────────────────────────────────────┘

分块预填充机制

┌─────────────────────────────────────────────────────────────────────┐
│                    分块预填充流程                                    │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  用户输入音频/视频流                                                  │
│       ↓                                                             │
│  ┌─────────────────────────────────────────────────────────────────┐│
│  │  Block 0 (2秒)  ─────────────────────────────────────────────→  ││
│  │       ↓ (Thinker处理)                                            ││
│  │       ↓ (同时)                                                  ││
│  │  Block 1 (2秒)  ─────────────────────────────────────────────→  ││
│  │       ↓ (Thinker处理) ──→ 输出给Talker ──→ 开始生成语音        ││
│  │       ↓ (同时)                                                  ││
│  │  Block 2 (2秒)  ─────────────────────────────────────────────→  ││
│  │       ↓ (Thinker处理下一块...)                                    ││
│  │                                                                  ││
│  │  关键: Thinker和Talker并行处理！                                  ││
│  │       - Thinker处理当前块时，Talker在生成上一块的语音             ││
│  │       - 大幅降低首Token时间 (TTFT)                               ││
│  └─────────────────────────────────────────────────────────────────┘│
│                                                                      │
│  并发优化:                                                            │
│  - MoE架构减少KV Cache IO消耗                                        │
│  - 轻量级MTP和Code2Wav支持批量推理                                    │
│  - 不同并发下延迟稳定                                                  │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

三阶段训练策略

┌─────────────────────────────────────────────────────────────────────┐
│                      三阶段预训练                                     │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  Stage 1: 编码器对齐 (S1)                                             │
│  ┌────────────────────────────────────────────────────────────────┐ │
│  │  - 冻结LLM参数                                                  │ │
│  │  - 只训练视觉编码器(SigLIP)和音频编码器(AuT)                     │ │
│  │  - 目标: 让编码器输出与LLM输入空间对齐                            │ │
│  └────────────────────────────────────────────────────────────────┘ │
│                               ↓                                      │
│  Stage 2: 通用训练 (S2)                                               │
│  ┌────────────────────────────────────────────────────────────────┐ │
│  │  - 训练所有参数                                                 │ │
│  │  - 数据量: 2万亿 tokens                                         │ │
│  │    ├─ 文本:   0.57T (28.5%)                                    │ │
│  │    ├─ 音频:   0.77T (38.5%)                                    │ │
│  │    ├─ 图像:   0.82T (41%)                                      │ │
│  │    ├─ 视频:   0.05T (2.5%)                                     │ │
│  │    └─ 音视频: 0.05T (2.5%)                                     │ │
│  │  - 关键: 早期就融合单模态和跨模态数据！                           │ │
│  └────────────────────────────────────────────────────────────────┘ │
│                               ↓                                      │
│  Stage 3: 长上下文 (S3)                                               │
│  ┌────────────────────────────────────────────────────────────────┐ │
│  │  - 最大长度扩展到 32,768 tokens                                 │ │
│  │  - 增加长音频(40分钟+)和长视频比例                                │ │
│  │  - 提升长程依赖建模能力                                          │ │
│  └────────────────────────────────────────────────────────────────┘ │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

DreamID-Omni 深度解析

清华大学 & 字节跳动智能创作实验室联合发布 - 可控人中心音视屏生成统一框架

模型概述

项目	规格
总参数量	基于 Ovi 初始化 (具体规模未披露)
架构	Symmetric Conditional DiT (双流传输)
模态支持	图像(参考身份)、音频(参考音色/驱动)、文本、视频
核心任务	R2AV / RV2AV / RA2V 三任务统一
上下文长度	标准 DiT 配置
训练数据	~1M 高质量音视频对 (OpenHumanVid)
开源协议	代码将开源 (论文承诺)

整体架构图

┌─────────────────────────────────────────────────────────────────────────────┐
│                     DreamID-Omni 架构                                        │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│   ┌─────────────────────────────────────────────────────────────────────┐   │
│   │                     Symmetric Conditional DiT                        │   │
│   │  ┌─────────────────────┐         ┌─────────────────────┐            │   │
│   │  │    Video Stream     │ ←────→ │    Audio Stream     │            │   │
│   │  │   (视觉合成骨干)     │ 双向交叉注意力 │   (音频合成骨干)     │            │   │
│   │  └─────────────────────┘         └─────────────────────┘            │   │
│   └─────────────────────────────────────────────────────────────────────┘   │
│                                      │                                       │
│    ┌─────────────────────────────────┼─────────────────────────────────┐    │
│    │                         条件注入机制                              │    │
│    │  ┌──────────────┐    ┌──────────────┐    ┌──────────────┐        │    │
│    │  │  Reference   │    │   Source     │    │   Driving    │        │    │
│    │  │  Images (ℐ)  │    │   Video      │    │   Audio      │        │    │
│    │  │  参考身份图像  │    │   (V_src)    │    │   (A_dri)    │        │    │
│    │  └──────────────┘    └──────────────┘    └──────────────┘        │    │
│    │  ┌──────────────┐    ┌──────────────┐                           │    │
│    │  │   Voice      │    │    Text      │                           │    │
│    │  │  Timbers (𝒜) │    │   Prompt     │                           │    │
│    │  │  参考音色     │    │   (𝒯)        │                           │    │
│    │  └──────────────┘    └──────────────┘                           │    │
│    └───────────────────────────────────────────────────────────────────┘    │
│                                      │                                       │
│    ┌─────────────────────────────────┼─────────────────────────────────┐    │
│    │                      Dual-Level Disentanglement                   │    │
│    │                                                                 │    │
│    │  ┌─────────────────────────────────────────────────────────┐   │    │
│    │  │  Signal Level: Syn-RoPE (同步旋转位置编码)                │   │    │
│    │  │  • 目标序列: [0, L-1]                                    │   │    │
│    │  │  • 身份k: [k·M, (k+1)·M-1]  (M=150, 大间隔)              │   │    │
│    │  │  • 同身份图像+音色共享相同RoPE段 → 自动绑定              │   │    │
│    │  └─────────────────────────────────────────────────────────┘   │    │
│    │                                                                 │    │
│    │  ┌─────────────────────────────────────────────────────────┐   │    │
│    │  │  Semantic Level: Structured Caption (结构化描述)         │   │    │
│    │  │  • <sub_1>, <sub_2> 锚点token                           │   │    │
│    │  │  • Video Caption / Audio Caption / Joint Caption         │   │    │
│    │  │  • 显式关联主体与属性                                     │   │    │
│    │  └─────────────────────────────────────────────────────────┘   │    │
│    └───────────────────────────────────────────────────────────────────┘    │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

三任务统一范式

任务	名称	输入条件	应用场景
R2AV	Reference-to-Audio-Video	ℐ + 𝒜 + 𝒯	给定参考图和音色，生成说话视频
RV2AV	Reference-Video-to-Audio-Video	ℐ + 𝒜 + V_src + 𝒯	视频人物换脸+换音色
RA2V	Reference-Audio-to-Video	ℐ + A_dri + 𝒯	音频驱动动画(对口型)

核心创新点

1. Syn-RoPE: 信号级身份-音色绑定

# RoPE 位置分配策略
positions = {
    "target_video":  [0, L-1],           # 目标视频
    "target_audio":  [0, L-1] * γ,       # 目标音频 (γ = Lv/La 缩放)
    "ref_identity_1": [M, 2M-1],         # 身份1的图像+音色
    "ref_identity_2": [2M, 3M-1],        # 身份2的图像+音色
    # ... M=150, 确保不同身份在旋转子空间中分离
}

优势:

利用 RoPE 周期性，不同身份自然投影到不同子空间
同身份的图像和音色共享位置 → 隐性跨模态同步
无需显式约束，注意力机制自动实现绑定

2. 多任务渐进训练策略

Stage 1: In-pair Reconstruction (10K steps)
   └── 从同一样本提取参考，带掩码重建
   └── 学习目标: 建立条件生成先验

Stage 2: Cross-pair Disentanglement (20K steps)
   └── 从不同样本提取参考，完整重建
   └── 学习目标: 强制解耦身份/音色表示

Stage 3: Omni-Task Fine-tuning (20K steps)
   └── R2AV:RV2AV:RA2V = 4:3:3 混合训练
   └── 学习目标: 统一三任务能力

关键洞察: 先用弱约束任务(R2AV)建立生成先验，再引入强约束任务(RV2AV/RA2V)，防止强任务主导导致弱任务性能下降。

核心架构对比分析

六大 Omni 模型全景对比

维度	LongCat-Flash-Omni	Qwen3-Omni	MiniCPM-o 2.6	GLM-4-Voice	Janus-Pro	DreamID-Omni
机构	美团	阿里巴巴	面壁智能	智谱AI	DeepSeek	清华×字节
定位	通用多模态大模型	端到端全模态	端侧全模态	语音对话	理解生成统一	可控音视频生成
发布时间	2024	2025.09	2025.01	2024.10	2025.01	2026.02
总参数	560B (MoE)	34B (Thinker+Talker)	8B	-	7B	基于 Ovi
激活参数	27B	3B / 0.3B	8B	-	7B	未披露
架构	Shortcut MoE	Thinker-Talker 双MoE	多编码器融合	音频Tokenizer	解耦视觉编码	Symmetric DiT
核心任务	理解+生成	理解+生成	理解+生成	语音对话	理解+生成	R2AV/RV2AV/RA2V
模态支持	文/图/音/视	文/图/音/视	文/图/音/视	文/音	文/图	图+音→视+音
上下文	128K	32K	8K	-	-	标准 DiT
延迟	-	234ms	~300ms	~200ms	-	生成式(非实时)
音频编码	DFSMN (22层)	AuT (650M)	Whisper-medium	自研Tokenizer	-	WavLM + CosyVoice
位置编码	RoPE	TM-RoPE	RoPE	RoPE	-	Syn-RoPE
特色技术	Shortcut Connection	Thinker-Talker解耦	全双工流式	端到端情感	统一自回归	双层解耦+三任务统一
开源协议	开源	Apache 2.0	Apache 2.0	开源	MIT	即将开源
最小显存	8×H20 141G	~24GB	~8GB	~12GB	~16GB	估计 ~16GB

技术路线对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                        Omni 模型技术路线图谱                                  │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  通用多模态大模型 (理解+生成)        专用音视频生成模型                       │
│  ┌─────────────────────────┐        ┌─────────────────────────┐             │
│  │  • LongCat-Flash-Omni   │        │  • DreamID-Omni         │             │
│  │  • Qwen3-Omni           │        │  • Wan2.6               │             │
│  │  • MiniCPM-o 2.6        │        │  • Ovi                  │             │
│  │  • GLM-4-Voice          │        │  • LTX-2                │             │
│  └─────────────────────────┘        └─────────────────────────┘             │
│                                                                              │
│  核心差异:                                                                 │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │ 通用模型: 追求模态全覆盖 + 实时交互 + 大上下文                       │   │
│  │ 专用模型: 追求生成质量 + 精细控制 + 多任务统一                       │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                                                                              │
│  DreamID-Omni 的独特定位:                                                   │
│  ┌─────────────────────────────────────────────────────────────────────┐   │
│  │ • 不是通用对话模型，而是专注于「人中心音视频生成」                    │   │
│  │ • 三任务统一：生成(R2AV) + 编辑(RV2AV) + 动画(RA2V)                 │   │
│  │ • 解决核心痛点：多人场景身份-音色绑定 + 说话人混淆                   │   │
│  │ • 输出: 同步的音视频流 (而非纯文本或纯图像)                         │   │
│  └─────────────────────────────────────────────────────────────────────┘   │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

架构设计哲学对比

模型	设计哲学	关键取舍
LongCat-Flash-Omni	大MoE追求通用能力	560B参数换128K长上下文，推理成本高
Qwen3-Omni	延迟优先的端到端架构	Thinker-Talker解耦，234ms超低延迟
MiniCPM-o 2.6	端侧可用的小模型	8B参数牺牲性能换部署便利
Janus-Pro	理解与生成统一	单一自回归模型简化架构
DreamID-Omni	生成质量与可控性优先	接受非实时生成，换取精细控制和三任务统一

位置编码技术对比

模型	位置编码	核心创新	解决的问题
LongCat-Flash-Omni	2D RoPE	空间位置编码	图像patch的位置感知
Qwen3-Omni	TM-RoPE	Time-Multiplexed RoPE	视频时间步与文本的位置对齐
DreamID-Omni	Syn-RoPE	Synchronized RoPE	多身份图像-音色的绑定与解耦

TM-RoPE vs Syn-RoPE:

TM-RoPE: 解决的是「视频帧与文本token如何共享位置空间」的问题
Syn-RoPE: 解决的是「多个参考身份的图像和音色如何绑定」的问题

核心架构对比分析

1. 整体架构范式对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                        两种架构范式对比                                       │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  LongCat-Flash-Omni (单流MoE)          Qwen3-Omni (双流MoE)                  │
│                                                                              │
│  ┌─────────────────────────┐          ┌─────────────────────────┐           │
│  │      多模态输入          │          │      多模态输入          │           │
│  │  文/图/音/视 → Embedding │          │  文/图/音/视 → Embedding │           │
│  └──────────┬──────────────┘          └──────────┬──────────────┘           │
│             ↓                                     ↓                          │
│  ┌─────────────────────────┐          ┌─────────────────────────┐           │
│  │    Unified MoE Backbone  │          │    Thinker (思考器)      │           │
│  │    (560B / 激活27B)      │          │    MoE 30B-A3B          │           │
│  │                         │          │    功能:理解+文本生成     │           │
│  │    统一处理所有任务      │          └──────────┬──────────────┘           │
│  │    (理解+生成)           │                     ↓                          │
│  └──────────┬──────────────┘          ┌─────────────────────────┐           │
│             ↓                         │    Talker (发声器)       │           │
│  ┌─────────────────────────┐          │    MoE 3B-A0.3B         │           │
│  │    Output Heads          │          │    功能:语音生成         │           │
│  │    文本 + 音频           │          └──────────┬──────────────┘           │
│  └─────────────────────────┘                     ↓                          │
│                                       ┌─────────────────────────┐           │
│                                       │    MTP + Code2Wav        │           │
│                                       │    流式波形生成          │           │
│                                       └─────────────────────────┘           │
│                                                                              │
│  特点:                                特点:                                  │
│  - 架构简单，统一优化                  - 解耦设计，可独立控制                 │
│  - 适合大规模部署                      - 适合流式实时交互                     │
│  - 上下文更长(128K)                    - 延迟更低(234ms)                      │
│  - 参数规模更大                        - 支持外部干预(如RAG)                  │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

2. 音频处理架构对比

维度	LongCat-Flash-Omni	Qwen3-Omni
编码器	DFSMN (22层)	AuT (自研)
参数量	~300M	650M
注意力机制	1D Conv 记忆块	FlashAttention + 动态窗口
Token率	12.5 Hz	12.5 Hz
帧粒度	80ms	80ms
训练数据	-	2000万小时
中文优化	一般	强
实时缓存	不支持	支持

DFSMN vs AuT 架构对比:

DFSMN (LongCat)                    AuT (Qwen3)
┌─────────────────┐               ┌─────────────────┐
│  1D Conv 记忆块  │               │  Conv2D 下采样   │
│  (固定窗口)      │               │  (8倍)           │
└────────┬────────┘               └────────┬────────┘
         ↓                                 ↓
┌─────────────────┐               ┌─────────────────┐
│  FFN Block      │               │  Transformer    │
│  (ReLU6)        │               │  (动态窗口注意力)│
└────────┬────────┘               └────────┬────────┘
         ↓                                 ↓
    22层堆叠                          多层堆叠
         ↓                                 ↓
    投影到LLM空间                    投影到LLM空间

特点:                            特点:
- 计算高效                        - 表达能力更强
- 适合固定长度音频                - 支持变长/流式
- 传统语音识别                    - 通用音频理解

3. 语音生成架构对比

维度	LongCat-Flash-Omni	Qwen3-Omni
表示方式	4-codebook	8-codebook (多码本)
码本预测	逐帧预测	MTP多Token预测
波形合成	Codec Decoder	Code2Wav (因果ConvNet)
合成延迟	高	极低
首包延迟	-	234ms
音色控制	较好	精细
流式支持	支持	支持 (更优)

生成流程对比:

LongCat-Flash-Omni:              Qwen3-Omni:

[Codebook 0] ──┐                [Codebook 0] ──→ MTP ──┬──→ [C1,C2,C3...C7]
[Codebook 1] ──┤──→ Codec      [Codebook 0] (下一帧) ──┤
[Codebook 2] ──┤    Decoder    ...                      │
[Codebook 3] ──┘                         ↓               │
                              Code2Wav (因果ConvNet)      │
                                         ↓               │
                                    波形输出              │

延迟: 高 (需等完整frame)        延迟: 极低 (单帧即可合成)

4. 位置编码对比

维度	LongCat-Flash-Omni	Qwen3-Omni
类型	RoPE (标准)	TM-RoPE (时间对齐)
维度	1D	3D (时间/高度/宽度)
时间编码	相对位置	绝对时间锚定
音视频同步	固定分块对齐	灵活时间戳对齐
长序列	128K	32K
流式支持	支持	支持 (更灵活)

5. MoE 架构对比

LongCat-Flash-Omni:              Qwen3-Omni:

单MoE (大而全)                   双MoE (小而专)
┌─────────────────┐              ┌─────────────────┐
│  560B 总参数     │              │ Thinker: 30B    │
│  27B 激活       │              │   (激活3B)      │
│  64+ 专家       │              │ Talker: 3B      │
│                 │              │   (激活0.3B)    │
│  所有任务共享    │              │                 │
│  同一套专家      │              │  专家分工明确   │
└─────────────────┘              └─────────────────┘

优势:                           优势:
- 参数规模大，容量大             - 延迟可控
- 统一优化                      - 高并发稳定
- 适合批处理                    - 适合流式服务

6. 训练策略对比

维度	LongCat-Flash-Omni	Qwen3-Omni
训练阶段	未公开	三阶段 (S1/S2/S3)
数据规模	-	36T tokens
多模态融合	早期融合	早期融合+渐进式
长上下文训练	支持	专门阶段 (S3)
开源程度	模型开源	完全开源 (含技术细节)

技术演进趋势

开源 Omni 模型发展趋势

┌─────────────────────────────────────────────────────────────────────────────┐
│                    开源 Omni 模型演进时间线                                   │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  2024                    2025                          2026                 │
│    │                       │                              │                  │
│    ├── 2024.05: Mini-Omni  ├── 2025.01: MiniCPM-o 2.6   ├── 2026.01: AR-Omni│
│    │   端到端语音           │   端侧全模态                 │   单流纯自回归   │
│    │                       │                              │                  │
│    ├── 2024.10: GLM-4-Voice├── 2025.01: Janus-Pro        ├── 2026.01: Omni-R1│
│    │   情感语音             │   理解生成统一               │   RL推理增强     │
│    │                       │                              │                  │
│    └── 2024: LongCat       ├── 2025.03: Qwen2.5-Omni     ├── 2026.02: Ming  │
│        大规模MoE            │   Thinker-Talker            │   flash-omni 2.0 │
│                            │                              │                  │
│                            ├── 2025.07: HumanOmniV2      └── 2026.02:       │
│                            │   人中心Omni推理             MERaLiON2-Omni    │
│                            │                              多语言理解         │
│                            ├── 2025.09: Qwen3-Omni                          │
│                            │   双MoE+无性能退化                              │
│                            │                                                 │
│                            ├── 2025.10: Ming-Flash-Omni                     │
│                            │   100B稀疏MoE，理解+生成                        │
│                            │                                                 │
│                            ├── 2025.10: NExT-OMNI                           │
│                            │   离散流匹配Any-to-Any                          │
│                            │                                                 │
│                            ├── 2025.11: Uni-MoE-2.0-Omni                    │
│                            │   动态容量MoE+RL对齐                            │
│                            │                                                 │
│                            └── 2025.12: HyperCLOVAX-SEED-Omni-8B           │
│                                NAVER韩英双语Dense Omni                       │
│                                                                              │
│  趋势1: 架构从 Dense → MoE → 双MoE → 纯自回归单流 (AR-Omni) / DFM (NExT)    │
│  趋势2: 延迟从高 → 低 → 极低 (234ms) → 实时因子<1 (AR-Omni 0.88)            │
│  趋势3: 部署从云端 → 端侧 → 端云协同                                         │
│  趋势4: 开源从模型 → 模型+数据+训练细节                                       │
│  趋势5: 能力从多模态理解 → 理解+生成统一 → 推理增强 (Omni-R1)                 │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

关键技术创新图谱

┌─────────────────────────────────────────────────────────────────────────────┐
│                       技术创新关联图谱                                        │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ┌──────────────┐                                                           │
│  │  基础架构     │                                                           │
│  │  Transformer │                                                           │
│  └──────┬───────┘                                                           │
│         ↓                                                                   │
│  ┌──────────────┬──────────────┬──────────────┐                            │
│  │    MoE       │   多模态融合  │   流式生成    │                            │
│  │              │              │              │                            │
│  │  ┌────────┐  │  ┌────────┐  │  ┌────────┐  │                            │
│  │  │LongCat │  │  │ TM-RoPE│  │  │  MTP   │  │                            │
│  │  │ 560B   │  │  │ Qwen3  │  │  │ Qwen3  │  │                            │
│  │  └────────┘  │  └────────┘  │  └────────┘  │                            │
│  │  ┌────────┐  │  ┌────────┐  │  ┌────────┐  │                            │
│  │  │Qwen3   │  │  │早期融合│  │  │Code2Wav│  │                            │
│  │  │双MoE   │  │  │LongCat │  │  │ Qwen3  │  │                            │
│  │  └────────┘  │  └────────┘  │  └────────┘  │                            │
│  └──────────────┴──────────────┴──────────────┘                            │
│                                                                              │
│  发展方向:                                                                  │
│  1. MoE → 更细粒度的专家分工 (Thinker/Talker分离)                           │
│  2. 多模态融合 → 更精确的时间/空间对齐 (TM-RoPE)                            │
│  3. 流式生成 → 更低延迟 (MTP+轻量级声码器)                                  │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

流式视频理解与实时解说

体育解说、游戏解说、直播 narration 等场景需要模型边看视频边输出，而非等待完整视频后批量处理。本章节专门梳理这一方向的研究进展与实用方案。

核心问题：两类"视频理解"的本质差异

┌─────────────────────────────────────────────────────────────────────────────┐
│                    离线 vs 流式：本质区别                                     │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  离线长视频理解 (Offline)              真正流式视频理解 (Streaming/Online)     │
│  ┌─────────────────────────┐          ┌─────────────────────────┐           │
│  │  输入: 完整视频文件      │          │  输入: 持续视频流        │           │
│  │  等视频传完 → 处理       │          │  逐帧/逐块实时处理       │           │
│  │  一次性给出结果          │          │  随时可以触发输出        │           │
│  │                         │          │  未来帧不可见            │           │
│  │  适合: 视频摘要、检索    │          │  适合: 直播解说、实时QA  │           │
│  └─────────────────────────┘          └─────────────────────────┘           │
│                                                                              │
│  大多数现有 Video-LLM 属于离线型！                                            │
│  真正流式模型需要专门的架构设计。                                              │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

模型速览表

模型	机构	时间	真流式?	实时语音输出?	解说专用?	开源?	参数
LiveCC	NUS ShowLab	2025.04	✅	❌ 文本	✅ LiveSports-3K	✅ Apache	7B
VITA	厦门大学等	2024.08	⚠️ 部分	✅ ~1.5s	❌	✅	~47B
ROMA	中科院	2026.01	✅	⚠️ 未明确	✅ 主动 narration	❌	未公开
VideoLLM-online	NUS ShowLab	2024.06	✅ 10FPS+	❌	❌	✅	7-8B
Flash-VStream	多机构	2024.06	✅	❌	❌	✅ 非商用	7B
Dispider	中科院/Shanghai AI Lab	2025.01	✅ 异步	❌	❌	✅ CC BY	未公开
LiveStar	BUPT 等	2025.11	✅ always-on	❌	❌	✅ CC BY	未公开
VideoChat-Online	多机构	2025.01	✅	❌	❌	⚠️ 部分	未公开
TimeChat-Online	多机构	2025.04	✅	❌	❌	❌	未公开
StreamForest	南京大学	2025.09	✅	❌	❌	❌	未公开
Event-VStream	多机构	2026.01	✅ 事件触发	❌	❌	❌	8B
video-SALMONN S	多机构	2025.10	✅ 3h+	❌	❌	❌ CC BY	未公开

核心模型详解

LiveCC-7B（最接近体育/游戏解说的模型）

项目	规格
发布机构	NUS ShowLab（新加坡国立大学）
发布时间	2025.04，CVPR 2025
参数规模	7B（基于 Qwen2-VL-7B 微调）
论文	arXiv:2504.16030
开源协议	Apache 2.0

核心设计：

┌─────────────────────────────────────────────────────────────────────────────┐
│                         LiveCC 技术方案                                       │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  训练数据构建:                                                               │
│  YouTube 直播视频                                                             │
│       ↓ WhisperX 转录                                                        │
│  时间戳对齐的 ASR 文本                                                        │
│       ↓ 与视频帧按时间戳交错排列                                              │
│  [frame@0s] [ASR@0-2s] [frame@2s] [ASR@2-4s] ...                            │
│       ↓                                                                      │
│  Live-CC-5M (500万片段) + Live-WhisperX-526K                                 │
│                                                                              │
│  推理流程:                                                                   │
│  实时视频流 → 按时间戳逐帧输入 → 模型边看边生成解说文本                        │
│                                                                              │
│  输出:  "球员抢断成功，快速反击，传球至右路..." (文本，需外接 TTS)            │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

关键成果：

提出首个体育解说专用评测基准 LiveSports-3K（LLM-as-judge 评分）
7B 模型在该基准上超越 Qwen2.5-VL-72B、LLaVA-Video-72B 等 72B 模型
不需要预先看完整视频，逐帧处理即可生成解说

ROMA（最接近 Omni 解说架构）

项目	规格
发布机构	中国科学院
发布时间	2026.01，arXiv:2601.10323
参数规模	未公开

核心设计：

┌─────────────────────────────────────────────────────────────────────────────┐
│                         ROMA 架构                                             │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  输入: 视频流 + 音频流 (同步输入)                                              │
│                                                                              │
│  核心问题: 音频密度 vs 视频帧率不一致                                          │
│  解决方案: 同步多模态单元 (Synchronized Multimodal Units)                     │
│           将音频片段与视频帧对齐为统一时间单元                                  │
│                                                                              │
│  两类响应模式:                                                               │
│  ┌──────────────────────────┐  ┌──────────────────────────┐                 │
│  │   Reactive (被动响应)     │  │   Proactive (主动触发)    │                 │
│  │   用户提问 → 模型回答      │  │   模型自主触发解说/警报    │                 │
│  │   类似普通 QA             │  │   类似真正的解说员         │                 │
│  └──────────────────────────┘  └──────────────────────────┘                 │
│                                                                              │
│  轻量级 speak head: 判断「是否需要说话」与「生成内容」分离                     │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

ROMA 的 Proactive narration 设计是目前最接近真实解说员行为的架构：不需要外部触发，模型自己判断"这个时刻值得说话"然后生成解说。

VITA（唯一同时支持流式视频 + 实时语音输出的开源模型）

项目	规格
发布机构	厦门大学等
发布时间	2024.08，arXiv:2408.05211
参数规模	~47B（Mixtral 8x7B，激活 ~12.9B）
开源协议	开源

┌─────────────────────────────────────────────────────────────────────────────┐
│                       VITA 双工架构                                           │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  监控模型 (Monitor Model)          生成模型 (Generation Model)               │
│  ┌─────────────────────┐          ┌─────────────────────┐                   │
│  │  持续监听麦克风/摄像头 │          │  生成文本 + 语音输出 │                   │
│  │  检测用户打断信号     │  ←────→  │  ~1.5s 首包延迟     │                   │
│  │  视频流实时感知       │          │  支持语音打断        │                   │
│  └─────────────────────┘          └─────────────────────┘                   │
│                                                                              │
│  两个模型同时运行，实现真正的全双工交互                                        │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

局限：视频流理解能力不如 LiveCC 专业，解说质量弱于专用解说模型，但胜在端到端语音输出，开箱即用。

其他流式视频技术方案对比

┌─────────────────────────────────────────────────────────────────────────────┐
│                    各模型「流式」的技术实现方式                                 │
├──────────────────────┬──────────────────────────────────────────────────────┤
│ VideoLLM-online      │ LIVE框架: 连续视频流上直接做语言建模，10FPS+ 实时处理  │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Flash-VStream        │ 长/短期记忆双层结构，仿人类记忆，异步接受查询          │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Dispider             │ 感知-决策-反应三模块异步分离，生成时不阻断视频监控     │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ LiveStar             │ always-on 主动响应，峰-末记忆压缩，10分钟+ 视频       │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ TimeChat-Online      │ DTD差分Token丢弃，去除82.8%冗余帧token，极致效率      │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ StreamForest         │ 事件树记忆，1024token极限压缩仍保留96.8%性能          │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ Event-VStream        │ 语义边界事件检测，仅在关键事件点触发生成，LLaMA-3-8B  │
├──────────────────────┼──────────────────────────────────────────────────────┤
│ video-SALMONN S      │ TTT测试时训练作为流式记忆，支持3小时+超长视频流        │
└──────────────────────┴──────────────────────────────────────────────────────┘

现状与差距

┌─────────────────────────────────────────────────────────────────────────────┐
│              端到端流式解说系统的能力拼图（2026.03 现状）                      │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                              │
│  ✅ 已解决: 流式视频理解（LiveCC、VideoLLM-online、Dispider 等）              │
│  ✅ 已解决: 实时语音输出（Qwen3-Omni 234ms、VITA ~1.5s）                     │
│  ✅ 已解决: 体育解说文本质量（LiveCC 7B > 72B 模型）                          │
│                                                                              │
│  ❌ 尚缺: 单一模型同时完成「流式视频理解 + 解说级文本质量 + 实时语音输出」    │
│  ❌ 尚缺: 专门针对游戏解说场景（当前均以体育为主）的训练数据与评测             │
│  ❌ 尚缺: 主动触发解说（proactive narration）的开源实现（ROMA 未开源）        │
│                                                                              │
└─────────────────────────────────────────────────────────────────────────────┘

实用搭建方案

方案 A：轻量解说流水线（推荐入门）

视频流 (RTSP/摄像头)
    ↓ 按时间戳采帧 (1-2 FPS)
LiveCC-7B（流式视频理解 + 解说文本生成）
    ↓
CosyVoice / Fish-Speech（低延迟 TTS）
    ↓
实时语音解说输出

方案 B：完整 Omni 交互解说

视频流 + 用户语音输入
    ↓
VITA (~47B，双工架构)
    ↓
实时语音解说 + 支持观众语音提问打断

方案 C：主动触发解说（研究方向）

视频流 + 音频流
    ↓
ROMA（Reactive + Proactive 双模式）
    ↓
关键时刻自动触发解说（进球、击杀等事件）
（ROMA 暂未完全开源，适合跟踪研究进展）

唯一商业落地案例

IBM Watson Sports Commentary（arXiv:2402.15514）已在 2023 年 Wimbledon、US Open、Masters 高尔夫、Grammy Awards 等赛事实际部署，覆盖 9 亿用户、80 亿页浏览量。技术路线是多模态输入（视频片段 + 实时比分 + 统计数据 + 文章）组合生成解说文本，非纯端到端视频流处理。评测指标 ROUGE-L 82.00，Perplexity 6.6，但完全闭源。

选型建议

按场景选择

应用场景	推荐模型	理由
企业级大规模服务	LongCat-Flash-Omni	560B参数，128K上下文，适合批处理
实时语音助手	Qwen3-Omni	234ms延迟，双MoE架构，流式优化
端侧/手机部署	MiniCPM-o 2.6	8B参数，全双工，消费级GPU可跑
多语言场景	Qwen3-Omni	119种文本语言，中文ASR最强
情感陪伴/娱乐	GLM-4-Voice	情感控制，方言支持
图像生成+理解	Janus-Pro	统一架构，文生图+图理解
嵌入式/IoT	Mini-Omni2	1.2GB体积，极致轻量
研究/学习	Qwen3-Omni	完全开源，技术报告详细
体育/游戏解说（文本）	LiveCC-7B	唯一体育解说专用模型，7B超72B，需搭配TTS
体育/游戏解说（语音交互）	VITA	端到端语音输出+流式视频，~1.5s延迟，可语音打断
直播主动解说（研究）	ROMA	Proactive narration，自动触发解说，暂未完全开源

按技术栈选择

技术需求	推荐模型	关键特性
MoE架构研究	LongCat / Qwen3	大规模MoE实践
流式生成优化	Qwen3	MTP + Code2Wav
音频编码器设计	Qwen3	AuT自研编码器
位置编码创新	Qwen3	TM-RoPE时间对齐
端侧优化	MiniCPM-o	全双工低功耗
多模态对齐	LongCat	早期融合策略

部署成本对比

┌─────────────────────────────────────────────────────────────────┐
│                     部署成本估算                                 │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  LongCat-Flash-Omni:                                            │
│  ├─ 硬件: 8× H20-141G (单节点)                                   │
│  ├─ 成本: ~$20万 (硬件)                                          │
│  ├─ 功耗: ~4000W                                                 │
│  └─ 适合: 大企业/云服务                                          │
│                                                                  │
│  Qwen3-Omni:                                                    │
│  ├─ 硬件: 2× A100 80G 或 4× RTX 4090                             │
│  ├─ 成本: ~$1-3万 (硬件)                                         │
│  ├─ 功耗: ~1000W                                                 │
│  └─ 适合: 中型企业/研究机构                                      │
│                                                                  │
│  MiniCPM-o 2.6:                                                 │
│  ├─ 硬件: 1× RTX 4090 或 苹果M系列                               │
│  ├─ 成本: ~$2000 (硬件)                                          │
│  ├─ 功耗: ~300W                                                  │
│  └─ 适合: 小团队/端侧应用                                        │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

关键文件索引

LongCat-Flash-Omni

功能模块	文件路径
推理入口	`longcat_omni_demo.py`
视觉编码器	`encoders/vision_adaptor.py`
音频编码器	`encoders/audio_adaptor.py`
文本嵌入	`encoders/embedding.py`
数据处理	`data/data_processor.py`
多模态分词器	`data/multimodal_tokenizer.py`
后处理	`post_process/unified_post_processor.py`
常量定义	`constants.py`
全局配置	`global_vars.py`

Qwen3-Omni

功能模块	文件路径	说明
推理入口	`qwen3_omni_demo.py`	主入口
Thinker	`modeling_thinker.py`	MoE思考器
Talker	`modeling_talker.py`	MoE发声器
AuT编码器	`modeling_aut.py`	自研音频编码器
MTP模块	`modeling_mtp.py`	多Token预测
Code2Wav	`modeling_code2wav.py`	轻量级声码器
TM-RoPE	`modeling_rope.py`	时间对齐位置编码

许可证

本分析文档基于以下开源项目编写：

LongCat-Flash-Omni (开源)
Qwen3-Omni (Apache 2.0)
MiniCPM-o (Apache 2.0)
GLM-4-Voice (开源)
Janus-Pro (MIT)

最后更新: 2026年3月

贡献: 欢迎提交 PR 补充更多模型分析

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

基准	论文	说明
LiveSports-3K	arXiv:2504.16030	首个体育解说专用基准，LLM-as-judge 评分
StreamingBench	arXiv:2411.03628	18类任务，900视频，4500 QA，GPT-4o 也远低于人类水平
OVOBench / OVBench	arXiv:2501.00584	CVPR 2025，在线视频理解标准基准
VStream-QA	arXiv:2406.08085	Flash-VStream 提出，流式视频问答

Folders and files

Latest commit

History

Repository files navigation

开源 Omni 多模态大模型深度技术分析与对比

📋 目录

项目简介

2025-2026 新增开源 Omni 模型速览

补充观察

截至 2026.03 的补充说明

开源 Omni 模型全景对比

核心参数对比表

音频处理能力对比

性能表现对比

LongCat-Flash-Omni 深度解析

模型概述

整体架构图

视觉编码器 (Univitar)

音频编码器 (DFSMN)

MoE 架构详解

推理流程

Token 处理机制

并行策略

硬件要求

Qwen3-Omni 深度解析

模型概述

核心成就

整体架构图

五大核心升级（相比 Qwen2.5-Omni）

AuT 音频编码器（自研）

TM-RoPE：时间对齐多模态位置编码

流式语音生成机制

分块预填充机制

三阶段训练策略

DreamID-Omni 深度解析

模型概述

整体架构图

三任务统一范式

核心创新点

核心架构对比分析

六大 Omni 模型全景对比

技术路线对比

架构设计哲学对比

位置编码技术对比

核心架构对比分析

1. 整体架构范式对比

2. 音频处理架构对比

3. 语音生成架构对比

4. 位置编码对比

5. MoE 架构对比

6. 训练策略对比

技术演进趋势

开源 Omni 模型发展趋势

关键技术创新图谱

流式视频理解与实时解说

核心问题：两类"视频理解"的本质差异

模型速览表

核心模型详解

LiveCC-7B（最接近体育/游戏解说的模型）

ROMA（最接近 Omni 解说架构）

VITA（唯一同时支持流式视频 + 实时语音输出的开源模型）

其他流式视频技术方案对比

现状与差距

实用搭建方案

唯一商业落地案例

相关评测基准

选型建议

按场景选择

按技术栈选择

部署成本对比

关键文件索引

LongCat-Flash-Omni

Qwen3-Omni

相关链接

LongCat-Flash-Omni

Qwen3-Omni

其他模型

流式视频理解与实时解说

许可证

About

Packages