Finisky Garden

AutoMixAlign: 多任务偏好优化中的自适应数据配比

发表于： 2026-07-09 分类于： NLP 阅读：≈ 7分钟浏览：评论：

多任务偏好对齐（helpfulness、harmlessness、coding 等）面临一个工程痛点：数据配比怎么选？均匀混合容易被大数据集主导，按任务等权又可能在简单任务上浪费容量。常见做法是跑大量消融实验或凭经验设定比例，成本高且不一定最优。

AutoMixAlign（AutoMixAlign: Adaptive Data Mixing for Multi-Task Preference Optimization in LLMs，ACL 2025）的做法是：先为每个任务单独训练 specialist 模型作为参照基线，再在训练 generalist 模型时基于 minimax 优化动态调整各任务的权重或采样比例，优先关注那些 generalist 与 specialist 之间 loss 差距最大的任务。在 Zephyr-7B 上的实验中，多任务平均性能最高提升约 9.42%，且避免了标准 DPO 混合训练中常见的"某个任务退化"问题。

CausalMix：把 SFT 数据配比当成因果推断问题

发表于： 2026-07-03 分类于： NLP 阅读：≈ 6分钟浏览：评论：

RegMix 用 512 个 1M 代理模型 + LightGBM 回归解决了预训练阶段的配比优化问题，但它的假设是静态的：拟合一次，给出一组全局最优配比。当底层数据池换了（域增减、分布偏移），整套回归需要重跑。到 SFT 阶段，这个问题更突出，因为 SFT 的数据池和域定义高频变动。

CausalMix（ Data Mixture as Causal Inference for Language Model Training ，2026/07）把配比优化重新建模为因果推断问题。区别在于：RegMix 学的是一个全局映射 $T \to Y$（配比到性能），CausalMix 学的是一个条件因果效应 $\theta_0(X)$（在当前数据状态 $X$ 下，配比的边际回报）。通过 Double Machine Learning 把数据状态的混杂效应正交化掉，因果模型在迁移实验中不需要对新数据池重做代理实验。

在 tulu-3-sft-mixture 上用 512 个 Qwen2.5-0.5B 拟合因果模型后，外推到 800K 样本训 7B 模型，CausalMix-S 在 AvgDev 上达到 62.28（RegMix 60.14、DMO 60.35），CausalMix-A 在 AvgUns 上达到 49.09（RegMix 48.12、DMO 48.98）；迁移到完全不同的 Qwen3-4B + AM-Thinking 长思维链数据上，CausalMix 平均分 66.66，超过 RegMix 61.40 和 DMO 63.47。

DoReMi：用小模型的 DRO 轨迹指导大模型预训练配比

发表于： 2026-06-23 分类于： NLP 阅读：≈ 7分钟浏览：评论：

DoReMi（DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining，NeurIPS 2023，Google DeepMind + Stanford）是预训练数据配比优化的早期工作之一，后续 RegMix、DoGE、Online Data Mixing 等方法都在某种程度上回应或改进了它提出的框架。核心思路：用 Group DRO（Group Distributionally Robust Optimization，Sagawa et al. 2020 提出的最小化最差组损失的在线优化算法）在 280M 的小代理模型上动态调整域权重，取训练轨迹上的平均权重，再用这组权重去训练 8B 的大模型。整个配比搜索（reference + proxy 两个 280M 模型）的额外计算量只占 8B 主模型训练的约 8%，但主模型下游准确率提升约 6.5 个点，达到基线最终准确率所需的训练步数减少到约 1/2.6。

MAI-Thinking-1 预训练数据处理与配比优化

发表于： 2026-06-16 分类于： NLP 阅读：≈ 8分钟浏览：评论：

MAI-Thinking-1（MAI-Thinking-1: Building a Hill-Climbing Machine，2026，Microsoft AI）是微软从零训练的 reasoning 模型，35B active / 1T total 参数的 MoE 架构，预训练 30T tokens。这篇技术报告的数据部分写得相当详尽，从采集、清洗到配比优化到 mid-training 阶段的数据策略，覆盖了一个完整预训练数据流程中几乎所有值得记录的决策。

报告的三条设计原则贯穿全文：

能力应当习得，而非继承（capabilities should be learned, not inherited）：不依赖蒸馏，因为模仿得到的能力缺少长程 RL 所需的可控性与稳健性。
简单方能持续（simplicity is sustainable）：简单可扩展的配方、干净可信的数据、透明的基础设施。
严谨排斥捷径（scientific rigor avoids shortcuts）：每个决策都要通过 scaling ladder、消融和评测来检验。

本文聚焦预训练基座 MAI-Base-1 的数据收集、清洗、配比与 mid-training 阶段的数据策略。

[ICLR 2025] RegMix：数据配比的“回归”之道

发表于： 2026-06-15 分类于： NLP 阅读：≈ 7分钟浏览：评论：

在LLM训练中，预训练语料的配比一度被认为是核心竞争力，主要凭感觉：感觉 Wikipedia 高质量就上采样，感觉 Common Crawl 噪声大就降权。但当数据源从几个增长到几百个，token 总量到 T 级别，这套打法就撑不住了。已有的自动方法（DoReMi、DoGE、Online Data Mixing 等）多数是训一个不算小的 proxy 模型，看它的训练动态动态调整权重，proxy 自身可能就要烧上百 B token。

RegMix（Data Mixture as Regression for Language Model Pre-training，ICLR 2025）提出了一种新方法：训几百个 1M 参数的小代理模型，每个用一种随机配比，把 (mixture, validation loss) 当成回归数据，拟合一个 LightGBM，再用它在配比空间里搜最优解。512 个 1M 模型每个训 1B token，加起来的 FLOPs 约为一个 1B 模型的 2%，却能在 64 个 1B/25B token 的候选模型里准确预测出最优配比。推到 7B/100B token，平均 13 个下游任务比 Pile 原始人工配比高约 2 个点。Pile 数据集上的不同配比，单任务的差距可以拉到 14.6 个点，论文用这个数字说明"配比选错代价很大"。

NeurIPS 2025 Best Paper Runner-up：用 superposition 解释 scaling law

发表于： 2026-06-03 分类于： NLP 阅读：≈ 8分钟浏览：评论：

Neural scaling law 的指数 $L \propto N^{-\alpha}$ 跨模型族、跨数据集、跨任务都差不多，但这条幂律为什么是幂律、指数从哪来，一直没搞清楚机制。已有解释多数是"假设数据的特征/技能重要性按幂律分布，loss 自然就是幂律"，也就是说之前的理解是幂律来自数据本身。

NeurIPS 2025 Best Paper Runner-up Superposition Yields Robust Neural Scaling 研究发现这个问题跟几何表示相关。LLM 的隐藏维度 $m$ 远小于要表示的特征数 $n$，$n$ 个特征向量被迫挤进 $m$ 维空间，互相之间的干扰量级就是 $1/m$，loss 自然也就按 $1/m$ 下降。论文在 Anthropic 的 toy model 上加了一个旋钮，能独立调节叠加强弱，只要叠加足够充分，这条 $1/m$ 律就稳定成立，跟数据频率分布的具体形态几乎无关。换句话说，scaling law 的指数和鲁棒性都来自 $m$ 维球面的几何，而不是数据。

ACL 2025 最佳论文：LLM 抵抗对齐的弹性现象

发表于： 2026-05-27 分类于： NLP 阅读：≈ 5分钟浏览：评论：

经过 SFT/RLHF 的安全模型，几百条样本就能让它恢复有害输出；普通客服对话上做一轮非恶意 SFT，也会顺带把安全拒答率拉下来。对齐为什么这么脆？

ACL 2025 最佳论文之一的 Language Models Resist Alignment: Evidence From Data Compression 给出的解释是弹性（elasticity）：对齐微调没有真正改写模型的内部表征，只是把输出分布暂时偏离预训练分布；反向微调时回弹到预训练分布的速度远高于正向对齐。把语言模型当作无损压缩器推导，压缩率变化与数据集大小成反比，对齐数据规模远小于预训练语料，约束自然更弱。

RLVR 真的让 LLM 学到新的推理能力了吗？

发表于： 2026-05-17 分类于： NLP 阅读：≈ 8分钟浏览：评论：

DeepSeek-R1 之后 RLVR（Reinforcement Learning with Verifiable Rewards）几乎成了"让小模型自己长出推理能力"的标准做法，pass@1 的曲线一路向上很容易让人觉得 RL 在不断给模型"教"新东西。清华 LeapLab 与上海交大的这篇 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?（NeurIPS 2025 Oral，同时拿了 ICML 2025 AI4MATH workshop 最佳论文）想回答的直白问题是：RLVR 到底是在给 base model 添新推理能力，还是只是把它已有的推理路径采得更准了？

作者的核心论点：用足够大的 k（128 到 1024）去看 pass@k，RLVR 训练后的模型在小 k 上确实超过 base，但在大 k 上一致地被 base 反超；进一步的覆盖率和 perplexity 分析表明，RLVR 输出的推理路径全都已经在 base model 的采样分布里，RLVR 只是把分布尖锐化到已经能解的那部分题上，并没有引入 base 解不出的新题。蒸馏才能真正扩展模型能解的题集。

ANCE：用全语料 ANN 难负样本训练 dense retriever

发表于： 2026-05-16 分类于： NLP 阅读：≈ 6分钟浏览：评论：

ANCE（Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval，2020，Microsoft，ICLR 2021）是一篇 2020 年的老文章，但 dense retrieval 训练里 hard negative mining 的标准做法基本是从这里定型的，DPR 系列、E5、BGE 都沿用了这套框架。其核心思路：在训练过程中持续维护一份 ANN 索引，从整个语料里挑当前模型最难区分的负样本去训 dense retriever，索引以异步方式定期刷新。

论文有两层贡献。一是用 importance sampling 的方差分析指出，dense retrieval 训练时常用的 in-batch 与 BM25 负样本梯度范数接近零，是收敛瓶颈。二是给出全语料 ANN 难负样本采样的具体方案，并解决"索引必须随模型同步更新"这个工程瓶颈。在 TREC 2019 DL、MS MARCO、NQ、TQA 上，BERT-Siamese 配 ANCE 训练后，文档检索 NDCG@10 达 0.628（MaxP），passage MRR@10 达 0.330，Top-20 Coverage 在 NQ 和 TQA 上均超过 DPR，生产环境 8B 语料的离线检索质量相对提升约 14%~15%。

ICML 2025 杰出论文：超越 Next Token Prediction 的创造力极限

发表于： 2026-05-15 分类于： NLP 阅读：≈ 9分钟浏览：评论：

ICML 2025 Outstanding Paper 一共评出 8 篇，Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction 是其中之一，作者来自 CMU 与 Google Research。论文想回答为什么 LLM 在写谐音梗、出奥数题、想研究 idea 这类开放式任务上经常输出雷同的东西？

作者的核心论点：这类任务上人是先想到一个抽象点子再围绕它生成内容，next-token prediction（NTP）学不到这种模式。要改善，得先换掉训练目标让模型有能力学到这个隐藏点子，再把推理时的随机性从输出端挪到输入端，让这个点子在采样时不会被逐位置加噪拆碎。

NV-Embed：用 latent attention 池化训 decoder-only embedding 模型

发表于： 2026-05-12 分类于： NLP 阅读：≈ 7分钟浏览：评论：

NV-Embed（NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models，2024，NVIDIA，ICLR 2025）的核心思路：从 Mistral 7B 直接训起，移除 causal attention mask，在最后一层 hidden state 后接一个 latent attention 层做池化，再用两阶段对比指令微调（先纯检索数据 + in-batch negative，再混合非检索数据 + 关掉 in-batch negative）。在 MTEB 56 个任务上 NV-Embed-v1 平均 69.32，v2 进一步用 hard-negative mining、合成数据、example-based 多类标签把分数推到 72.31，分别在 2024 年 5 月和 8 月登顶 MTEB 榜首。

ICLR 2025 杰出论文：浅层对齐只改了前几个 token

发表于： 2026-05-11 分类于： NLP 阅读：≈ 8分钟浏览：评论：

Shallow Safety Alignment（Safety Alignment Should Be Made More Than Just a Few Tokens Deep，2024，Princeton & Google DeepMind，ICLR 2025 Outstanding Paper）的核心论点：当前 LLM 的 safety alignment 主要只修改了输出前几个 token 的生成分布。论文给该现象起名 shallow safety alignment，并指出它解释了 prefilling、adversarial suffix、decoding 参数攻击、fine-tuning 攻击等多种 jailbreak 共有的成因。

作者通过 per-token KL 散度分析、prefix 预填实验、fine-tuning 动态分析三组实验定位现象，再用一个简单的 data augmentation 与一个约束式 fine-tuning loss 验证"加深 alignment"确实能缓解多种攻击。实验主要在 Llama-2-7B-Chat 与 Gemma-1.1-7B-IT 上进行，评测用 HEx-PHI、AdvBench、MaliciousInstruct 三个数据集。

NeurIPS 2025 最佳论文 Gated Attention：非线性、稀疏性与 attention sink

发表于： 2026-05-10 分类于： NLP 阅读：≈ 7分钟浏览：评论：

Gated Attention（Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free，2025，Qwen 团队，NeurIPS 2025 Best Paper）的核心思路：在 Scaled Dot-Product Attention 的输出后加一个 head-specific 的 elementwise sigmoid gate。在 1.7B dense 与 15B MoE（A2.54B 激活）模型上各训 3.5T tokens，PPL 下降约 0.05–0.27（视模型与设置而异），训练 loss spike 显著减少，长上下文外推能力提升，attention sink 大幅减弱（BOS token 的 attention 比例从 46.7% 降至 4.8%）。

作者系统比较了 5 个候选位置与多种 gate 形式（粒度、参数共享、乘法/加法、激活函数）共 30 个变体，上述方案在所有配置中表现最优。

MRL：训练时套娃，推理时按需截维

发表于： 2026-05-09 分类于： NLP 阅读：≈ 7分钟浏览：评论：

MRL（Matryoshka Representation Learning，2022）的核心思路：训练时让同一个 d 维向量的前 m 个维度（$m$ 取 ${8, 16, 32, \dots, d}$ 这一组对数刻度上的值）独立承担分类损失，得到一个由粗到细嵌套的表示。推理时按算力预算只取前 $m$ 维，效果与单独训练一个 m 维模型相当。

GritLM：用一个 LLM 同时做 embedding 和生成

发表于： 2026-05-06 分类于： NLP 阅读：≈ 9分钟浏览：评论：

GritLM（Generative Representational Instruction Tuning，2024）的核心思路：用同一个 LLM 同时承担 embedding 和生成两类任务，通过 instruction 格式区分输入属于哪条流，分别用对比损失和语言建模损失训练，两个目标相加。 之前 HyDE 展示了"LLM 负责相关性，encoder 负责相似度"是可以解耦的，GritLM 进一步把两者合回一个模型。

HyDE：用 LLM 生成假设性文档做检索

发表于： 2026-05-06 分类于： NLP 阅读：≈ 6分钟浏览：评论：

读完 LLM2Vec-Gen 后再翻它的 reference，绕不开 HyDE（Precise Zero-Shot Dense Retrieval without Relevance Labels，2022）。LLM2Vec-Gen 的训练目标本质上是把 HyDE 的两步流程内化进 encoder，而 HyDE 的核心思路是：zero-shot 场景下与其让无监督 encoder 直接建模 query 和 document 的相关性，不如先让 LLM 根据 query 生成一段"假设性回答"，再用 encoder 编码这段假答案去检索。

LLM2Vec-Gen：让 Embedding 编码模型的回答而不是输入

发表于： 2026-05-03 分类于： NLP 阅读：≈ 7分钟浏览：评论：

之前 LLM2Vec 证明了 decoder-only LLM 也能改造成不错的 embedding 模型。今年同一组 McGill NLP 的人发了 LLM2Vec-Gen，思路反过来了：embedding 表示的不再是 query 本身，而是 LLM 对该 query 的潜在回答。

举个具体例子：用户输入 “how to commit fraud”，传统 embedding 表示的是这条 query 的语义，因此检索结果会直接命中语料中和欺诈相关的内容。LLM2Vec-Gen 表示的则是模型本应给出的回答 “I’m sorry, but I can’t assist with that”，检索结果转向各种拒答类文本。安全对齐这项能力没有在 embedding 阶段重新训练，而是直接从生成端继承过来。

ICLR 2026 杰出论文：LLM 在多轮对话中会迷路

发表于： 2026-05-02 分类于： NLP 阅读：≈ 9分钟浏览：评论：

ICLR 2026 的另一篇杰出论文来自 Microsoft Research 与 Salesforce Research 的合作：LLMs Get Lost In Multi-Turn Conversation。结论也直白：把同样一个任务拆成多轮渐进式给出，15 个主流 LLM（包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek-R1）全部出现性能下降，平均降幅 39%。论文特别强调 unreliability 的增加在所有模型上水平接近，与模型规模、是否带 reasoning、是否闭源无关。

更有意思的是降幅的构成：aptitude（能力）只下降约 15%，unreliability（不可靠性）暴涨 112%。换句话说，模型多轮场景下并不是变笨了，而是变得不稳定，同一个任务跑十次得到的最好与最差结果之间能差出 50 个百分点。

Differentiable Search Index 简读

发表于： 2026-04-30 分类于： NLP 阅读：≈ 6分钟浏览：评论：

DSI（Differentiable Search Index）是生成式检索方向较早的一篇代表性论文，发表于 NeurIPS 2022。其核心做法是：将整个文档库的内容编码进一个 Transformer 的参数中，检索时直接用 seq2seq 解码出文档 ID，省去倒排索引、向量库与近邻搜索这一整套独立组件。

更早的 GENRE（De Cao et al., 2020）已用 seq2seq 自回归地解码 Wikipedia 实体页面标题，DSI 在论文中也将其作为相关工作引用。DSI 的进一步贡献在于：将解码目标从有语义的实体名扩展到任意形式的 docid（包括随机整数和层次化语义 ID），并系统比较了文档表示、ID 表示与训练策略的影响。这把检索从一个系统工程问题，重新表述成了一个端到端的机器学习问题，索引等价于训练，检索等价于推理。

Transformer的简洁性：表达力的另一面

发表于： 2026-04-29 分类于： NLP 阅读：≈ 6分钟浏览：评论：

ICLR 2026 的两篇杰出论文奖（Outstanding Paper）里有一篇纯理论的工作，叫 Transformers are Inherently Succinct。一篇没有实验、没有 benchmark、全是数学证明的论文能拿最佳论文，评审委员会给的理由是"提出了一个新的视角来解释 Transformer 架构的强大能力"。原论文不太好读，涉及大量形式语言理论和复杂度理论的工具，这篇文章试图把核心结论和构造思路用更直觉的方式讲清楚。

这个"新视角"是什么？过去大家比的是表达力，即"谁能识别的语言范围更广"，这篇论文换了个角度：同样一个语言，谁用更少的篇幅就能描述清楚？