[ICLR 2025] RegMix:数据配比的“回归”之道
在LLM训练中,预训练语料的配比一度被认为是核心竞争力,主要凭感觉:感觉 Wikipedia 高质量就上采样,感觉 Common Crawl 噪声大就降权。但当数据源从几个增长到几百个,token 总量到 T 级别,这套打法就撑不住了。已有的自动方法(DoReMi、DoGE、Online Data Mixing 等)多数是训一个不算小的 proxy 模型,看它的训练动态动态调整权重,proxy 自身可能就要烧上百 B token。
RegMix(Data Mixture as Regression for Language Model Pre-training,ICLR 2025)提出了一种新方法:训几百个 1M 参数的小代理模型,每个用一种随机配比,把 (mixture, validation loss) 当成回归数据,拟合一个 LightGBM,再用它在配比空间里搜最优解。512 个 1M 模型每个训 1B token,加起来的 FLOPs 约为一个 1B 模型的 2%,却能在 64 个 1B/25B token 的候选模型里准确预测出最优配比。推到 7B/100B token,平均 13 个下游任务比 Pile 原始人工配比高约 2 个点。Pile 数据集上的不同配比,单任务的差距可以拉到 14.6 个点,论文用这个数字说明"配比选错代价很大"。