在现有的多模态大语言模型(MLLM)中,组合式训练已成为事实上的主流范式,即通过持续多模态预训练,将预训练的视觉编码器与预训练的大语言模型(LLM)连接起来。然而,由于其分离式的训练方式,探索该范式的多模态参数扩展特性仍然十分困难。
在本文中,我们专注于以端到端方式进行原生训练的 MLLM,并在数据受限这一实际情况下,系统地研究了其设计空间和扩展属性。通过对 MLLM 中各种设计选择的深入研究,我们找到了一个能够最佳平衡性能与训练成本的元架构。在此基础上,我们进一步探索了原生 MLLM 的参数扩展法则,并揭示了视觉编码器与 LLM 之间存在正相关的扩展关系。
基于这些发现,我们提出了一个名为 NaViL 的原生 MLLM,并结合了一套简单且经济高效的训练方案。在 14 个多模态基准上的实验结果证实,NaViL 的性能与现有顶尖 MLLM 相当。除此之外,我们的发现和成果为未来原生 MLLM 的研究提供了深刻的见解。
我们对原生 MLLM 的设计和扩展属性进行了系统性研究,得出了指导 NaViL 设计的五个关键结论:
从一个预训练的 LLM 初始化模型,能显著加速多模态训练的收敛。即使拥有大量多模态数据,其性能通常也优于从零开始训练。
混合专家(MoE)架构可以在不增加推理成本(激活参数量)的情况下,显著增强模型处理异构数据的能力并提升整体性能。我们发现,为注意力机制和前馈网络(FFN)同时引入模态特定的专家能产生最佳效果。
在给定的参数预算下,视觉编码器的性能在广泛的深度和宽度配置中都接近最优。较浅的编码器在训练早期收敛更快,而较深的编码器在数据更多时表现略好。
扩展 LLM 的规模能够持续提升多模态性能,这遵循了传统的语言模型扩展法则。然而,扩展视觉编码器带来的收益会递减,其性能上限受到 LLM 能力的制约。
我们的研究首次揭示:视觉编码器的最优规模与 LLM 的规模在对数尺度上成正比。这意味着它们应当被联合扩展,同时也凸显了现有组合式 MLLM 将固定大小的视觉编码器与不同大小的 LLM 配对的次优性。
基于以上洞见,我们构建了 NaViL。它是一个原生的、基于 MoE 的 MLLM,可以进行端到端训练,并原生支持任意分辨率的图像。
我们在 14 个主流多模态基准上对 NaViL 进行了全面评估,涵盖了通用能力、视觉问答、OCR、图表和文档理解。在可比较的参数规模下,NaViL-2B 和 NaViL-9B 在平均性能上超过了所有现有的原生 MLLM,并达到了与顶尖组合式 MLLM(如 InternVL-2.5, Qwen2.5-VL)相当的水平。
模型 | #激活参数 | 平均分 | MMVet | MMMU | MMB | MME | MathVista | OCR-Bench | TextVQA | DocVQA | AI2D | ChartQA | InfoVQA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
组合式 MLLM | |||||||||||||
Qwen2.5-VL | 8.2B | 80.2 | 67.1 | 58.6 | 83.5 | 2347 | 68.2 | 864 | 84.9 | 95.7 | 83.9 | 87.3 | 82.6 |
InternVL-2.5 | 8.1B | 77.3 | 62.8 | 56.0 | 84.6 | 2344 | 64.4 | 822 | 79.1 | 91.9 | 84.5 | 84.8 | 75.7 |
原生 MLLM | |||||||||||||
EVEv2 | 7B | 62.3 | 45.0 | 39.3 | 66.3 | 1709 | 60.0* | 702 | 71.1 | 77.4* | 74.8 | 73.9 | 45.8* |
SAIL | 7B | 63.7 | 46.3 | 38.6* | 70.1 | 1719 | 57.0 | 783 | 77.1 | 78.4* | 76.7 | 69.7* | 47.3* |
NaViL-2B (我们的模型) | 2.4B | 68.8 | 78.3 | 41.8 | 71.2 | 1822 | 50.0 | 796 | 76.9 | 85.4 | 74.6 | 78.0 | 56.0 |
NaViL-9B (我们的模型) | 9.2B | 77.0 | 79.6 | 54.7 | 76.5 | 2225 | 66.7 | 837 | 77.2 | 90.6 | 82.4 | 85.4 | 70.2 |
* 表示使用 VLMEvalKit 和 OpenCompass 在本地测试的结果。
平均分是通过将每个指标归一化到 0-100 的范围计算得出的。
通过可视化注意力图,我们发现一个足够大的视觉编码器(遵循我们的联合扩展法则)有助于模型在较浅的层中关注全局信息,并促进视觉和文本特征之间更早的交互,这解释了性能的提升。
上:使用 1.5 亿参数的视觉编码器;下:使用 12 亿参数的视觉编码器。后者即使在浅层(第 1 层)也表现出更强的全局注意力和跨模态交互。
@article{tian2025navil,
title={NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints},
author={Tian, Changyao and Li, Hao and Luo, Gen and Zhu, Xizhou and Su, Weijie and Deng, Hanming and Zhu, Jinguo and Shao, Jie and Zhu, Ziran and Liu, Yunpeng and Lu, Lewei and Wang, Wenhai and Li, Hongsheng and Dai, Jifeng},
journal={arXiv preprint},
year={2025}
}
This website is adapted from Nerfies, licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.