(2025-10-21热点)-幻方发布超强多模态LLM DeepSeek-VL！支持代码，文档OCR等！

2025-10-22 阅读 25 评论 0

摘要：我们分三个阶段训练DeepSeek-VL，如图3所示:视觉语言适配器预热、联合视觉语言预训练和监督微调。我们目前专注于视觉理解能力，只计算语言部分的下一个token预测损失。第一阶段:训练视觉语言适配器该阶段的主要目标是在嵌入空间内的视觉元素和语言元素之间建立概念联系，从而促进大语言模型(LLM)对图像中所描述实体的全面理解。与LLaV

我们分三个阶段训练DeepSeek-VL，如图3所示:视觉语言适配器预热、联合视觉语言预训练和监督微调。我们目前专注于视觉理解能力，只计算语言部分的下一个token预测损失。

第一阶段:训练视觉语言适配器

该阶段的主要目标是在嵌入空间内的视觉元素和语言元素之间建立概念联系，从而促进大语言模型(LLM)对图像中所描述实体的全面理解。与LLaVA 和Instruct-BLIP 之前进行的研究一致，我们采用了类似的方法，在此阶段视觉编码器和 LLM都保持冻结，同时仅允许视觉-语言适配器内的可训练参数。我们利用了一个数据集，其中包括从ShareGPT4V获得的125万张图像-文本配对的标题，以及250万张文档OCR渲染对来训练VL适配器。然而，与大型语言模型(llm)相比，视觉语言适配器(例如，2层MLP)的参数容量要小得多。模型容量的这种限制限制了在这一阶段可以学习的能力。一个自然的问题出现了:数据缩放定律在这个阶段是否有效?为了解决这个问题，我们在表8中做了一个简单的实验。结果表明，在这个阶段扩大数据规模并不能带来好处，甚至可能导致性能下降。因此，我们继续解冻大语言模型(LLM)，并在第二阶段研究有效的视觉语言预训练方法。

第二阶段:联合视觉语言预训练

在这一阶段，我们探索了有效的预训练策略，可以将其视为使大型语言模型(llm)能够理解多模态输入的额外阶段。我们保持视觉编码器冻结，并优化语言模型和VL适配器。

最初，我们尝试用多模态数据直接训练LLM。然而，我们发现，在多模态性能的指标逐步提高的同时，语言指标出现了明显和严重的下降，如图4所示(multimodal: language = 100%:0%)，。这突出了在LLM的基础上直接进行多模态预训练的固有挑战，揭示了增强多模态能力和保持语言熟练度之间的关键权衡。

本文假设观察到的现象源于两个主要因素:首先，大多数多模态语料库过于简单，并表现出与语言数据的复杂性和分布的显著分歧。其次，在多模态和语言模态之间似乎存在一种竞争动态，导致了可以被描述为LLM内语言能力的灾难性遗忘。

联合语言-多模态训练为了应对这一挑战，本文设计了一种直接而有效的联合语言-多模态训练策略。在训练过程中，我们不仅进行多模态数据训练，还将很大比例的语言数据纳入训练中。这种方法旨在平衡训练重点，减轻观察到的不利影响。我们在图4所示的 DeepSeek-VL 1B模型上进行了实验，以探索不同模态混合比的影响。

对图的分析得出了几个关键结论:(1)整合语言数据显著缓解了语言能力的下降，表明模型的语言性能有了实质性的提高。(2).纳入语言数据并没有导致多模态性能的显著损失，表明模型保留了其多模态处理能力。(3).不同模态的表现与其各自在训练数据集中的比例有很强的相关性，证实了两种模态之间的竞争关系。最终，我们为我们的最终模型选择了语言与多模态数据的训练比例约为7:3。这个比率使模型能够保持其语言能力，同时在多模态数据上实现更好的预训练，有效地平衡了语言和多模态熟练度的发展。

缩放视觉-语言预训练然而，模型的预训练阶段会产生大量的计算成本，在7B模型上执行迭代需要过多的计算能力和时间。一个合适的策略是在一个较小的模型上进行实验，特别是1.3B模型，然后将其扩展到7B模型。幸运的是，我们已经观察到，通过利用SFT(例如编码器设计)，从1.3B模型中获得的大部分结果可以有效地转移到7B模型中。然而，在第二阶段的训练阶段，我们遇到了1.3B模型的生成指标有相当大的波动，这给有效地监督训练过程带来了挑战。而这一点在Schaeffer et al.(2024)中已经讨论过，“即使模型家族的每 token错误率随着规模的增加而平滑、连续和可预测地变化，研究人员的测量选择可能会导致急剧和不可预测的变化。”随后的实验让我们找到了这个问题的根本原因:1.3B模型的有限容量和训练数据集中缺乏SFT数据，这两者都阻碍了模型准确遵循指令的能力。即使模型掌握了正确选项的知识，它也很难精确地生成它们。

为了缓解这些挑战，我们采取了一种双管齐下的方法。首先，我们采用多选择PPL方法来监测模型的进展。这不仅涉及将提示和图像输入到网络中，还包括与问题相关的所有答案。随后，我们计算每个答案位置(例如，A, B, C, D)的PPL，并选择模型认为正确的选项作为最终答案。其次，我们以最小的比例将SFT数据引入训练数据集中，使模型能够熟练地遵循指令。这两种方法的结合确保了1.3B模型的训练指标保持稳定，并在阶段3之后带来更好的性能。

第三阶段:有监督的微调

在这个阶段，我们通过基于指令的微调来微调预训练的DeepSeek-VL模型，以增强其遵循指令和参与对话的能力，最终创建交互式DeepSeek-VL- chat模型。我们优化了语言模型、 VL适配器和混合视觉编码器与视觉语言SFT数据如表2所示，SAM-B由于GPU内存有限而保持冻结状态。我们只监督答案和特殊令牌，并屏蔽系统和用户提示。为了保证模型在对话方面的全面熟练程度，我们利用了DeepSeek-LLM中使用的多模态数据和纯文本对话数据的混合。这种方法确保了模型在各种对话场景中的通用性。

懂得生活网为大家提供：生活，学习，工作，技巧，常识等内容。

原文链接：http://dongdeshenghuo.com/toutiao/596174.html

上一篇：(2025-10-21热点)-成都煎饼摊排队5小时，顾客舍不得吃65元煎饼

下一篇：(2025-10-21热点)-DeepSeek-V3 模型并未明确包含 OCR功能