推荐

(2025-10-21热点)-幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

2025-10-22 11:48 64 浏览

我们分三个阶段训练DeepSeek-VL,如图3所示:视觉语言适配器预热、联合视觉语言预训练 和监督微调。我们目前专注于视觉理解能力,只计算语言部分的下一个token预测损失。

第一阶段:训练视觉语言适配器

该阶段的主要目标是在嵌入空间内的视觉元素和语言元素之间建立概念联系,从而促进大语言模型(LLM)对图像中所描述实体的全面理解。与LLaVA 和Instruct-BLIP 之前进行的研究一致,我们采用了类似的方法,在此阶段视觉编码器和 LLM都保持冻结,同时仅允许视觉-语言适配器内的可训练参数。我们利用了一个数据集, 其中包括从ShareGPT4V获得的125万张图像-文本配对的标题,以及250万张文档OCR渲染对 来训练VL适配器。然而,与大型语言模型(llm)相比,视觉语言适配器(例如,2层MLP)的参数容量要小得多。模型容量的这种限制限制了在这一阶段可以学习的能力。一个自然的问题出现了:数据缩放 定律在这个阶段是否有效?为了解决这个问题,我们在表8中做了一个简单的实验。结果表明, 在这个阶段扩大数据规模并不能带来好处,甚至可能导致性能下降。因此,我们继续解冻大语言模型(LLM),并在第二阶段研究有效的视觉语言预训练方法。

第二阶段:联合视觉语言预训练

在这一阶段,我们探索了有效的预训练策略,可以将其视为使大型语言模型(llm)能够理解 多模态输入的额外阶段。我们保持视觉编码器冻结,并优化语言模型和VL适配器。

最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,在多模态性能的指标 逐步提高的同时,语言指标出现了明显和严重的下降,如图4所示(multimodal: language = 100%:0%),。这突出了在LLM的基础上直接进行多模态预训练的固有挑战,揭示了增强多模态能力和保持语言熟练度之间的关键权衡。

本文假设观察到的现象源于两个主要因素:首先,大多数多模态语料库过于简单,并 表现出与语言数据的复杂性和分布的显著分歧。其次,在多模态和语言模态之间似乎存在 一种竞争动态,导致了可以被描述为LLM内语言能力的灾难性遗忘。

联合语言-多模态训练为了应对这一挑战,本文设计了一种直接而有效的联合语言-多模态 训练策略。在训练过程中,我们不仅进行多模态数据训练,还将很大比例的语言数据纳入 训练中。这种方法旨在平衡训练重点,减轻观察到的不利影响。我们在图4所示的 DeepSeek-VL 1B模型上进行了实验,以探索不同模态混合比的影响。

对图的分析得出了几个关键结论:(1)整合语言数据显著缓解了语言能力的下降,表明 模型的语言性能有了实质性的提高。(2).纳入语言数据并没有导致多模态性能的显著损失, 表明模型保留了其多模态处理能力。(3).不同模态的表现与其各自在训练数据集中的比例 有很强的相关性,证实了两种模态之间的竞争关系。最终,我们为我们的最终模型选择了 语言与多模态数据的训练比例约为7:3。这个比率使模型能够保持其语言能力,同时在多 模态数据上实现更好的预训练,有效地平衡了语言和多模态熟练度的发展。

缩放视觉-语言预训练然而,模型的预训练阶段会产生大量的计算成本,在7B模型上执行迭代需要过多的计算能力和时间。一个合适的策略是在一个较小的模型上进行实验,特别是1.3B模型,然后将其扩展到7B模型。幸运的是,我们已经观察到,通过利用SFT(例如编 码器设计),从1.3B模型中获得的大部分结果可以有效地转移到7B模型中。然而,在第二 阶段的训练阶段,我们遇到了1.3B模型的生成指标有相当大的波动,这给有效地监督训练过程带来了挑战。而这一点在Schaeffer et al.(2024)中已经讨论过,“即使模型家族的每 token错误率随着规模的增加而平滑、连续和可预测地变化,研究人员的测量选择可能会 导致急剧和不可预测的变化。”随后的实验让我们找到了这个问题的根本原因:1.3B模型的 有限容量和训练数据集中缺乏SFT数据,这两者都阻碍了模型准确遵循指令的能力。即使 模型掌握了正确选项的知识,它也很难精确地生成它们。

为了缓解这些挑战,我们采取了一种双管齐下的方法。首先,我们采用多选择PPL方 法来监测模型的进展。这不仅涉及将提示和图像输入到网络中,还包括与问题相关的所有 答案。随后,我们计算每个答案位置(例如,A, B, C, D)的PPL,并选择模型认为正确的选 项作为最终答案。其次,我们以最小的比例将SFT数据引入训练数据集中,使模型能够熟 练地遵循指令。这两种方法的结合确保了1.3B模型的训练指标保持稳定,并在阶段3之后带 来更好的性能。

第三阶段:有监督的微调

在这个阶段,我们通过基于指令的微调来微调预训练的DeepSeek-VL模型,以增强其遵循 指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。我们优化了语言模型、 VL适配器和混合视觉编码器与视觉语言SFT数据如表2所示,SAM-B由于GPU内存有限而保持冻结状态。我 们只监督答案和特殊令牌,并屏蔽系统和用户提示。为了保证模型在对话方面的全面熟练程度, 我们利用了DeepSeek-LLM中使用的多模态数据和纯文本对话数据的混合。这种方法确保了模型 在各种对话场景中的通用性。

相关内容
  • (2026-04-17-热点)纯用“水果”做的下酒菜,你见过几道?
    本周北京正式迎来40度+的超高温天气,每年盛夏一到,不仅人懒了,食欲也跟着大幅下降。但酒还是要喝的,下酒菜就显得尤为重要了。适合夏季的下酒菜,需要满足清爽、开胃、解暑,不油不腻又有滋有味,烹饪起来需要简单,能不用明火最好,做一次能吃好多天就更完美了。真的有这样的神仙下酒菜存在吗?当然有,用水果做啊!最近正好是吃桃子的季节,时令水果 先给大家安
  • (2026-04-17-热点)黄瓜拌菠萝火了 有人说“后悔没早点做来吃”!
    黄瓜拌菠萝火了,菠萝的酸甜撞上黄瓜的清爽,咬下去还能听见咔嚓声。这道看似“后厨糊弄之作”的凉拌菜,最近在网上彻底火了。“黄瓜拌菠萝”相关话题阅读量突破3亿,冲上多个平台热搜。有人直呼“真香”,有人吃完却成了“喷射战士”。一道菜,两种结局。事情的起点很简单。又到了菠萝上市的季节,有网友随手把切好的菠萝和黄瓜拌在一起,加点糖醋冷藏半小时。黄绿
  • (2026-04-17-热点)黄瓜拌菠萝火了 医生提醒:这类人千万别试!
    黄瓜拌菠萝火了,菠萝的酸甜撞上黄瓜的清爽,咬下去还能听见咔嚓声。这道看似“后厨糊弄之作”的凉拌菜,最近在网上彻底火了。“黄瓜拌菠萝”相关话题阅读量突破3亿,冲上多个平台热搜。有人直呼“真香”,有人吃完却成了“喷射战士”。一道菜,两种结局。事情的起点很简单。又到了菠萝上市的季节,有网友随手把切好的菠萝和黄瓜拌在一起,加点糖醋冷藏半小时。黄绿
  • (2026-04-17-热点)微信又有新功能 网友直呼好玩 自制表情包上线
    4月13日,微信派发布消息称,微信表情在手机端也能上架了。这一功能让每个人都能捕捉生活中的精彩瞬间,通过截图、配字等方式制作成表情包,并直接使用。只需点击表情包,就能轻松应对难回答的问题。现在,用户可以通过「微信表情助手」小程序上传自制表情包。上传后,这些表情包不仅能在视频号首页专区展示,其他人还能从你的表情包作品直接跳转到你的视频号,一眼识
  • (2026-04-17-热点)号称世界最好喝可乐单瓶售价29元 消博会遇“轻奢可乐”,解密“世界最好喝”是糖的秘密!!
    号称世界最好喝可乐单瓶售价29元,4月的海口,热浪裹挟着椰风扑面而来,但比天气更热的,是第五届消博会现场的一个展位。在这个被誉为“进口食品第一梯队”的展区里,一款来自墨西哥的可乐成了当之无愧的焦点——不是因为它的包装有多么华丽,也不是因为它的品牌有多么响亮,而是因为它那赫然在目的价格标签:单瓶29元。一瓶可乐卖29元是什么概念?要知道,在街边的便
相关推荐
热点
热门内容
联系方式
  • 326081657
  • 326081657@qq.com