推荐

(2025-10-21热点)-幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

2025-10-22 11:48 81 浏览

我们分三个阶段训练DeepSeek-VL,如图3所示:视觉语言适配器预热、联合视觉语言预训练 和监督微调。我们目前专注于视觉理解能力,只计算语言部分的下一个token预测损失。

第一阶段:训练视觉语言适配器

该阶段的主要目标是在嵌入空间内的视觉元素和语言元素之间建立概念联系,从而促进大语言模型(LLM)对图像中所描述实体的全面理解。与LLaVA 和Instruct-BLIP 之前进行的研究一致,我们采用了类似的方法,在此阶段视觉编码器和 LLM都保持冻结,同时仅允许视觉-语言适配器内的可训练参数。我们利用了一个数据集, 其中包括从ShareGPT4V获得的125万张图像-文本配对的标题,以及250万张文档OCR渲染对 来训练VL适配器。然而,与大型语言模型(llm)相比,视觉语言适配器(例如,2层MLP)的参数容量要小得多。模型容量的这种限制限制了在这一阶段可以学习的能力。一个自然的问题出现了:数据缩放 定律在这个阶段是否有效?为了解决这个问题,我们在表8中做了一个简单的实验。结果表明, 在这个阶段扩大数据规模并不能带来好处,甚至可能导致性能下降。因此,我们继续解冻大语言模型(LLM),并在第二阶段研究有效的视觉语言预训练方法。

第二阶段:联合视觉语言预训练

在这一阶段,我们探索了有效的预训练策略,可以将其视为使大型语言模型(llm)能够理解 多模态输入的额外阶段。我们保持视觉编码器冻结,并优化语言模型和VL适配器。

最初,我们尝试用多模态数据直接训练LLM。然而,我们发现,在多模态性能的指标 逐步提高的同时,语言指标出现了明显和严重的下降,如图4所示(multimodal: language = 100%:0%),。这突出了在LLM的基础上直接进行多模态预训练的固有挑战,揭示了增强多模态能力和保持语言熟练度之间的关键权衡。

本文假设观察到的现象源于两个主要因素:首先,大多数多模态语料库过于简单,并 表现出与语言数据的复杂性和分布的显著分歧。其次,在多模态和语言模态之间似乎存在 一种竞争动态,导致了可以被描述为LLM内语言能力的灾难性遗忘。

联合语言-多模态训练为了应对这一挑战,本文设计了一种直接而有效的联合语言-多模态 训练策略。在训练过程中,我们不仅进行多模态数据训练,还将很大比例的语言数据纳入 训练中。这种方法旨在平衡训练重点,减轻观察到的不利影响。我们在图4所示的 DeepSeek-VL 1B模型上进行了实验,以探索不同模态混合比的影响。

对图的分析得出了几个关键结论:(1)整合语言数据显著缓解了语言能力的下降,表明 模型的语言性能有了实质性的提高。(2).纳入语言数据并没有导致多模态性能的显著损失, 表明模型保留了其多模态处理能力。(3).不同模态的表现与其各自在训练数据集中的比例 有很强的相关性,证实了两种模态之间的竞争关系。最终,我们为我们的最终模型选择了 语言与多模态数据的训练比例约为7:3。这个比率使模型能够保持其语言能力,同时在多 模态数据上实现更好的预训练,有效地平衡了语言和多模态熟练度的发展。

缩放视觉-语言预训练然而,模型的预训练阶段会产生大量的计算成本,在7B模型上执行迭代需要过多的计算能力和时间。一个合适的策略是在一个较小的模型上进行实验,特别是1.3B模型,然后将其扩展到7B模型。幸运的是,我们已经观察到,通过利用SFT(例如编 码器设计),从1.3B模型中获得的大部分结果可以有效地转移到7B模型中。然而,在第二 阶段的训练阶段,我们遇到了1.3B模型的生成指标有相当大的波动,这给有效地监督训练过程带来了挑战。而这一点在Schaeffer et al.(2024)中已经讨论过,“即使模型家族的每 token错误率随着规模的增加而平滑、连续和可预测地变化,研究人员的测量选择可能会 导致急剧和不可预测的变化。”随后的实验让我们找到了这个问题的根本原因:1.3B模型的 有限容量和训练数据集中缺乏SFT数据,这两者都阻碍了模型准确遵循指令的能力。即使 模型掌握了正确选项的知识,它也很难精确地生成它们。

为了缓解这些挑战,我们采取了一种双管齐下的方法。首先,我们采用多选择PPL方 法来监测模型的进展。这不仅涉及将提示和图像输入到网络中,还包括与问题相关的所有 答案。随后,我们计算每个答案位置(例如,A, B, C, D)的PPL,并选择模型认为正确的选 项作为最终答案。其次,我们以最小的比例将SFT数据引入训练数据集中,使模型能够熟 练地遵循指令。这两种方法的结合确保了1.3B模型的训练指标保持稳定,并在阶段3之后带 来更好的性能。

第三阶段:有监督的微调

在这个阶段,我们通过基于指令的微调来微调预训练的DeepSeek-VL模型,以增强其遵循 指令和参与对话的能力,最终创建交互式DeepSeek-VL- chat模型。我们优化了语言模型、 VL适配器和混合视觉编码器与视觉语言SFT数据如表2所示,SAM-B由于GPU内存有限而保持冻结状态。我 们只监督答案和特殊令牌,并屏蔽系统和用户提示。为了保证模型在对话方面的全面熟练程度, 我们利用了DeepSeek-LLM中使用的多模态数据和纯文本对话数据的混合。这种方法确保了模型 在各种对话场景中的通用性。

相关内容
  • 14岁被发掘,17岁获金奖,“巨肺小天后”邓紫棋的励志人生路(2026-04-18热点)
    一袭黑色羽毛纱裙,长发披肩,清纯甜美,邓紫棋难得以淡妆出镜接受采访。化淡妆的她,让人眼前一亮。习惯了大浓妆,差点没认出淡妆的邓紫棋,好清秀的感觉,像变了一个人,真的看不出已经三十岁。01邓紫棋抛去飒爽女王的标签,以邻家女孩的清纯模样示人。令众多网友和粉丝渔民为之惊叹的是,一改往常形象,接近素颜的邓紫棋似乎更加灵动可人。不同的风格,展现不同的
  • 现场抽取顶配手机、智能家电、家居好物及米面粮油多重好礼(2026-04-19热点)
    2026年3月27日至29日,徐良2026“时间折叠”巡回演唱会深圳首站在深圳湾体育中心连唱三场,本次演出以艺人特质与音乐内核为核心,打造兼具技术高度与情感温度的定制舞台、诚意歌单编排与沉浸式青春互动,为本次巡演画上圆满句号。技术与艺术共生,刷新体育馆演唱会视觉上限本次舞台舞美设计摒弃单纯技术堆砌,深度贴合徐良音乐气质与表演内核,打造专属定制舞台。灯光系
  • 不仅当地政府行动起来改善周边停车场、卫生间等配套设施(2026-04-18热点)
    早上六点就去排队,一天仅限 200 个号。老板亲口承认是 " 冰冻鸡 " 也无法劝退食客的品尝热情,这就是广东佛山陈村镇一家乡村小店 " 莫氏鸡煲 " 走红后的日常。因为美食探店博主一个视频,以及老板反常态希望不要拍太好、生意太忙做不了等 " 劝退 " 式言论,反而让小店爆火出圈。截至目前点赞已经超 170 万,也让这家原本每天只接待 10 桌本地客的小店,客流瞬间暴涨 20 倍。原本
  • 邓紫棋的个人资料(2026-04-18热点)
    邓紫棋,香港创作型女歌手,2008年,推出个人首张EP《G.E.M.》而正式出道,获叱咤乐坛生力军女歌手金奖。邓紫棋成长于一个音乐世家,母亲为上海音乐学院声乐系毕业生,外婆教唱歌,舅父拉小提琴,外公在乐团吹萨克斯风。在家人的熏陶下,邓紫棋自小便热爱音乐,喜爱唱歌。邓紫棋5岁时开始尝试作曲及填词,13岁完成了8级钢琴。邓紫棋小学就读中华基督教会协和小学,中学就
  • WSBK葡萄牙站排位赛张雪机车820RR分别获得正赛第二和第九发车位(2026-04-20热点)
    就在昨晚凌晨WSBK葡萄牙站ssp组排位赛(杆位赛)张雪机车820RR车队53号车手和64号车手分别获得排位赛第二和第九的位置,这对于正赛回合来说在前排发车太重要了。随着WSBK排位赛的结束国产新兴品牌张雪机车820RR在中量组的表现比较亮眼,无论是车辆的稳定性能都有很大的提升,在上一站中出现的高速摇摆也没有再次出现,观看比赛的用户都能看到前10名的刷圈成绩只差接近1秒的时
相关推荐
热点
热门内容
  • 酒-啤酒-看图猜成语鸡蛋是黄的(看图猜成语啤酒和鸡蛋和大象)
    更新时间:2022-12-10 00:24:50疯狂猜成语一个鸡飞一个蛋碎答案介绍一览看图猜成语一只下了三个蛋的鸡对着大山和太阳喊猜出来高手小学生看图猜成语作业,第2张图就让家长怀疑人生,全部答对基本没有张恒远jpg,1920×1080,207kb,446_249疯狂猜成语2里面一头猪一个鸡蛋一看图猜成语:不要自欺欺人,不懂就多学*成语玩命猜鸡蛋砸向一块石头的答案? 看图猜成语鸡飞机
  • 红酒-酒-茅台老酒回收价格一览表2022更新,年份老酒市场行情呈平稳趋势
  • 茅台镇36家正规酒厂名单
    茅台镇36家正规酒厂名单茅台镇坐落于贵
  • 茅台1499(酒知识)
    茅台1499:传奇与品质的象征茅台酒,作为中国最著名的白酒之一,自诞生以来便承载着丰厚的历史与文化底蕴。而其中的茅台1499更是其品质与传奇的完美体现。历史渊源与文化积淀茅台酒源于贵
  • (2025-3-20热点)-99热99热99热,网络热词新宠,揭秘“99热”爆红之谜
    近日,随着互联网的飞速发展,各种新型网络用语层出不穷。其中,“99热99热99热”这一词汇在网络上引起了广泛关注。那么,这个词汇究竟是什么意思?它又为何能在短时间内迅速走红呢?本文将为您揭开这个神秘面纱。网络热词的兴起“99热99热99热”这一词汇源于网络,其背后寓意丰富。从字面上看,它似乎是在表达一种热烈的情感。然而,深入了解后,我们发现这个词汇背后隐藏着更深层次的
联系方式
  • 326081657
  • 326081657@qq.com