英伟达市值蒸发近60:00亿美元, 而DeepSe、ek刚、刚又开。源新模型
机器之心报道
龙年即将结束,但有些股民可能无心过春节了。受低成本推理模型DeepSeek-R1热潮影响,美股昨日开盘后迎来重挫。
周一,英伟达市值大幅下跌,损失接近6000亿美元,创下美国历史上公司单日市值最大跌幅。此次股价暴跌幅度达17%,最终收盘价为118.58美元。
上周,英伟达才刚刚超越苹果,成为全球市值最高的上市公司。此次股价暴跌直接导致纳斯达克指数下滑了3.1%。
另一家依赖AI获得巨额市值增长的美国大型芯片制造商Broadcom,周一跌幅则达到17%,市值蒸发了2000亿美元。
此次抛售的原因,主要是源于中国人工智能实验室DeepSeek带来的全球AI竞争压力飙增的担忧。去年12月,DeepSeek发布了一个免费的开源大语言模型——DeepSeek-V3,训练成本仅仅为558万美元,并表示该模型只用了两个月时间完成,使用的还是英伟达的低能力版芯片H800。
反观Alphabet、Meta和亚马逊等科技巨头,为训练和运行AI模型,花费了数十亿美元用于购买英伟达最前沿基础设备。
将开源进行到底,Janus-Pro问世
在美股一片惨嗥的同时,DeepSeek再接再厉继续开源,发布了视觉模型Janus-Pro。该模型是去年10月发布的Janus的升级版,在质量上实现了飞跃式提升。与此同时,DeepSeek还发布了一款多模态理解模型JanusFlow-1.3B。
Janus-Pro
JanusPro是基于之前的Janus开发的高级版。整体而言,JanusPro实现了三大改进:训练策略优化、训练数据扩展、扩展到了更大模型。有了这些改进,JanusPro在多模态理解和文生图指令遵从能力都收获了显著提升——在多个基准上超越了DALL-E3与StableDiffusion,同时文生图的稳定性也得到了加强。此次,DeepSeek一次性发布了7B和1B两个版本。
刚刚注册帐号的DeepSeek创始人梁文峰(目前还无法验证该帐号的真实性)也宣布了此消息。
已经有不少网友尝试过该模型了,比如生成一个看起来像网球的小鸟,绒毛形态十分逼真。
或者由「美丽的汉字」五个字符组成的图画:
这个同时兼具视觉理解和生成的模型着实再一次震惊了中外AI社区,毕竟这个表现如此卓越的模型仅有7B大小!
论文标题:Janus-Pro:UnifiedMultimodalUnderstandingandGenerationwithDataandModelScaling
7B版本:https://huggingface.co/deepseek-ai/Janus-Pro-7B
1B版本:https://huggingface.co/deepseek-ai/Janus-Pro-1B
HuggingFace试用链接:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
DeepSeek如今正将其影响力从语言处理,扩展到计算机视觉领域。据随模型发布的技术论文介绍,JanusPro7B在效率和多功能性方面经过精心设计,能够在一系列视觉任务中表现出色:从生成逼真的图像到执行复杂的视觉推理任务。
Janus-Pro与其前身Janus在文本生成图像方面的对比
DeepSeek还展示了JanusPro7B的性能指标。(左)JanusPro7B在比其他多模态大模型参数更少的情况下,依然实现了较高的性能。(右)该模型在文本生成图像基准测试中也取得了最高的准确率,超越了竞争对手(包括DALL・E3和SD3-Medium)。
Janus-Pro的多模态理解与视觉生成结果
DeepSeek研究团队在他们的论文中表示:「JanusPro是一个高效的视觉模型系列,旨在实现性能与计算成本之间的平衡,能够在广泛的视觉任务中实现最先进的性能。」
以下为JanusPro在多模态任务中的优良表现:
图片描述
1.JanusPro架构
对效率的强调是JanusPro7B区别于其他大规模、高资源需求AI模型的关键优势。与一些最大且最耗资源的AI模型不同,JanusPro7B通过其70亿参数设计,能够提供高水平的性能,同时避免了对庞大计算资源的需求。
Janus-Pro的架构与Janus相同。如下图所示,整体架构的核心设计原则是将多模态理解与生成的视觉编码解耦。研究者应用独立的编码方法将原始输入转换为特征,这些特征随后由一个统一的自回归Transformer处理。
Janus-Pro架构
2.训练策略优化
Janus的前一个版本采用了三阶段训练过程:
阶段I:重点训练适配器和图像头。
阶段II:进行统一预训练。在此过程中,除理解编码器和生成编码器外,所有组件的参数都会被更新。
阶段III:进行监督微调。在阶段II的基础上,进一步解锁理解编码器的参数。
然而,这种训练策略存在一些问题。通过进一步的实验,DeepSeek研究团队发现这一策略并不最优,并导致了显著的计算效率低下。
为解决此问题,他们在原有基础上进行了两项修改:
在阶段I延长训练时间:研究者增加了阶段I的训练步数,以确保在ImageNet数据集上得到充分的训练。他们经过研究发现,即使固定了大语言模型(LLM)的参数,该模型仍能有效地建模像素间的依赖关系,并根据类别名称生成合理的图像。
在阶段II进行重点训练:在阶段II中,研究者去除了ImageNet数据,直接使用标准的文本生成图像数据来训练模型,从而使模型能够基于详细的描述生成图像。这种重新设计的方法使得阶段II能够更高效地利用文本生成图像的数据,并显著提高了训练效率和整体性能。
3.数据扩展
研究团队在Janus的训练数据上进行了扩展,涵盖了多模态理解和视觉生成两个方面:
多模态理解:对于阶段II的预训练数据,参考DeepSeek-VL2,并增加了大约9000万条样本。样本包括图像标注数据集,以及表格、图表和文档理解的数据。
视觉生成:前一个版本的Janus使用的真实世界数据质量较差,且包含大量噪声,导致文本生成图像时不稳定,生成的图像质量较差。在Janus-Pro中,研究者加入了大约7200万条合成的美学数据样本,在统一预训练阶段,真实数据和合成数据的比例为1:1。
4.模型扩展
前一个版本的Janus通过使用1.5B的大语言模型(LLM)验证了视觉编码解耦的有效性。在Janus-Pro中,研究团队将模型扩展至7B,并在其中详细列出了1.5B和7BLLM的超参数(见下表)。
他们观察到,当扩大LLM的规模时,无论是在多模态理解还是视觉生成任务中,损失函数的收敛速度相比于较小的模型都会有显著的提升。
这个发现进一步验证了该方法的强大可扩展性。
Janus-Pro架构配置
Janus-Pro训练的详细超参数
JanusFlow-1.3B
在发布JanusPro的同时,DeepSeek还发布了一个多模态理解模型JanusFlow-1.3B。从名字也能看出来,参数量同样不高。
据介绍,JanusFlow是一个将图像理解和生成统一在一个模型中的强大框架。其引入了一种极简主义架构,将自回归语言模型与校正流(rectifiedflow,一种生成建模的SOTA方法)相结合。
JanusFlow的架构
DeepSeek研究表明,校正流可以在大型语言模型框架内直接训练,无需进行复杂的架构修改。为了进一步提高统一模型的性能,他们还采用了两种关键策略:一是将理解和生成编码器解耦,二是在统一训练期间对齐它们的表征。
事实上,JanusFlow的研究论文早在去年11月就已经发布。
论文标题:JanusFlow:HarmonizingAutoregressionandRectifiedFlowforUnifiedMultimodalUnderstandingandGeneration
当时的实验结果表明,JanusFlow在不同的领域中都实现了与专门模型相当或更优异的性能,同时在标准基准上明显优于现有的统一方法。因此,可以说,这项研究代表着向更高效和多功能的视觉语言模型迈出的重要一步。下图展示了其一些基准测试结果数据以及生成结果。
DeepSeek两连击:提升市场焦虑与竞争压力
JanusPro7B的发布引发了不少讨论,比如VentureBeat认为:「JanusPro7B的发布时机放大了其影响力。这是紧随R1模型和随之而来的市场动荡之后,它强化了这样的叙事:DeepSeek是能够颠覆AI既定秩序的创新者。」
该媒体还认为:「JanusPro7B的开源性质会加剧这种颠覆。与之前的开源运动一样,这会让人们更容易使用高级AI。大型科技公司以外的企业将受益:无需供应商锁定或高额费用即可获得顶级AI。对于AI巨头来说,DeepSeek构成了直接威胁:他们的专有高级模型能否在免费、高质量的替代品面前生存下来?当前的股市抛售情况表明投资者对此表示怀疑。」
对于DeepSeek正在给AI社区以及投资市场带来的影响,你有什么看法,请与我们分享。
参考链接
(内容来源:东方网)
作者: 编辑:陈梦洁
越牛新闻客户端
越牛新闻微信
绍兴发布微信
越牛新闻微博
绍兴发布微博
新闻热线
0575-88880000
投稿信箱
zjsxnet@163.com