DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品
原创
2025-01-27 19:51 星期一
财联社 史正丞
①Janus-Pro是DeepSeek最新升级的多模态大模型,不仅能生成图像,也能对图片进行描述、识别图像中的文字、知名景点,并对图片内容进行解读;
②目前该模型已经开放下载,70亿和15亿的参数量,意味着普通消费级电脑也能跑得动。

财联社1月28日讯(编辑 史正丞)就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。

image

除夕凌晨钟声敲响前不久,DeepSeek工程师们在“抱抱脸”平台上传了Janus Pro 7B和1.5B模型。这俩模型是对去年10月发布的Janus模型的升级。

image

(Janus与Janus Pro 7B生成图像的对比,来源:技术报告)

15亿和70亿的参数量,意味着这两个模型具备在消费级电脑上本地运行的潜力。与R1一样,Janus Pro采用MIT许可证,在商用方面没有限制。

据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。

image

从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro 70亿参数模型表现好于OpenAI的DALL-E 3、Stability AI的Stable Diffusion 3-Meduim等。

image

(来源:技术报告)

虽然DALL-E 3是OpenAI在2023年发布的一款“老模型”,同时Janus Pro目前只能分析和生成规格较小的图像(384 x 384)。DeepSeek在如此紧凑的模型尺寸中依然展现了令人印象深刻的性能。

技术报告显示,在视觉生成方面,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeek VL2并增加了大约9000万个样本。

作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。

image image

(来源:技术报告)

公司也在报告中,给出了更多图像生成的案例。

image

(来源:技术报告)

收藏
121.64W
我要评论
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
评论(12)
爽猫4个月前 · 四川
中国DeepSeeK公司以低成本在Al领域革命性技术突破,一夜打破美卡脖子干翻了硅谷。离不开以中国高科等在Al领域教育培训,他们将继续与全球分享AI培养Al人才。。 为中国年青一代,点赞。。。👍 👍 👍 
(6)
回复0条回复
爽猫4个月前 · IP未知
中国高科👍 
(3)
回复0条回复
淮策4个月前 · 福建
牛🐮,中国的CHATGTP雄起
(3)
回复0条回复
cls-18660144个月前 · IP未知
今夜继续带崩😛  deepseek这把全赢
(2)
回复0条回复
御宅隐4个月前 · IP未知
能吃吗
(1)
回复0条回复
吉成4个月前 · 辽宁
中国加油!
(0)
回复0条回复
cls-8ua0244个月前 · IP未知
训练就是伪命题
(0)
回复0条回复
cls-r3q9474个月前 · 广东
DeepSeek今天一天都登陆不了了😀 😀 😀 
(0)
回复0条回复
cls-13630304个月前 · IP未知
厉害
(0)
回复0条回复
cls-7ee6lp4个月前 · IP未知
英伟达为什么不停牌?
(0)
回复0条回复
Tfr4个月前 · 山西
节后视觉中国起飞了
(0)
回复0条回复
山东小azxplm4个月前 · 山东
👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 👍 
(0)
回复0条回复