业界首个!豆包新模型搅动AI视觉
原创
2025-02-10 07:08 星期一
科创板日报 宋子乔
①VideoWorld在业界首次实现无需依赖语言模型,仅通过“视觉信息”即可认知世界;
②仅300M参数量下,VideoWorld已取得可观的模型表现;
③目前,该项目代码与模型已开源。

《科创板日报》2月10日讯(编辑 宋子乔) 2月10日,A股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

image

消息面上,豆包发布视频生成实验模型“VideoWorld”。据介绍,不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,仅通过“视觉信息”即可认知世界,也就是说,VideoWorld可通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅300M参数量下,VideoWorld已取得可观的模型表现。

目前,该项目代码与模型已开源。

image

现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。VideoWorld选择去掉语言模型,实现了统一执行理解和推理任务。

怎么做到的?

豆包大模型团队称,VideoWorld基于一种潜在动态模型(Latent Dynamics Model,LDM),可高效压缩视频帧间的变化信息,在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,显著提升知识学习效率和效果

在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。

但该模型并不完美,其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。这一点最直观体现在,视频中存在大量冗余信息,会大大影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式,不利于模型对复杂知识的快速学习。

大模型的视觉理解能力一直是AI前沿研究方向之一。对人类而言,与语言相比,“用眼睛看”是门槛更低的认知方式。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”。

AI视觉学习,简单来说,需要大模型理解物品/空间/场景的整体含义,并根据识别内容进行复杂的逻辑计算,根据图像信息更细腻地表述并创作。

AI视觉学习能力提升,有望催发更多的AI应用。长城证券此前发布研报称,国内AI大模型多模态能力正持续提升,如快手可灵AI大模型、字节豆包AI大模型等视频生成的效果正在持续提升,包括精准语义理解、一致性多镜头生成、动态运镜等。受益于底层技术能力的升级,国内AI应用持续迭代,token调用量持续增长,AI应用有望从中受益。

收藏
100.56W
我要评论
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
评论(30)
cls-17747472个月前 · 安徽
视觉中国明天起飞了要
(7)
回复4条回复
cls-qnxi3s 回复 cls-1774747 2个月前 · IP未知
(1)
回复
要飞早就飞了,明天飞就是坑
雨凡灬铝材批发供应48 回复 cls-1774747 2个月前 · 广东
(0)
回复
尾盘抢筹没看到吗😯 
华尔街伟大的交易员 回复 cls-1774747 2个月前 · 湖南
(0)
回复
这根视觉中国有啥关系,有个视觉就扯上了
somi 回复 cls-1774747 2个月前 · 广东
(0)
回复
那个流氓不是搞这方面的啊
爽猫2个月前 · IP未知
国产科技:人工智能、云计算、AlGC等全面起飞。 关注:科大国创,300520情人节礼物(我爱你)。
(5)
回复1条回复
股票我爱你 回复 爽猫 2个月前 · 山东
(0)
回复
摸板摸板😍 
cls-18399162个月前 · 上海
感觉很厉害的样子😉
(4)
回复0条回复
古月胡胡2个月前 · IP未知
天娱数科,可以深度了解这家公司的潜力
(3)
回复4条回复
氹氹丶 回复 古月胡胡 2个月前 · 河北
(1)
回复
狠狠吹兄弟
古月胡胡 回复 氹氹丶 2个月前 · IP未知
(0)
回复
☺ 天娱数科这家公司潜力确实可以的,目前它是正儿八经为DS做出贡献的公司,尤其是它公司的软件下载平台下载DS最正宗 安全🌹 
cls-1558587 回复 古月胡胡 2个月前 · 北京
(1)
回复
感觉好就自己使劲买,别出来害人。这个股爆雷风险。
古月胡胡 回复 cls-1558587 2个月前 · IP未知
(0)
回复
没有害人,个人观点可以深度了解一下公司的潜力,天娱数科不单单是DS的分发商同样是豆包的分发商
cls-13879522个月前 · IP未知
省广
(3)
回复0条回复
cls-0hv5402个月前 · IP未知
好好,蓝色光标要起飞啦
(1)
回复0条回复
矮股2个月前 · IP未知
蓝色光标
(1)
回复0条回复
cls-4y9ox52个月前 · 四川
视觉中国明日破29
(1)
回复0条回复
cls-0o0d9a2个月前 · IP未知
星辉娱乐跟不跟啊
(1)
回复0条回复
cls-17345452个月前 · IP未知
蓝色光标
(1)
回复0条回复
古月胡胡2个月前 · IP未知
天娱数科🌹 
(1)
回复0条回复
cls-13911792个月前 · 河南
(1)
回复0条回复
cls-18007172个月前 · 北京
11
(0)
回复0条回复
cls-19843392个月前 · IP未知
1
(0)
回复0条回复
股票我爱你2个月前 · 山东
蓝色小光标好😍 
(0)
回复0条回复
黄喆.HUANG2个月前 · IP未知
明天继续拉升
(0)
回复0条回复
?城市的炜度?2个月前 · 湖南
AI应用指的是哪方面?谁能科普一下
(0)
回复1条回复
A26 回复 ?城市的炜度? 2个月前 · 广东
(1)
回复
很广,当前最火的DPK也是
jomoo2个月前 · 江西
这个是真牛!
(0)
回复0条回复
老猫2个月前 · IP未知
(0)
回复0条回复
低调的过小日子2个月前 · 浙江
(0)
回复0条回复