AI新玩法刷屏 一张照片让马斯克和库克跳起“科目三” 业内人士:AI视频仍存三大痛点
原创
2024-01-04 12:01 星期四
科创板日报记者 张洋洋
①阿里的通义千问App上线了一项新功能,用户输入一张图片,就能生成一段跳舞视频。
②AI生成图片或者视频这些设计工具背后的技术,面临着模型训练不及预期与控制不精准、生成有瑕疵、版权争议三大痛点。

《科创板日报》1月4日讯(记者 张洋洋)AI视频领域又有了新玩法。只需上传一张照片,就能让一个毫无舞蹈经验的人立刻跳起“科目三”(抖音一首热门舞蹈伴奏歌曲)。目前,随着“科目三”起舞的,不仅是普通网友,还不乏特斯拉掌门人马斯克、苹果CEO库克等科技大佬之流。

image

上述随着“科目三”刷屏网络的视频,是由阿里的通义千问App生成,这是一个最新上线的功能。据了解,该功能主要基于阿里巴巴自研的视频生成AI模型Animate Anyone。

《科创板日报》记者今日试验该功能发现,用户在通义千问App内输入“通义舞王”、“全民舞王”等关键词后,即可进入体验页面,用户根据提示上传照片后,10-15分钟即可让照片中的人“舞动”起来。

image

通义千问App内,目前提供了一共包括“科目三”、“秧歌舞”、“DJ慢摇”等在内的工12首歌曲伴奏模版,用户可以自行选择。

image

“科幻得夸张”、“有点强”是多数用户体验“通义舞王”过后的普遍观感。上一次,刷屏全网的AI图文应用还是妙鸭——也是出自阿里之手。只不过,这一次是从图片升级到了视频。

以图片生成视频是AIGC目前应用的主要方向之一。2023年11月之后,越来越多的AI视频初创公司开始崭露头角,如大火的Runway、Pika;之前以AI绘画走红的Stable Diffusion背后母公司也转向视频领域,发布了第一个开源AI视频生成模型。

不过,不管是文生图还是文生视频,技术不成熟是这些AI工具面临的共性问题。对于视频而言,当下AI生成视频的发展处于非常初级的阶段,这就会导致并不能完全生成出较完善的视频。比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。

美图高级副总裁、影像产业事业群总裁陈剑毅此前在接受《科创板日报》记者采访时表示,这些情况的出现原因在于AI工具模型的能力不高,对模型投喂的素材数据质量有一定的要求。AI生成图片或者视频这些设计工具背后的技术,现在还面临着模型训练不及预期控制不精准、生成有瑕疵、版权争议三大痛点。就工作流而言,AI目前主要充当创意辅助,仍需结合传统工具才能完成设计交付。

“通义舞王”现在对于输入的照片要求还比较高,并且只能用官方的姿态模版,不能自定义姿势。整体看,“全民舞王”还处于满足用户猎奇心理,吸引用户下载通义千问App的阶段。未来如何打造更具实用性的功能,跑通商业模式,将会是在一众AI视频应用里制胜的关键。

收藏
104.07W
我要评论
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论