AI新玩法刷屏一张照片让马斯克和库克跳起“科目三” 业内人士：AI视频仍存三大痛点

原创

2024-01-04 12:01 星期四

科创板日报记者张洋洋

①阿里的通义千问App上线了一项新功能，用户输入一张图片，就能生成一段跳舞视频。
②AI生成图片或者视频这些设计工具背后的技术，面临着模型训练不及预期与控制不精准、生成有瑕疵、版权争议三大痛点。

《科创板日报》1月4日讯（记者张洋洋）AI视频领域又有了新玩法。只需上传一张照片，就能让一个毫无舞蹈经验的人立刻跳起“科目三”（抖音一首热门舞蹈伴奏歌曲）。目前，随着“科目三”起舞的，不仅是普通网友，还不乏特斯拉掌门人马斯克、苹果CEO库克等科技大佬之流。

上述随着“科目三”刷屏网络的视频，是由阿里的通义千问App生成，这是一个最新上线的功能。据了解，该功能主要基于阿里巴巴自研的视频生成AI模型Animate Anyone。

《科创板日报》记者今日试验该功能发现，用户在通义千问App内输入“通义舞王”、“全民舞王”等关键词后，即可进入体验页面，用户根据提示上传照片后，10-15分钟即可让照片中的人“舞动”起来。

通义千问App内，目前提供了一共包括“科目三”、“秧歌舞”、“DJ慢摇”等在内的工12首歌曲伴奏模版，用户可以自行选择。

“科幻得夸张”、“有点强”是多数用户体验“通义舞王”过后的普遍观感。上一次，刷屏全网的AI图文应用还是妙鸭——也是出自阿里之手。只不过，这一次是从图片升级到了视频。

以图片生成视频是AIGC目前应用的主要方向之一。2023年11月之后，越来越多的AI视频初创公司开始崭露头角，如大火的Runway、Pika；之前以AI绘画走红的Stable Diffusion背后母公司也转向视频领域，发布了第一个开源AI视频生成模型。

不过，不管是文生图还是文生视频，技术不成熟是这些AI工具面临的共性问题。对于视频而言，当下AI生成视频的发展处于非常初级的阶段，这就会导致并不能完全生成出较完善的视频。比如视频动作过渡不自然、理解角度诡异、视频分辨率不高等。

美图高级副总裁、影像产业事业群总裁陈剑毅此前在接受《科创板日报》记者采访时表示，这些情况的出现原因在于AI工具模型的能力不高，对模型投喂的素材数据质量有一定的要求。AI生成图片或者视频这些设计工具背后的技术，现在还面临着模型训练不及预期控制不精准、生成有瑕疵、版权争议三大痛点。就工作流而言，AI目前主要充当创意辅助，仍需结合传统工具才能完成设计交付。

“通义舞王”现在对于输入的照片要求还比较高，并且只能用官方的姿态模版，不能自定义姿势。整体看，“全民舞王”还处于满足用户猎奇心理，吸引用户下载通义千问App的阶段。未来如何打造更具实用性的功能，跑通商业模式，将会是在一众AI视频应用里制胜的关键。

阅104.07W

我要评论

反馈意见