受海外Stability AI公司开源Stable Diffusion模型启发,CCNL于今年11月1日正式开源了自主研发的首个中文Stable Diffusion模型“太乙”,将AI绘画底层模型带入中文语境。
《安安访谈录》是界面财联社执行总裁徐安安出品的一档深度访谈类栏目。从投资角度对话1000位行业领军人物,覆盖传媒创新、VC/PE、信息服务、金融科技、交易体系、战略新兴等方向。
《财专访》是由《安安访谈录》出品的系列专访,财联社上市公司报道部聚焦行业热点,通过专访各类专家、领军人物,致力寻找投资价值标的,还原行业发展逻辑。
本期访谈人物:
IDEA研究院讲席科学家 张家兴
“中文世界需要有中国文化内核的AIGC模型,行业发展还需要有更多的AIGC产品创新出现,传统产品都值得用AIGC做一次升级。”
▍个人介绍
现任IDEA研究院讲席科学家,认知计算与自然语言研究中心负责人;曾任微软亚洲研究院研究员、蚂蚁金服资深算法专家、360数科首席科学家。
▍第一标签
AIGC底层技术研究和实践的领军者
▍组织简介
粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA研究院”)成立于2020年,目前已聚集包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家,致力于在AI基础技术与开源系统、人工智能金融科技、区块链技术与机密计算、企业级AI系统、产业智能物联网与智能机器人等领域研发国际顶尖成果,并培育一批国际领先科技企业,带动深圳乃至大湾区万亿级数字经济产业发展。
IDEA研究院认知计算与自然语言研究中心(Cognitive Computing and Natural Language,CCNL)致力于推动预训练大模型为代表的新一代认知与自然语言基础前沿技术的进一步发展,力图解决大模型实际落地过程中的全部技术问题,构建对话机器人、知识抽取、知识体系等自然语言领域的新的技术架构,打造认知人工智能的新技术范式。
AIGC正成为继PGC和UGC之后的全新内容创作模式,底层模型能力突破带来的行业应用潜力初现。在AI绘画这一技术应用分支,受海外Stability AI公司开源Stable Diffusion模型推动,行业准入门槛大幅降低,AI绘画的产业化和商业化进程加速。
由此可见,在AIGC行业发展初期,底层模型的迭代、开源将成为重要的核心推动力。基于此,CCNL于今年11月1日正式开源了自主研发的首个中文Stable Diffusion模型“太乙”,旨在更好地助力中国AIGC文化产业数字化转型的创新发展。
IDEA研究院讲席科学家张家兴在接受财联社记者专访时表示,中国并不缺乏产品创新者,当下欠缺的是AIGC底层能力的提供者。“我们团队希望在中国的AIGC产业里,承担Open AI跟Stability AI这样的角色,不断迭代底层模型能力,助力上层出现更多的产品创新,服务于更广泛的用户。”
01
——————————
AIGC模型也需要有中国文化内核
受海外Stability AI公司开源Stable Diffusion模型启发,CCNL于今年11月1日正式开源了自主研发的首个中文Stable Diffusion模型“太乙”,将AI绘画底层模型带入中文语境。
之所以选择推出“太乙”,张家兴表示,一方面因为英文模型会产生翻译损耗、难以生成具有中国文化内核的图片。另一方面Stable Diffusion模型已经在英文世界中证明了自己的价值,即极大降低了AIGC行业门槛,中文世界同样需要一个“原汁原味”的Stable Diffusion模型去推动整个产业发展。
对于AI来说,“投喂”什么样的数据会直接决定学习结果。例如,在英文Stable Diffusion模型中输入“宫殿”关键词,由于系统默认为英文思维,故输出的也是西方类型的各式宫殿图片。而在“太乙”中输入“宫殿”,生成的则是具有中国特色的宫殿建筑。输入人像、古诗类描述词也是同样的道理。
张家兴透露,“太乙”的训练数据量超过了1亿对的中文的图文对。“我们已经把整个团队都投入进去了,几十个成员基本都是在围绕着AIGC模型研究实践,也希望做一些更贴近下游应用的AIGC模型。”
实际上,目前Stable Diffusion模型技术并不完美。一个最明显的不足点是,当图片为照片风格时,人脸生成和人手的生成质量较差。为此,“太乙”加入了图像编辑功能,用户可以对一张图片的人脸部分进行单独修复,这是原版Stable Diffusion模型无法支持的。
02
——————————
“太乙”只是第一步,生态合作是关键
在整个AIGC行业,“太乙”作为底层模型,为应用层提供技术支撑。张家兴表示,推出“太乙”只是CCNL在AIGC方向上走出的第一步,后续团队将从三个层面持续发力。
一是不断进行模型迭代,对模型结构进行创新、构建质量越来越高的数据集等,完善最基础最底层的AIGC模型。目前CCNL已经开源了88个预训练模型,整体称为“封神榜”是目前中国最大的预训练模型开源体系。
二是推出针对特定领域的AIGC模型,例如二次元、科幻、游戏等领域。张家兴认为,一个通用的AIGC模型很难在所有领域上都表现出色,而与各垂直行业业内公司合作,有助于一同推出更多精准的模型工具。
三是通过API(Application Program Interface,应用程序界面)将模型接入更多的业务场景。“太乙”团队目前已经推出了API功能,免费提供给用户,每人每天有1万的调用额度。“这足以支持一个小团队前期去做产品创新,在特定领域面向特定用户的公司,往往有自己独特的经验和产品上的想法。这个时候可以直接调用我们的API构建产品,如果后期试验的比较成功了,我们可以再进一步探讨如何做一些针对产品的定制化的模型。”张家兴表示。
当前阶段,“太乙”已经在推进一些生态合作,对象主要瞄准在数据和场景上有优势的公司,CCNL提供模型技术支持,对方公司则专注于产品运营,双方形成优势互补关系。
“一种是对方的产品已经跑在前面了,但急需技术升级,以及更好的 AIGC模型内核。另一种是对方本身有很强的数据图像方面的优势,通过‘太乙’技术赋予数据新的价值。因为有的数据是有版权的,有一定获取成本,现在用AIGC的方式给业务数据再进行一次大规模的扩充,这样他们就有了更多自有版权了,并且基本是零成本。”张家兴表示。
张家兴透露,目前团队也在跟一些在图片数据上非常有优势的头部公司商议,推出一些商业版的模型,能够生成更高分辨率更高清晰度更写真的照片。
03
——————————
中国AIGC产业的瓶颈和机会
AIGC被业界广泛视为解放未来生产力的工具,与“降本增效”紧密挂钩。在张家兴看来,AIGC改变的更多是生产方式。“现在AI生成一张图片基本上1秒钟就够了,就算需要人工筛选也只需要几分钟。但过去如果是纯人工生成,可能以天为基数。”在AI的加持下,人在创作过程中更多是提供创意,以及筛选和挑选,颠覆了以往的生产方式。
张家兴认为,“降本增效”并不是AIGC真正的潜力。“降本增效只是任何一个技术刚出来时,大家都会关注的点。但时间久了,让这个技术真正被大家广泛使用,成为社会底层的支撑性技术,都是因为它支持了一些新的产品甚至新的产业,这才是它真正的价值。”
张家兴表示,中国不缺乏做产品创新的人,但现在缺少AIGC底层能力的提供者。“海外比如Open AI和Stability AI两家公司,对整个AIGC产业提供基础设施。国内这方面目前比较欠缺,至今没有这样的一个商业公司出现。”
“这就造成一个问题,每个想做AIGC的公司从模型到产品都要考虑在内,但前期的资源往往有限,可能更多为了保证产品效果,在底层模型研发上投入不了那么多的精力,也不可能投入像Open AI和Stability AI那么大的资源,基本上是对模型进行一些微调,然后就上线了,这样其实会存在大量问题。”张家兴表示。
张家兴透露,目前部分推出AIGC产品的公司已经大体实现收支平衡,头部产品已经有很大的用户体量和日调用量。“但其实还需要有更多AIGC的产品和落地场景出现,包括一些传统场景,比如图片搜索和图库,值得全部做一次升级。”
至于眼前的机会,张家兴表示,明年最值得期待的是视频和3D功能突破。“目前两方面还处于初级阶段,类似于两年前的图像生成。而人工视频的制作成本要比图片成本高,但对于AI来说区别不大,如果有AIGC技术在这些方面大幅度应用的话,会产生更大的商业价值。”
(记者:崔铭) (编辑:刘琰)
对话1000位行业领军人物:安安访谈录