百度回应文心一言文生图“套壳”质疑:为完全自研的大语言模型
原创
2023-03-23 04:32 星期四
科创板日报记者 黄心怡
亚洲视觉科技研发总监陈经表示,百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)。

《科创板日报》3月23日讯(记者 黄心怡) 百度今日在微博表示,已注意到对文心一言文生图功能的相关反馈,并回应说明如下:

1、文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。

2、在大模型训练中,我们使用的是互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。

百度方面还称,文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣。

早前,有自媒体博主在社交平台发文称,“百度最近推出的那个会画图的人工智能“文心一言”,有套壳、画皮、造假的嫌疑。

上述博主尝试了让文心一言画了许多会产生“中英歧义”词组短语。他发现,输入“鼠标和总线”,文心一言会自动生成“老鼠和公共汽车”。博主认为,这是由于“鼠标”和“总线”的英文是“mouse”和“bus”,文心一言显然对输入的中文进行了机器翻译。

image

同样的例子还有“一可以豆子”,这并非正常的汉语词组。但文心一言自动生成了“一罐头豆子”的图画。该博主指出,这是由于“一可以豆子”机翻成英语,正是“one can bean”,即一罐头豆子的含义。

image

经过多次测试后,该博主推断,百度的所谓人工智能,其实是把中文句子机翻成英语单词,然后用国外刚刚开源的人工智能“Stable Diffusion”生成了图画。

对此,有IT业内人士认为,文心一言确实把输入的中文句子,通过机器翻译生成了英语单词。“但这是因为开源的图文数据大部分为英文内容。目前还没有上亿规模中文图文数据集。即使有,也噪声很大,基本不可以用。行业内都是用国外数据集,做中文映射,才导致这样的生成效果。”

亚洲视觉科技研发总监陈经也表示,百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)

“目前,全球AI研发有开源的传统,特别是训练数据库,不然大家自己收集图片效率太低了。而且图片是要标注的,这更加大了收集整理图片的难度。所以,百度拿英语标注的图片库进行训练,这也是开源的意义。当前也有中文标准的训练数据,但是少很多。”

陈经分析称,“由于发布时间仓促,百度对于画图AI的中文输入词还没完全搞定,才弄了个简单的中翻英来应对。后续应该会根据用户反馈,把中文的提示词与英文的训练素材更好对应上。”

收藏
86.29W
我要评论
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
评论(16)
林小满同学2年前 · 上海
支持国产,即使还有这样那样的问题
(3)
回复0条回复
cls-18190372年前 · IP未知
类GPT大模型的参数是千亿规模的,原始数据库是外文的,肯定没有那么快调教好,国内现在干啥就心浮气躁,抓住点东西就是国产不行……
(2)
回复0条回复
人民东路价值挖掘2年前 · 山东
百度在AI领域的专利,第一
(1)
回复1条回复
斗酒诗百篇回复人民东路价值挖掘2年前 · 四川
(0)
回复
谁给你的勇气
cls-13447392年前 · 上海
排队申请中,不知道怎么样
(1)
回复4条回复
徐汇琦哥回复cls-13447392年前 · 上海
(0)
回复
哪里申请
稳赚不赔岁寒心回复徐汇琦哥2年前 · 四川
(0)
回复
官网
cls-1344739回复徐汇琦哥2年前 · 上海
(0)
回复
搜百度文心一言
cls-1344739回复徐汇琦哥2年前 · 上海
(0)
回复
百度文心一言网页
cls-13995322年前 · 江苏
360也靠一张嘴胡吹
(0)
回复0条回复
金刚经2年前 · 北京
英文的语料,完全可以把英文预料翻译成中文,然后用中文语料训练呀,百度作假也有可能,曾经历史上也出现不少不光彩的事情。今天阿里的视频生成,试用下,结果视频模糊不清,输入跆拳道的文字描述,出来的像草地。国内基本都打不到可用状态
(0)
回复0条回复
2年前 · 广东
不传谣,后面证明往往真
(0)
回复0条回复
七地·真名志2年前 · 江苏
承认不足就是进步的开始。
(0)
回复0条回复
cls-17696862年前 · 江苏
仓促,还没,后续。。。。
(0)
回复0条回复
772年前 · 湖南
这是好事,学习进步的开源高清,总比在内网找糊了的图来训练,要好
(0)
回复0条回复
迎难而上2年前 · 广西
颤抖
(0)
回复0条回复