百度回应文心一言文生图“套壳”质疑：为完全自研的大语言模型

原创

2023-03-23 04:32 星期四

科创板日报记者黄心怡

亚洲视觉科技研发总监陈经表示，百度的画图AI采用了英文标注的开源图片素材进行训练，因此需要中翻英来当prompt（提示词）。

《科创板日报》3月23日讯（记者黄心怡） 百度今日在微博表示，已注意到对文心一言文生图功能的相关反馈，并回应说明如下：

1、文心一言完全是百度自研的大语言模型，文生图能力来自文心跨模态大模型ERNIE-ViLG。

2、在大模型训练中，我们使用的是互联网公开数据，符合行业惯例。大家也会从接下来文生图能力的快速调优迭代，看到百度的自研实力。

百度方面还称，文心一言正在大家的使用过程中不断学习和成长，请大家给自研技术和产品一点信心和时间，不传谣信谣。

早前，有自媒体博主在社交平台发文称，“百度最近推出的那个会画图的人工智能“文心一言”，有套壳、画皮、造假的嫌疑。

上述博主尝试了让文心一言画了许多会产生“中英歧义”词组短语。他发现，输入“鼠标和总线”，文心一言会自动生成“老鼠和公共汽车”。博主认为，这是由于“鼠标”和“总线”的英文是“mouse”和“bus”，文心一言显然对输入的中文进行了机器翻译。

同样的例子还有“一可以豆子”，这并非正常的汉语词组。但文心一言自动生成了“一罐头豆子”的图画。该博主指出，这是由于“一可以豆子”机翻成英语，正是“one can bean”，即一罐头豆子的含义。

经过多次测试后，该博主推断，百度的所谓人工智能，其实是把中文句子机翻成英语单词，然后用国外刚刚开源的人工智能“Stable Diffusion”生成了图画。

对此，有IT业内人士认为，文心一言确实把输入的中文句子，通过机器翻译生成了英语单词。“但这是因为开源的图文数据大部分为英文内容。目前还没有上亿规模中文图文数据集。即使有，也噪声很大，基本不可以用。行业内都是用国外数据集，做中文映射，才导致这样的生成效果。”

亚洲视觉科技研发总监陈经也表示，百度的画图AI采用了英文标注的开源图片素材进行训练，因此需要中翻英来当prompt（提示词）。

“目前，全球AI研发有开源的传统，特别是训练数据库，不然大家自己收集图片效率太低了。而且图片是要标注的，这更加大了收集整理图片的难度。所以，百度拿英语标注的图片库进行训练，这也是开源的意义。当前也有中文标准的训练数据，但是少很多。”

陈经分析称，“由于发布时间仓促，百度对于画图AI的中文输入词还没完全搞定，才弄了个简单的中翻英来应对。后续应该会根据用户反馈，把中文的提示词与英文的训练素材更好对应上。”

阅86.29W

我要评论

反馈意见

图片

欢迎您发表有价值的评论，发布广告和不和谐的评论都将会被删除，您的账号将禁止评论。

发表评论

林小满同学2年前 · 上海

支持国产，即使还有这样那样的问题

(3)

回复0条回复

cls-18190372年前 · IP未知

类GPT大模型的参数是千亿规模的，原始数据库是外文的，肯定没有那么快调教好，国内现在干啥就心浮气躁，抓住点东西就是国产不行……

(2)

回复0条回复

人民东路价值挖掘2年前 · 山东

百度在AI领域的专利，第一

(1)

回复1条回复

斗酒诗百篇回复人民东路价值挖掘2年前 · 四川

(0)

谁给你的勇气

cls-13447392年前 · 上海

排队申请中，不知道怎么样

(1)

回复4条回复

徐汇琦哥回复cls-13447392年前 · 上海

(0)

哪里申请

稳赚不赔岁寒心回复徐汇琦哥2年前 · 四川

(0)

官网

cls-1344739回复徐汇琦哥2年前 · 上海

(0)

搜百度文心一言

cls-1344739回复徐汇琦哥2年前 · 上海

(0)

百度文心一言网页

cls-13995322年前 · 江苏

360也靠一张嘴胡吹

(0)

回复0条回复

金刚经2年前 · 北京

英文的语料，完全可以把英文预料翻译成中文，然后用中文语料训练呀，百度作假也有可能，曾经历史上也出现不少不光彩的事情。今天阿里的视频生成，试用下，结果视频模糊不清，输入跆拳道的文字描述，出来的像草地。国内基本都打不到可用状态

(0)

回复0条回复

周2年前 · 广东

不传谣，后面证明往往真

(0)

回复0条回复

七地·真名志2年前 · 江苏

承认不足就是进步的开始。

(0)

回复0条回复

cls-17696862年前 · 江苏

仓促，还没，后续。。。。

(0)

回复0条回复

772年前 · 湖南

这是好事，学习进步的开源高清，总比在内网找糊了的图来训练，要好

(0)

回复0条回复

迎难而上2年前 · 广西

颤抖

(0)

回复0条回复

要闻

股市

08-23 10:35 星期六

稀土总量控制指标新规正式实施：精准监管是核心方向

08-23 05:33 星期六

探访国家先进计算太原中心：国产算力如何支撑AI与大科学？

08-23 07:34 星期六

天风证券：牛市若出现小平台，如何应对？

08-23 01:19 星期六

三部门就《互联网平台价格行为规则（征求意见稿）》公开征求意见

08-23 01:36 星期六

债务水平仍是困扰！惠誉维持对美国“AA+”信用评级

08-23 06:01 星期六

不战则退！中证A500ETF规模冷热不均，有产品濒临清盘线

08-23 06:51 星期六

小平板或有大行情！记者实探：市场风向变了小平板产业链或将“升温”

08-23 06:47 星期六

以太币时隔四年再创历史新高！鲍威尔一言让加密市场重新布局

08-23 06:24 星期六

谢锋：中美同为全球最重要的农业生产和消费大国，完全可以优势互补

08-23 02:22 星期六

全球首个机器人消费节总销售额突破3.3亿元

关联话题

2.18W 人关注

5.45W 人关注

1.02W 人关注

2.48W 人关注

首页

电报

话题

盯盘

VIP

FM

投研

下载

头条

A股

港股

环球

公司

券商

基金·ETF

地产

金融

汽车

科创

品见