Meta推出又一开源AI模型!支持1100种语言的“文本转语音”服务
原创
2023-05-23 10:22 星期二
财联社 周子意
①Meta公司周一(22日)推出了一个开源AI语言模型MMS;
②该模型可以识别超过4000种口语,并为1100多种语言提供文本语音互转服务;
③Meta通过收集宗教文本译本的录音来采集音频数据,并训练MMS模型。

财联社5月23日讯(编辑 周子意)Meta公司周一(5月22日)推出了一个开源AI语言模型——大规模多语言语音(Massively Multilingual Speech, MMS)模型。

该模型可以识别超过4000种口语,是以往任何已知技术的40倍;该模型还将文本语音互转技术从100多种语言扩展到1100多种。

image

Meta选择将MMS模型开源,以帮助保护语言多样性,并鼓励研究人员在其基础上进行进一步开发。

Meta公司在新闻稿中写道,“今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上继续发展。通过这项工作,我们希望为保护全世界令人惊叹的语言多样性做出一点贡献。”

数据采集

语音识别和文本到语音模型通常需要对模型进行数千小时的音频训练,并附带语音转录标签。这些标签对机器学习至关重要,它使算法能够更准确地分类和理解数据。

如此一来,收集数千种语言的音频数据是Meta面临的第一个挑战,而现有最大的语音数据集最多涵盖100种语言。

对于那些在工业化国家没有被广泛使用的语言,其中的许多语言在未来几十年甚至存在消失的风险。

Meta使用了一种非常规的方法来收集音频数据:利用翻译完成的宗教文本的录音。

该公司表示,“为了克服这个问题,我们转向了宗教文本,如圣经,这些文本已被翻译成多种不同的语言,这些译本也已被用于广泛的语言研究中。”

这些宗教文本的各语言译本也有专业人士进行阅读并录音。作为MMS项目的一部分,Meta创建了一个超过1100种语言的“《新约》阅读数据集”,平均每种语言有32小时的数据。

此外,Meta还指出,考虑到其他宗教类读物的未标记录音,我们将可提供的语言数量增加到4000多种。

挽救语言多样性

这种收集数据的方法乍一听上去会让人产生一种想法:基于这些译本录音的AI模型是否会严重偏向基督教世界观?

不过Meta指出,情况并非如此,“虽然录音的内容是宗教的,但我们的分析表明,这并没有使模型偏向于产生宗教语言。”

“这是因为我们使用了连接主义时间分类(CTC)方法,这与大型语言模型(LLM)或语音识别的序列到序列模型相比,这种方法受到的约束要大得多。”

目前世界上许多语言都面临着消失的危险,而有限的语音识别和语音生成技术只会加速这一趋势。

Meta在新闻稿中提出,希望扭转世界语言逐渐减少的趋势,希望每个人都能用自己的第一语言来获取信息或使用技术。

收藏
75.73W
我要评论
图片
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
评论(15)
刘辉442年前 · 海南
讯飞凉了
(3)
回复0条回复
cls-13933602年前 · 福建
利好主力疯狂出货
(3)
回复0条回复
知行合一难于上青天2年前 · 浙江
国内做大模型的,争气点啊,目前发的一个比一个差。
(2)
回复0条回复
cls-13875972年前 · 山西
在做什么大模型啦什么的,最重要的还是的做好数据安全,数据不安全都白搭,密切关注南威软件的大动作
(2)
回复0条回复
cls-15832212年前 · 广东
光模块崛起
(2)
回复0条回复
茅台退2年前 · IP未知
科大【危】
(1)
回复0条回复
是非书生542年前 · 福建
讯飞可以用,但是真的不太好
(1)
回复0条回复
cls-13755592年前 · 浙江
看到新闻说国内上线了那么多的模型,可是一个也没找到,有哪位大神能告诉我,国内哪个AI大模型上线了吗?
(1)
回复0条回复
cls-13755592年前 · 浙江
国内的大模型吹的一个比一个好,上线可以使用的一个也没有。都是内测
(1)
回复0条回复
花心达人2年前 · 江苏
按照1天24小时,1000小时的训练就要41天,ai算力还是很急需的
(1)
回复0条回复
Asher 遇662年前 · 广东
科大讯飞又可以遥遥领先了
(0)
回复0条回复
云往东2年前 · 内蒙古
老美在科技领域内的技术发展太快了,快到你很难想象下一步会产生什么样的变化
(0)
回复0条回复
茅台退2年前 · IP未知
可达
(0)
回复0条回复
和记掌柜2年前 · 广东
国内公司:开源😎 
(0)
回复0条回复
cls-17328672年前 · 河北
上车蓝色光标
(0)
回复0条回复