Meta推出又一开源AI模型！支持1100种语言的“文本转语音”服务

原创

2023-05-23 10:22 星期二

财联社周子意

①Meta公司周一（22日）推出了一个开源AI语言模型MMS；
②该模型可以识别超过4000种口语，并为1100多种语言提供文本语音互转服务；
③Meta通过收集宗教文本译本的录音来采集音频数据，并训练MMS模型。

财联社5月23日讯（编辑周子意）Meta公司周一（5月22日）推出了一个开源AI语言模型——大规模多语言语音（Massively Multilingual Speech, MMS）模型。

该模型可以识别超过4000种口语，是以往任何已知技术的40倍；该模型还将文本语音互转技术从100多种语言扩展到1100多种。

Meta选择将MMS模型开源，以帮助保护语言多样性，并鼓励研究人员在其基础上进行进一步开发。

Meta公司在新闻稿中写道，“今天，我们公开分享我们的模型和代码，以便研究界的其他人可以在我们的工作基础上继续发展。通过这项工作，我们希望为保护全世界令人惊叹的语言多样性做出一点贡献。”

数据采集

语音识别和文本到语音模型通常需要对模型进行数千小时的音频训练，并附带语音转录标签。这些标签对机器学习至关重要，它使算法能够更准确地分类和理解数据。

如此一来，收集数千种语言的音频数据是Meta面临的第一个挑战，而现有最大的语音数据集最多涵盖100种语言。

对于那些在工业化国家没有被广泛使用的语言，其中的许多语言在未来几十年甚至存在消失的风险。

Meta使用了一种非常规的方法来收集音频数据：利用翻译完成的宗教文本的录音。

该公司表示，“为了克服这个问题，我们转向了宗教文本，如圣经，这些文本已被翻译成多种不同的语言，这些译本也已被用于广泛的语言研究中。”

这些宗教文本的各语言译本也有专业人士进行阅读并录音。作为MMS项目的一部分，Meta创建了一个超过1100种语言的“《新约》阅读数据集”，平均每种语言有32小时的数据。

此外，Meta还指出，考虑到其他宗教类读物的未标记录音，我们将可提供的语言数量增加到4000多种。

挽救语言多样性

这种收集数据的方法乍一听上去会让人产生一种想法：基于这些译本录音的AI模型是否会严重偏向基督教世界观？

不过Meta指出，情况并非如此，“虽然录音的内容是宗教的，但我们的分析表明，这并没有使模型偏向于产生宗教语言。”

“这是因为我们使用了连接主义时间分类（CTC）方法，这与大型语言模型（LLM）或语音识别的序列到序列模型相比，这种方法受到的约束要大得多。”

目前世界上许多语言都面临着消失的危险，而有限的语音识别和语音生成技术只会加速这一趋势。

Meta在新闻稿中提出，希望扭转世界语言逐渐减少的趋势，希望每个人都能用自己的第一语言来获取信息或使用技术。

阅75.73W

我要评论

反馈意见

图片

欢迎您发表有价值的评论，发布广告和不和谐的评论都将会被删除，您的账号将禁止评论。

发表评论

刘辉442年前 · 海南

讯飞凉了

(3)

回复0条回复

cls-13933602年前 · 福建

利好主力疯狂出货

(3)

回复0条回复

知行合一难于上青天2年前 · 浙江

国内做大模型的，争气点啊，目前发的一个比一个差。

(2)

回复0条回复

cls-13875972年前 · 山西

在做什么大模型啦什么的，最重要的还是的做好数据安全，数据不安全都白搭，密切关注南威软件的大动作

(2)

回复0条回复

cls-15832212年前 · 广东

光模块崛起

(2)

回复0条回复

茅台退2年前 · IP未知

科大【危】

(1)

回复0条回复

是非书生542年前 · 福建

讯飞可以用，但是真的不太好

(1)

回复0条回复

cls-13755592年前 · 浙江

看到新闻说国内上线了那么多的模型，可是一个也没找到，有哪位大神能告诉我，国内哪个AI大模型上线了吗？

(1)

回复0条回复

cls-13755592年前 · 浙江

国内的大模型吹的一个比一个好，上线可以使用的一个也没有。都是内测

(1)

回复0条回复

花心达人2年前 · 江苏

按照1天24小时，1000小时的训练就要41天，ai算力还是很急需的

(1)

回复0条回复

Asher 遇662年前 · 广东

科大讯飞又可以遥遥领先了

(0)

回复0条回复

云往东2年前 · 内蒙古

老美在科技领域内的技术发展太快了，快到你很难想象下一步会产生什么样的变化

(0)

回复0条回复

茅台退2年前 · IP未知

可达

(0)

回复0条回复

和记掌柜2年前 · 广东

国内公司：开源😎

(0)

回复0条回复

cls-17328672年前 · 河北

上车蓝色光标

(0)

回复0条回复

要闻

股市

05-31 11:32 星期六

窃取国家能源！普通遥控器竟牵出10亿元大案

05-31 11:14 星期六

印度军方首次承认：印战机在印巴冲突中被击落

05-31 06:51 星期六

龙头三连板本周披露并购重组进展的A股名单一览

05-31 10:43 星期六

本周再添9家！中国化学等多股披露回购增持再贷款计划，相关A股名单一览

05-31 10:42 星期六

当事人同一个违法行为不得罚款两次网信办公开征求意见

05-31 10:49 星期六

A股新风向标！私募资管4月新增规模创4年多来新高，存量规模升至12万亿

05-31 08:58 星期六

河北一化工企业车间发生爆炸，致5人死亡

05-31 07:55 星期六

美国防长：国防预算将达到1万亿美元，重振美军威慑力

05-31 02:15 星期六

工信部、中汽协接连表态新一轮汽车“价格战”：“内卷式”竞争没有赢家更没未来

05-31 05:49 星期六

今夏空调价格跳水？行业备战旺季排产忙厂商：“618”渠道单台空调均价同比上扬

关联话题

环球市场情报

11.6W 人关注

人工智能

5.2W 人关注

首页

电报

话题

盯盘

VIP

FM

投研

下载

头条

A股

港股

环球

公司

券商

基金·ETF

地产

金融

汽车

科创

品见