3分钟速览OpenAI春季发布会：GPT-4o炸裂登场！听说读写丝滑如真人

原创

2024-05-13 22:13 星期一

财联社赵昊

①OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理”；
②“我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。”

财联社5月14日讯（编辑赵昊）北京时间周二（5月14日）凌晨，美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。

整体来看，活动主要分为两大部分：推出新旗舰模型“GPT-4o”，以及在ChatGPT中免费提供更多功能。

GPT-4o登场

OpenAI在活动中发布了新旗舰模型“GPT-4o”，“可以实时对音频、视觉和文本进行推理。”据介绍，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

GPT-4o的“o”代表“omni”。该词意为“全能”，源自拉丁语“omnis”。在英语中“omni”常被用作词根，用来表示“全部”或“所有”的概念。

新闻稿称，GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出，“与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前，用户使用语音模式与ChatGPT对话时，GPT-3.5的平均延迟为2.8秒，GPT-4为5.4秒，音频在输入时还会由于处理方式丢失大量信息，让GPT-4无法直接观察音调、说话的人和背景噪音，也无法输出笑声、歌唱声和表达情感。

与之相比，GPT-4o可以在232毫秒内对音频输入做出反应，与人类在对话中的反应时间相近。在录播视频中，两位高管做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

图像输入方面，演示视频显示，OpenAI高管启动摄像头要求实时完成一个一元方程题，ChatGPT轻松完成了任务；另外，高管还展示了ChatGPT桌面版对代码和电脑桌面（一张气温图表）进行实时解读的能力。

OpenAI新闻稿称，“我们跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型，因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”

性能方面，根据传统基准测试，GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能，同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

更多工具免费解锁

OpenAI表示，“我们开始向ChatGPT Plus和Team用户推出GPT-4o，并且很快就会向企业用户推出。我们今天还开始推出ChatGPT Free，但有使用限额。 Plus用户的消息限额将比免费用户高出5倍，团队和企业用户的限额会再高一些。”

新闻稿称，即使是ChatGPT Free（免费）用户也可以有机会体验GPT-4o，但当达到限额时，ChatGPT将自动切换到GPT-3.5。

另外，OpenAI还推出适用于macOS的ChatGPT桌面应用程序，通过简单的键盘快捷键（Option + Space）可以立即向ChatGPT提问，还可以直接在应用程序中截取屏幕截图与机器人进行讨论。

在直播活动尾声时，OpenAI首席技术官Mira Murati说道，“感谢杰出的OpenAI团队，也感谢Jensen（黄仁勋）和英伟达团队为我们带来了最先进的GPU，使今天的演示成为可能。”

阅82.37W

我要评论

反馈意见

图片

欢迎您发表有价值的评论，发布广告和不和谐的评论都将会被删除，您的账号将禁止评论。

发表评论

歌之1年前 · 河南

人类之光

(2)

回复0条回复

cls-kh3bbs1年前 · IP未知

yyds

(1)

回复0条回复

cls-梦剧场的小小睿1年前 · 湖南

带一波人工智能股价

(1)

回复0条回复

cls-92270h1年前 · IP未知

问题是这高级玩具有啥用？怎么通过商业变现收回巨额投资

(1)

回复5条回复

诗人的痛回复cls-92270h1年前 · IP未知

(0)

我感觉你对AI的功能一无所知，每天大量人工岗位面临下岗，最直接的罪魁祸首就是AI。

cls-zwl8yx回复cls-92270h1年前 · IP未知

(0)

你急什么？这么接近人类助理的产品还愁商业化？

cls-1304242回复cls-92270h1年前 · IP未知

(2)

二楼这人都是拿坏的事来说，我也说两句，蒸汽机对农民工冲击，计算机互联网对现实人类的影响，电商对实体经济的冲击，机器人对就业者的影响………

回复cls-92270h1年前 · IP未知

(2)

有些人就是当今的文盲

回复诗人的痛1年前 · IP未知

(0)

说的对，无知的人越来越多

cls-fi3zw21年前 · IP未知

发了也没啥暖用，不能阻挡你们空狗继续割韭菜

(0)

回复0条回复

chule6jiushi81年前 · IP未知

吹牛嘛

(0)

回复0条回复

cls-b0rch1年前 · 广东

基于gpt4模型吗？

(0)

回复0条回复

茧351年前 · 山西

人类每个人对每件事物的认知不一样，做出的反应和理解还不一样，人工智能通过长期的学习是有可能在一些方面超过人类的。

(0)

回复0条回复

板栗仁1年前 · IP未知

666

(0)

回复0条回复

cls-nadieencendialaslamparas1年前 · 上海

Her

(0)

回复0条回复

cls-15810331年前 · IP未知

实时的音频和画面交互，可用性大大提高，生产力的飞跃。结合智能终端的AI教师，AI助手/宠物真正具有了价值。即使只用桌面端app，结合调用其他软件接口的能力，也完全改变了操作系统的交互方式，令人震惊

(0)

回复0条回复

知行合一难于上青天1年前 · IP未知

跟泄露的消息一样，没有超预期

(0)

回复1条回复

cls-ice186回复知行合一难于上青天1年前 · IP未知

(0)

哪里看消息

低调的过小日子1年前 · IP未知

顶

(0)

回复0条回复

cls-18981091年前 · IP未知

厉害，国光电器

(0)

回复0条回复

要闻

股市

05-06 19:06 星期二

默茨经历波折当选德国总理新政府面临重重挑战

05-06 18:03 星期二

美欧贸易谈判遇阻欧盟据悉酝酿对千亿欧元美货加征关税

05-06 18:00 星期二

被特朗普当面羞辱，卡尼回应：加拿大是非卖品

05-06 16:11 星期二

空客CEO放话：若谈判破裂，欧盟应对美国飞机制造商征税反击

05-06 15:01 星期二

年报“难产”被立案调查谁在导演ST新潮竞争要约幕后大戏？

05-06 15:54 星期二

在特朗普关税阴影下，英国和印度达成里程碑式贸易协议

05-06 11:47 星期二

欧盟官员：欧盟酝酿对美关税政策反制措施，包含所有选项

05-06 15:24 星期二

令人瞠目！上市不足三年 ST帕瓦假账连篇

05-06 07:38 星期二

外交部：中方和欧洲议会决定同步全面取消对相互交往的限制

05-06 12:19 星期二

于东来刘强东联手！项目年产值约25亿元

关联话题

环球市场情报

11.35W 人关注

+ 关注

人工智能

5.13W 人关注

+ 关注

首页

电报

话题

盯盘

VIP

FM

投研

下载

头条

A股

港股

环球

公司

券商

基金·ETF

地产

金融

汽车

科创

品见