除了API的速度更快、成本大幅下降,OpenAI还提到 , GPT-4o可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似 。它在英语文本和代码方面的性能与GPT-4 Turbo 的性能一致,并且在非英语文本方面的性能有了显著提高 。
OpenAI介绍,与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色 。以前GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT 对话的平均延迟时间为2.8 秒和 5.4 秒,因为OpenAI用了三个独立的模型实现这类对话:一个模型将音频转录为文本,一个模型接收并输出文本,再有一个模型将该文本转换回音频 。这个过程意味着,GPT丢失了大量信息 , 它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感 。
而GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物,这意味着所有输入和输出都由同一神经网络处理 。OpenAI称,GPT-4o 是其第一个结合所有这些模式的模型 , 因此仍然只是浅尝辄止地探索该模型的功能及其局限性 。

文章插图

文章插图
上周曾有消息称,OpenAI将发布基于AI的搜索产品,但上周五OpenAI的CEO Sam Altman否认了该消息,称本周一演示的既不是GPT-5 , 也不是搜索引擎 。这意味着OpenAI再一次没有像市场爆料的时间线那样推出AI搜索 。此后有媒体称,OpenAI的新产品可能是一个具备视觉和听觉功能的全新多模态AI模型,且具有比目前聊天机器人更好的逻辑推理能力 。
本周一的演示的确展示了OpenAI在语音方面的努力 。对于OpenAI推出的新模型和UI更新,有网友称,感觉到目前为止OpenAI没有那么开创性 。

文章插图
也有网友觉得OpenAI进一步拉开了和苹果(186.28, 3.23, 1.76%)的差距,还发了一张人满头大汗的动图,称现在苹果的语音助手Siri应该是这个样子 。

文章插图
【类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定】
推荐阅读
- 昨天吞咽困难,今天大口吃锅包肉,赵露思恢复速度让评论区炸窝了
- 梁锦松后悔娶小26岁伏明霞?揭秘伏明霞衰老速度惊人内幕
- 继卖酒失败以后,李亚鹏又开始卖陈皮了,改换赛道的速度也太快了
- 刀郎北京站门票0.1秒光,速度再创新纪录,摩天轮却炒到16667元
- 斗罗大陆:速度之神朱竹清的五种不同造型,穿上婚纱惊艳戴沐白,成神装秒变御姐
- 《速度与激情12》也要拍,“名侦探苏妲己”真人剧确认
- 巨石承认穿肌肉服拍片,《速度与激情》外传续集筹备中
- 《速度与激情11》曝片场照,网飞怪兽片《山怪巨魔2》2025年播出
- 主持人温雅美国生三胎,7分钟超快顺产,妆容精致怀抱儿子好幸福
- 《速度与激情11》: 真爱终将重逢,韩与吉赛尔的“速度与激情”
