类人速度超快语音响应！OpenAI推出新旗舰模型GPT-4o，图文音频手机AI搞定( 二 )_OpenAI

除了API的速度更快、成本大幅下降，OpenAI还提到， GPT-4o可以在最快232毫秒的时间内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo 的性能一致，并且在非英语文本方面的性能有了显著提高。
OpenAI介绍，与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。以前GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT 对话的平均延迟时间为2.8 秒和 5.4 秒，因为OpenAI用了三个独立的模型实现这类对话：一个模型将音频转录为文本，一个模型接收并输出文本，再有一个模型将该文本转换回音频。这个过程意味着，GPT丢失了大量信息，它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。
而GPT-4o的语音对话是OpenAI跨文本、视觉和音频端到端训练一个新模型的产物，这意味着所有输入和输出都由同一神经网络处理。OpenAI称，GPT-4o 是其第一个结合所有这些模式的模型，因此仍然只是浅尝辄止地探索该模型的功能及其局限性。

文章插图

文章插图
上周曾有消息称，OpenAI将发布基于AI的搜索产品，但上周五OpenAI的CEO Sam Altman否认了该消息，称本周一演示的既不是GPT-5 ，也不是搜索引擎。这意味着OpenAI再一次没有像市场爆料的时间线那样推出AI搜索。此后有媒体称，OpenAI的新产品可能是一个具备视觉和听觉功能的全新多模态AI模型，且具有比目前聊天机器人更好的逻辑推理能力。
本周一的演示的确展示了OpenAI在语音方面的努力。对于OpenAI推出的新模型和UI更新，有网友称，感觉到目前为止OpenAI没有那么开创性。