OpenAI发布原生多模式 GPT4o：可读取文本、视觉效果和声音

2024年 5月 19日运维资讯大猫

OpenAI 在周一晚间展示了其最新的多模式机器学习模型 GPT-4o。

OpenAI 首席技术官 Mira Murati 在演示中如此说道：

“今天的重大新闻，是我们即将推出新的旗舰型号，我们将其称为 GPT-4o。GPT-4o 的特别之处在于，它为每个人带来了 GPT-4 级别的智能，包括我们的免费用户。”

这家AI超级实验室还推出了适用于 macOS 的桌面应用程序（今天可供 Plus 用户使用，未来几周内可供其他用户使用），以及 ChatGPT 的 Web 用户界面更新。

正如很多人预言的那样，没有任何关于人工智能搜索引擎的消息。

关于 GPT-4o

GPT-4o 中的“o”代表“omni”，指的是该模型接受视觉、音频与文本输入，并从用户的任何模式生成输出的能力。包括提示或请求，在视觉上，OpenAI 指的是视频与静态图片。

GPT4o 在处理英文和代码文本时与 GPT Turbo 一样快，可以在短短 232 毫秒内响应音频输入，“平均为 320 毫秒，这与人类对话中的响应时间相似。”响应时间的减少是因为与其他 ChatGPT 版本不同，所有输入和输出均由同一神经网络处理。

在以前的版本使用语音模式会出现延迟。这是由于 GPT-3.5 或 GPT-4 的语音管道涉及三种模型：一种用于转录，一种用于处理文本，一种用于将文本转换为音频。因此当数据在这些单独的模型之间流动时，会产生几秒钟的延迟。

GPT-4o将这些功能组合到一个模型中，因此它可以更快地响应，并且可以访问以前的版本无法在模型内传输中保存的信息，例如语气、多个扬声器和背景噪音。

但是出于安全考虑，并非该模型的所有功能都会立即可用。GPT-4o 的文本和图像功能可同时供免费版 ChatGPT 用户和付费 Plus 客户使用，他们的使用限额比以前高出 5 倍；团队和企业用户可以有更高的限额。

改进后的语音模式会在几周内进入 ChatGPT Plus 内的 alpha 测试。

使用 OpenAI 的 API 服务的开发者还能够访问 GPT-4o 的文本和视觉功能，据说速度比 GPT-4 Turbo 快 2 倍，价格降低一半，速率限制高 5 倍。

借助 API，音频和视频功能在未来几周内将仅限于一小部分ChatGPT的合作伙伴。

Murati 说：

“GPT-4o 在安全方面给我们带来了新的挑战，因为我们正在处理实时音频、实时视觉，我们的团队一直在努力研究如何减少滥用。”

OpenAI发布原生多模式 GPT-4o：可读取文本、视觉效果和声音-1

其中一个应对措施，在最开始时，口语音频输出将仅限于一组特定的声音，以便排除诸如声音冒充欺诈之类的情况。

GPT-4o的主要特性

多式联运能力

文本、音频和图像处理：GPT-4o 可以接受文本、音频和图像形式的输入，并生成这些格式的输出。这使其成为需要理解和生成多模式内容的任务的综合工具。
实时音频响应：该模型可以在短短 232 毫秒内响应音频输入，平均响应时间为 320 毫秒，紧密模仿人类对话速度。

提高效率和成本效益

更快、更便宜：GPT-4o 生成文本的速度是 GPT-4 Turbo 的2倍，并且价格便宜 50%，这使其成为开发人员和企业的经济高效的解决方案。
高令牌压缩：新的分词器显着减少了各种语言所需的令牌数量，提高了处理效率。

先进的视觉能力

图像理解：GPT-4o 擅长解释图像、回答有关图像内容的问题以及理解图像中对象之间的关系。此功能对于医疗保健、零售和安全等领域的应用非常有用。

多语言能力

改进的非英语语言性能：该模型在理解和生成非英语语言文本方面显示出显著改进，使其成为全球应用程序的重要工具。

GPT-4o的技术创新

端到端训练：与之前针对不同模式使用单独管道的模型不同，GPT-4o 是跨文本、视觉和音频进行端到端训练的。这种集成方法允许模型保留更多上下文信息并提供更准确的输出。
大型上下文窗口：GPT-4o 具有 128,000 个令牌的上下文窗口，可以处理广泛且复杂的输入，使其适合详细且冗长的任务。

用户利益

自然交互：处理和生成多模式内容的能力允许与人工智能进行更自然和直观的交互，从而增强用户体验。
节省成本：该模型的效率和成本降低使其可供更广泛的用户使用，从个人开发人员到大型企业。
多功能性：GPT-4o 精通多种语言和模式，使其成为适用于各种应用程序的多功能工具，包括客户服务、内容创建和数据分析。

兼容性和集成

API 访问：GPT-4o 可通过 OpenAI API 获取，允许开发者将其功能无缝集成到他们的应用程序中。
平台支持：该模型受各种平台支持，包括 OpenAI Playground 和 ChatGPT，使其易于实验和开发。

安全

根据 OpenAI 的说法，GPT-4o 在其准备框架涵盖的类别中将风险评为中等或以下。

与其它竞争对手的比较

OpenAI发布原生多模式 GPT-4o：可读取文本、视觉效果和声音-2

新的旗舰型号在与竞争对手的竞争中得分很高，在大多数列出的基准测试中明显击败了 GPT-4T、GPT-4、Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0 和 Llama3 400b （文本：MMLU、GPQA）、数学与 HumanEval）。

有些功能代表了对 ChatGPT 现有语音模式的重大升级，后者可以与用户聊天，但交互仍然有限；例如当前版本无法被中断或响应用户相机所实时看到的内容。新功能将在“未来几周”内会以有限的“alpha”版本推出，并在更广泛的测试后先向 ChatGPT Plus 订阅者提供。

早一天比谷歌开发者大会发布

谷歌的年度开发者大会将于明天（5月15号）开始，有人说这家巨头的Android工程师此时正在根据 OpenAI 的产品更新回顾自己的PPT文档。

令人叹为观止的情感模拟与思考能力

在 OpenAI 活动上，Murati 邀请 OpenAI 前沿研究负责人 Mark Chen 和后培训团队负责人 Barret Zopf 上台演示将在未来几周内推出的新功能。

在会场上OpenAI展示了实时音频语言翻译，Murati 说意大利语，Mark Chen 说英语。这是一次令人印象深刻的演示，虽然经过精心设计，但这个功会受到不会说本地语言旅行者的欢迎。

GPT-4o 读取和解释编程代码的能力看起来也很有前途，尽管基于 Python 的温度图形演示可以由有能力的 Python 开发者轻松解释。不过，新手可能会喜欢人工智能的指导。OpenAI 没有要求其模型澄清缩小的 JavaScript 或混淆的恶意软件。

在另一个演示中，Chen 向 GPT-4o 寻求帮助，以便来缓解焦虑，这有点更具挑战性，因为模型识别出了 Chen 的急促呼吸并告诉他冷静下来。该模型还通过根据需要使其生成的声音听起来更加生动来模拟情感。

反问 OpenAI 的几个问题

是否允许用户使用语气和模拟情绪来推动商品购买，以其他方式说服人们做事将更加有趣？
恳求或恐吓的人工智能应用会比中性式背诵产生更好的结果吗？
社会规则能否阻止人工智能被情绪操纵后的反应？

OpenAI 在此方面表示：“我们认识到 GPT-4o 的音频模式存在各种新的风险。”并承诺在发布 GPT-4o 的系统卡时提供更多的细节。

与苹果合作

OpenAI 即将与苹果达成协议，将 ChatGPT 安装在 iPhone 上。

iPhone 语音助手 Siri 是出了名的不好用，因此 iPhone 中内置的一个受Her启发的助手实际上可能能够回答用户的问题，而不再是“搜索网络”，而这正是这个问题的正确发展方向。

结语

以OpenAI首席执行官奥特曼，在直播结束后发表的一篇博客文章作为本文总结：

“新的语音和视频模式是我用过的最好的计算机界面。感觉就像电影里her的人工智能一样；这对我来说仍然有点令人惊叹。它是真实的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的变化。”

PS：在技术上，GPT-4o 仍然会产生幻觉。本次会议很短，也没有发布 GPT-5 ，是否表明 OpenAI 正在进入收益递减阶段？

作者：校长

相关参考：

https://blog.samaltman.com/gpt-4o

https://www.cmswire.com/digital-marketing/openais-gpt4o-smarter-faster-and-it-speaks/

https://woy.ai/p/GPT4o

https://www.theregister.com/2024/05/13/openai_gpt4o/

作者：大猫

链接：https://www.mryunwei.com/606617.html

文章版权归作者所有，未经允许请勿转载。

OpenAI发布原生多模式 GPT4o：可读取文本、视觉效果和声音

GPT-4o的技术创新

用户利益

兼容性和集成

大猫

本月创作热力图