OpenAI发布原生多模式 GPT4o:可读取文本、视觉效果和声音

OpenAI 在周一晚间展示了其最新的多模式机器学习模型 GPT-4o。

OpenAI 首席技术官 Mira Murati 在演示中如此说道:

“今天的重大新闻,是我们即将推出新的旗舰型号,我们将其称为 GPT-4o。GPT-4o 的特别之处在于,它为每个人带来了 GPT-4 级别的智能,包括我们的免费用户。”

这家AI超级实验室还推出了适用于 macOS 的桌面应用程序(今天可供 Plus 用户使用,未来几周内可供其他用户使用),以及 ChatGPT 的 Web 用户界面更新。

正如很多人预言的那样,没有任何关于人工智能搜索引擎的消息。

关于 GPT-4o

GPT-4o 中的“o”代表“omni”,指的是该模型接受视觉、音频与文本输入,并从用户的任何模式生成输出的能力。包括提示或请求,在视觉上,OpenAI 指的是视频与静态图片。

GPT4o 在处理英文和代码文本时与 GPT Turbo 一样快,可以在短短 232 毫秒内响应音频输入,“平均为 320 毫秒,这与人类对话中的响应时间相似。”响应时间的减少是因为与其他 ChatGPT 版本不同,所有输入和输出均由同一神经网络处理。

在以前的版本使用语音模式会出现延迟。这是由于 GPT-3.5 或 GPT-4 的语音管道涉及三种模型:一种用于转录,一种用于处理文本,一种用于将文本转换为音频。因此当数据在这些单独的模型之间流动时,会产生几秒钟的延迟。

GPT-4o将这些功能组合到一个模型中,因此它可以更快地响应,并且可以访问以前的版本无法在模型内传输中保存的信息,例如语气、多个扬声器和背景噪音。

但是出于安全考虑,并非该模型的所有功能都会立即可用。GPT-4o 的文本和图像功能可同时供免费版 ChatGPT 用户和付费 Plus 客户使用,他们的使用限额比以前高出 5 倍;团队和企业用户可以有更高的限额。

改进后的语音模式会在几周内进入 ChatGPT Plus 内的 alpha 测试。

使用 OpenAI 的 API 服务的开发者还能够访问 GPT-4o 的文本和视觉功能,据说速度比 GPT-4 Turbo 快 2 倍,价格降低一半,速率限制高 5 倍。

借助 API,音频和视频功能在未来几周内将仅限于一小部分ChatGPT的合作伙伴。

Murati 说:

“GPT-4o 在安全方面给我们带来了新的挑战,因为我们正在处理实时音频、实时视觉,我们的团队一直在努力研究如何减少滥用。”

OpenAI发布原生多模式 GPT-4o:可读取文本、视觉效果和声音-1

其中一个应对措施,在最开始时,口语音频输出将仅限于一组特定的声音,以便排除诸如声音冒充欺诈之类的情况。

GPT-4o的主要特性

  • 多式联运能力

    • 文本、音频和图像处理:GPT-4o 可以接受文本、音频和图像形式的输入,并生成这些格式的输出。这使其成为需要理解和生成多模式内容的任务的综合工具。

    • 实时音频响应:该模型可以在短短 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,紧密模仿人类对话速度。

  • 提高效率和成本效益

    • 更快、更便宜:GPT-4o 生成文本的速度是 GPT-4 Turbo 的2倍,并且价格便宜 50%,这使其成为开发人员和企业的经济高效的解决方案。

    • 高令牌压缩:新的分词器显着减少了各种语言所需的令牌数量,提高了处理效率。

  • 先进的视觉能力

    • 图像理解:GPT-4o 擅长解释图像、回答有关图像内容的问题以及理解图像中对象之间的关系。此功能对于医疗保健、零售和安全等领域的应用非常有用。

  • 多语言能力

    • 改进的非英语语言性能:该模型在理解和生成非英语语言文本方面显示出显著改进,使其成为全球应用程序的重要工具。

    GPT-4o的技术创新
    • 端到端训练:与之前针对不同模式使用单独管道的模型不同,GPT-4o 是跨文本、视觉和音频进行端到端训练的。这种集成方法允许模型保留更多上下文信息并提供更准确的输出。

    • 大型上下文窗口:GPT-4o 具有 128,000 个令牌的上下文窗口,可以处理广泛且复杂的输入,使其适合详细且冗长的任务。

    用户利益
    • 自然交互:处理和生成多模式内容的能力允许与人工智能进行更自然和直观的交互,从而增强用户体验。

    • 节省成本:该模型的效率和成本降低使其可供更广泛的用户使用,从个人开发人员到大型企业。

    • 多功能性:GPT-4o 精通多种语言和模式,使其成为适用于各种应用程序的多功能工具,包括客户服务、内容创建和数据分析。

    兼容性和集成
    • API 访问:GPT-4o 可通过 OpenAI API 获取,允许开发者将其功能无缝集成到他们的应用程序中。

    • 平台支持:该模型受各种平台支持,包括 OpenAI Playground 和 ChatGPT,使其易于实验和开发。