速递|OpenAI 推出 ChatGPT 高级语音模式,Plus 用户率先体验 GPT-4o 超逼真语音交互

0 评论 1841 浏览 3 收藏 3 分钟
零基础想转行产品经理?别担心!我们的实战营专为转行者设计,提供体系化课程和项目实战,帮你弥补经验短板,成功实现职业转型,拿到心仪offer。

7月30日,OpenAI推出了ChatGPT的高级语音模式,为用户带来了前所未有的GPT-4o超逼真语音交互体验。

7 月 30 日,OpenAI 推出了 ChatGPT 高级语音模式,用户首次能够体验 GPT-4o 超逼真语音交互。目前,Alpha 版本面向于小部分 ChatGPT Plus 用户,秋季之后将逐步推广至所有 Plus 用户。

OpenAI 表示,春季更新期间演示的视频和屏幕共享功能并不包括在 Alpha 版本在内,而是在后面推出。

ChatGPT 高级语音模式不同于此前的语音模式,原有的音频解决方案使用了三个独立的模型:一个用于将用户的语音转换为文本,然后由 GPT-4 处理 Prompt,然后由第三个模型将 ChatGPT 生成的文本转化为语音。

GPT-4o 是一个多模态模型,能够在没有其他模型辅助的情况下处理这些任务,因为在体验上将显著降低对话的延迟。

OpenAI 还透露,GPT-4o 可以感知用户声音中的情绪语调,包括悲伤、兴奋或者唱歌;目前,Alpha 组的用户将在 ChatGPT 中收到提醒,并将收到一封邮件介绍如何使用。

据悉,高级语音模式种的预设声音将仅限 Juniper、Breeze、Cove 以及 Ember,这些都是与付费配音演员合作制作的,而 5 月份演示的 Sky 声音将不再可用。

OpenAI 发言人 Lindsay McCallum 表示,ChatGPT 目前还无法模仿其他人的声音,无论是个人还是公众人物,并且会屏蔽与这四种预设声音不同的输出。

此外,OpenAI 引入了新的过滤方式来避免模型生成受版权保护的音频,从而造成法律纠纷。

自发布 Demo 以来,OpenAI 已经与 100 多名使用 45 种不同语言的外部红队成员一起测试了 GPT-4o 语音功能,相关的安全措施报告将在 8 月初发布。

本文由人人都是产品经理作者【江天 Tim】,微信公众号:【有新Newin】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
17767人已学习16篇文章
ERP是一种以系统化的方式,将企业内部所有的业务流程和数据进行整合和管理的软件系统。本专题的文章分享了ERP系统设计指南。
专题
20392人已学习13篇文章
本专题的文章分享了TO G产品的入门指南,包括什么是G端产品、产品的特点...
专题
16028人已学习11篇文章
采用IPD开发流程,在初期能把各种工作问题识别出来并扼杀在摇篮中。本专题的文章分享了什么是IPD开发流程?如何应用IPD开发流程?
专题
13791人已学习11篇文章
本专题的文章以To G领域为例,从产品经理的角度,分享TO G产品设计指南。
专题
15358人已学习13篇文章
在产品的运营过程中,无论是产品、运营还是市场团队,都希望能清晰地了解用户的行为路径,通过用户行为分析,优化用户体验,实现更精准的运营和营销。
专题
20004人已学习13篇文章
什么是中台?为什么要建中台?中台建设的切入点在哪?本专题的文章将提供这些问题的解答。