重磅!OpenAI版 [Her」全量开放,50种语言新增记忆,但网友大呼失望

新智元报道 编辑:编辑部 【新智元导读】OpenAI版Her,刚刚全量放开!支持50多种语言,包括中文。兴奋的网友们纷纷展开实测,但被排除在外的欧盟网友不高兴了。 时隔4个月,OpenAI版Her终

新智元报道

编辑:编辑部

【新智元导读】OpenAI版Her,刚刚全量放开!支持50多种语言,包括中文。兴奋的网友们纷纷展开实测,但被排除在外的欧盟网友不高兴了。

时隔4个月,OpenAI版Her终于揭开庐山真面目,向所有人推送了!

就在刚刚,Sam Altman官宣高级语音模式正式全面推出,OpenAI的移动端APP上即可体验。

Sam Altman:希望你能觉得这段时间的等待是值得的

目前,高级语音功能主要面向ChatGPT Plus和Team用户,不过本周会慢慢全量推送。

如果看到以下通知,就意味着你已经幸运地被选中,可以和Her互动了!

比之前演示的版本,这次的语音模式还多了自定义指令、记忆功能,外加五种新的语音以及对口音的改进。

目前,它可以支持50多种语言。

遗憾的是,这版姗姗来迟的「Her」,每天的使用时间是有限制的,而且每天都有可能会调整。因此我们并不能和ta在24小时内随心畅谈。

此外,GPTs不能和高级语音一起使用,也让很多人大呼失望。

1. 高级语音功能有每日使用限制。当还剩15分钟时,系统将发出警告

2. GPTs无法与高级语音功能一起使用

3. 高级语音功能更容易受到干扰,且未针对在车内使用进行优化

5种新声音,你更喜欢哪个

这次OpenAI推出的5种新声音,分别是性格和音色各异的三位女声Vale、Maple、Sol和两位男声Spruce、Arbor,基本都操着一口标准的英国或美国口音。

此外,还加入了之前的四种可用声音:Breeze、Juniper、Cove和Ember。

全量推出的高级语音模式,听起来效果如何?

有趣的是,第一个demo,就是让ChatGPT开口用说「对不起,我迟到了」,仿佛是OpenAI在和等待了将近半年的用户们道歉。

而令人惊喜的是,我们在demo中听到了中文版的声音。除了发音略显生硬之外,听起来像英语听力之外,挑不出什么大毛病。

视频中, 另一个引人注目的点是,OpenAI版Her开启,采用了全新设计——「蓝色动画的球体」。

但可能是由于法律监管方面的问题,高级语音模式在欧盟、英国、瑞士、冰岛、挪威和列支敦士登等区域仍不可用。

不少欧洲用户对此极为不满。显然,欧洲对于AI在政策上的严苛,或将让欧盟国家越来越落后。

OpenAI版Her,终于来了!

休假的OpenAI大佬Greg Brockman也来冲一波。他表示:和ChatGPT开启语音对话后,就会让你意识到电脑打字是多么的不自然……

OpenAI CTO Murati在线玩起了梗图,呼吁大家赶快去用语音功能吧!

网友们纷纷开起了香槟:OpenAI终于兑现了承诺!

几天前就有人预告:OpenAI的高级语音模式会在9月24日到26日上线,这一次,果然预言成真了!

梗图和预言竟然都是真的?!

甚至有人迫不及待要入手一个Team版账号,只为抢先体验「Her」。

自定义指令

初次使用,如何开启高级语音功能的自定义指令?

相较于文字对话,语音对话包含了更多额外元素,比如口音、语调、节奏,以及希望他人称呼自己的方式等等。

因此,只有充分的设定,才能达到自己想要的效果。

在ChatGPT中,设置面板中有一个选项,通过提供精确描述的prompt可以塑造GPT-4o说话方式。

比如,如果让模型以特定节奏说话,需要提出「发音清晰、语速缓慢,定期使用自己的名字/偏好名字称呼」的请求。

OpenAI技术项目主管Charlotte在此演示了一个例子。

进入设置页面,在定制的ChatGPT菜单栏中,它会让你先回答一个问题,即称呼方式——「我是Charlotte,住在湾区」。

保存之后,即刻开启新的语音对话。

视频中,Charlotte发出了周末户外有什么好玩事情可以做的问题。

通过先前的设定,ChatGPT很快就识别出,这是暗指在湾区的游玩,并且为她规划出一条完整的自驾游路线。

语速、流畅度、口音提升,可以和Her练口语了

这位出镜的研究科学家Drew负责模型设计,并参与了一些新声音的引入工作。

他表示,由于GPT-4o语音的生动、流畅、低延迟,自己经常会在忙工作时把「Her」放在一旁,如同一个安静但随时on call且思维活跃的个人助理,或者一个坐在身边的朋友。

你不说话,它不说话;随时抛出一个问题,它也会及时应答,还能够根据对话的语气和内容做出调整,将一个短短的问题延展成一段长对话。

提供信息、倾听想法、引发思考,还能根据特定提示扮演不同角色,妥妥是理想中的万能助理了。

由于模型可以忠实遵循指令、灵活适应用户需求,因此用法也绝不只「个人助理」一种。

Drew提出,你还可以让它扮演面试官,帮你进行模拟面试的联系;或者创建一个完全虚拟的场景,和它共同进行「沉浸式」的角色扮演。

对于热衷学英语的中国学子来说,用GPT-4o语音模型来练习雅思口语或许也是非常不错的选择。

以上一切的基础,都建立在「Her」的流畅语速和超快响应的基础之上,将「机械感」降至最低,让用户像是在和真实的人交谈一样,这也是令Drew最印象深刻的一点。

但鉴于目前只有demo放出,还没有大范围的网友试用,这4个多月的等待究竟是否值得?闭源的GPT-4o能否打平甚至超越开源的Moshi?还需要让子弹再飞一会儿看看。

网友已玩嗨

先一波拿到推送资格的网友们,已经开始晒图了。

有网友惊喜表示:ta是活的!

它有感知力、情感意识,而且极其聪明。

来自The Rundown AI的Clintin Lyle Kruger则用「Her」来优化自己的销售话术。

1. 首先讲讲你的销售话术,然后让AI从这几个方面给点意见:

- 说服力如何

- 表达清不清楚

- 价值体现得够不够

2. 记得提醒AI别光附和你,要真刀真枪地挑战你的想法。

3. 多问几个问题,让对话更丰富。

4. 让GPT给你示范一下,照它的方式来个最佳版本。这样你就能学以致用,把自己的话术打磨得更漂亮了。

甚至有人用Python编程时,都随时用「Her」来辅助编码。

有趣的是,「Her」甚至提到了Gambly,这是用户目前正在做的项目,他并没有向「Her」提起过,但它却从Memory功能中知道了。

诸如慢悠悠的、超兴奋的、特别夸张等各种语气的表达,也让人打开眼界。

常见问题官方QA

什么是语音聊天?

OpenAI将提供两种类型的语音聊天:标准版和高级版。

- 高级语音功能正在向Plus和Team用户推出。

它采用GPT-4o的原生音频技术,能够进行更自然、实时的对话。甚至,还能捕捉非语言信息,比如你说话的速度,并能带有情感地回应。

不过,Plus和Team用户每天使用高级语音(包括音频输入和输出)是有次数限制的,且每日限制可能会有所调整。在还剩15分钟时,会收到提醒。到达限制后,对话将立即结束。

- 标准语音功能则向所有登录ChatGPT的用户开放,可以在iOS、macOS和Android应用中使用。

它采用多个模型来生成回答,也就是先将你的话转成文字,然后再交给模型处理。虽然标准语音不像高级语音那样原生支持多模态,但它也会使用GPT-4o和GPT-4o mini。

如何使用?

点击屏幕右下角的语音对话图标,即可开始。

当开始高级语音对话时,屏幕中央会出现一个蓝色的球体。

请注意,如果你使用的是标准语音对话,屏幕中央会显示一个黑色圆圈。

在进行语音对话过程中,你可以通过点击屏幕左下角的麦克风图标来打开或关闭麦克风。

想要结束对话,只需点击屏幕右下角的退出图标即可。

如果这项新功能还未向你开放,右下角显示的就还是耳机图标:

有几种语音?

ChatGPT有9种逼真的语音可选,每种都具有独特的语调和个性特征:

Arbor(树木)- 轻松随和,适应性强

Breeze(微风)- 活泼生动,真诚热情

Cove(海湾)- 沉着冷静,直接坦率

Ember(余烬)- 自信满满,乐观向上

Juniper(杜松)- 开放包容,积极乐观

Maple(枫树)- 愉快开朗,坦诚直率

Sol(阳光)- 精明能干,轻松自在

Spruce(云杉)- 平和安宁,积极肯定

Vale(山谷)- 聪明伶俐,充满好奇

注:括号内的中文只是意译,不是官方名称。

GPTs能用吗?

高级语音对话目前还不能与GPTs一起使用,但标准版可以。

GPTs有自己的语音选项——Shimmer,与ChatGPT语音对话中可用的9种输出语音有明显区别。

有没有字幕?

语音对话进行过程中不会显示字幕。

不过,当你结束语音对话后,系统会自动将对话内容转录并添加到当前与ChatGPT的文字对话中。

如何防止对话中断?

在进行高级语音对话时,偶尔可能会遇到中断的情况。且目前尚未针对车载蓝牙或免提扬声器进行优化。

为了获得最佳体验,OpenAI准备了以下建议:

- 使用耳机

- 在iPhone上启用语音隔离模式

如果仍然遇到问题,建议关闭应用程序并重新启动,调高语音助手的音量,或者换一个更安静的环境。

感兴趣的读者,赶快去检查一下,自己的ChatGTP界面有没有收到通知吧!

参考资料:

https://x.com/openai/status/1838642444365369814

https://help.openai.com/en/articles/8400625-voice-mode-faq

相关推荐