语音 - AIGC宇宙

OpenAI向免费用户推出基于GPT-4o mini的高级语音模式

OpenAI官方宣布，向免费用户推出GPT4o mini驱动的高级语音模式，免费用户也可以每天使用ChatGPT高级语音模式。据了解免费用户使用 ChatGPT 高级语音模式会有每日使用限制，用户在剩余3分钟使用时间时会收到警告，达到限额后对话将自动结束。尽管如此，观察表示，ChatGPT Plus 用户可以使用基于 GPT-4o 的完整版高级语音模式，每日限额是免费版的5倍，可以继续在高级语音中使用视频和屏幕共享功能，另外ChatGPT Pro 用户不设每日限额，可享更高的视频和屏幕共享限制。

OpenAI免费开放ChatGPT高级语音聊天模式基于GPT-4o mini

2月26日，OpenAI公司在X平台发布推文，正式向广大用户宣布，即日起将免费开放ChatGPT的高级语音模式（Advanced Voice Mode）。据悉，ChatGPT的高级语音模式基于GPT-4o mini模型，通过优化计算效率，在性能方面已经能够媲美完整版的GPT-4o模型。目前，macOS以及Windows10、Windows11系统的ChatGPT桌面应用程序均已支持高级语音模式，提供了5种语音选择，并支持自定义提示和对话内容回顾功能。

国产AI之光！TeleAI星辰大模型入选央企十大国之重器评选

近日，国务院国资委新闻中心发起“十大国之重器”年度盘点，从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器，诚邀广大网友评选“年度十大国之重器”。由中电信人工智能科技有限公司和中国电信人工智能研究院（TeleAI）打造的“全国产化万亿参数星辰大模型发布”光荣入选，成为国产AI的佼佼者，展现了中国电信在人工智能领域的领先地位。星辰大模型，开启国产AI新时代星辰大模型，是由中国电信自主研发打造的全国产化万亿参数大模型，是国内AI技术的重大突破。

ChatGPT 高级语音模式主创“自立门户”：新公司估值达 2 亿美元，打造有情感的 AI 语音交互

前 OpenAI 研究员 Alexis Conneau 最新创立 WaveForms AI，目前已获 a16z 4000 万美元种子轮融资，剑指音频 AI 交互领域。

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式

科技媒体 testingcatalog 昨日（9 月 18 日）发布博文，报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式，甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道，OpenAI 公司已更新高级语音模式 FAQ 页面，在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串，

OpenAI ChatGPT 被曝将新增 8 种新语音：更自然表达狗叫等动物声音

科技媒体 testingcatalog 昨日（9 月 2 日）发布博文，报道称通过逆向工程 ChatGPT 应用，发现 OpenAI 即将扩充添加语音，让朗读的声音更加自然和富有表现力。有迹象表明 OpenAI 未来可能会额外推出 8 种新的语音，每种语音都有一个独特的代号，后续可能会逐步推出。这些新声音的另一个有趣特点是，它们能够更自然地表达声音，如动物叫声或其他非语言声音。此外，在朗读加粗或斜体的文字时，它们还能传达或强调特定的情绪。不过，重要的是要记住，这些仍然是 TTS（文本到语音）语音，很可能与目前处于

OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式，可提供更自然实时对话

当地时间 30 日，OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式（AI在线注：Alpha 版本），并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。今年 5 月，OpenAI 首席技术官米拉・穆拉蒂（Mira Murati）在演讲中提到：在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们在探索该模型的功能及其局限性方面仍处

开启无缝 AI 语音聊天，OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式

感谢OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）今天回复网友提问，表示将于下周面向 ChatGPT Plus 用户，开放 Alpha 版本 GPT-4o 的语音模式（Voice Mode），实现无缝聊天。AI在线今年 5 月报道，OpenAI 首席技术官穆里・穆拉蒂（Muri Murati）在演讲中表示：在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们在探索该模型的

OpenAI 推迟发布 ChatGPT 语音助手功能，检测及拒绝部分内容的能力仍待加强

感谢北京时间今天清晨，OpenAI 在 X（推特）上发文宣布，备受期待的 ChatGPT 语音助手功能将被推迟发布，因为公司需要确保它能够“安全有效地”处理来自数百万用户的请求。IT之家附通知大意如下：我们想分享春季更新中演示过的先进语音模式的最新进展，对此我们仍然非常兴奋：我们原计划在 6 月下旬开始向一小部分 ChatGPT Plus 用户推出测试版，但还需要一个月的时间才能达到启动标准。例如，我们正在提高该模型检测和拒绝某些内容的能力。我们还在努力改善用户体验，并准备基础设施，以便在保持实时响应的同时扩展到数

生成式 AI“上车”，大众高尔夫、途观、帕萨特等海外版车型现已支持 ChatGPT

当地时间 21 日，大众汽车宣布配备新一代信息娱乐系统的车型现已加入对 ChatGPT 的支持。在欧洲地区，引入 ChatGPT 的车型包括纯电动 ID.系列、新款高尔夫、新款途观、新款帕萨特，用户可通过车辆内置 IDA 语音助手访问 ChatGPT。据介绍，AI“上车”之后带来的体验远远超出以往，用户可以要求汽车直接读出搜索结果，或使用自然语言与汽车进行交互。例如，接入 ChatGPT 的车机可以提供旅游景点信息、报道过去的足球比赛或帮助解决数学问题。驾驶员只需用自然语言与助手交谈，无需将视线从道路上移开。与现有

语音克隆技术引发担忧，OpenAI 再次解释其文本转语音工具

OpenAI 在几个月内第二次就其文本转语音工具进行解释，并再次强调该工具目前并未大范围开放，且未来也可能不会。图源 Pexels“无论我们最终是否会大规模部署这项技术，让世界各地的人们理解这项技术的发展方向都非常重要，”OpenAI 公司周五在其网站上发布的一份声明中表示，“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育，以及我们如何围绕该技术实施安全措施的原因。”据IT之家了解，去年年底，OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑，即可

声音太像斯嘉丽・约翰逊，OpenAI 停用 ChatGPT 语音选项“Sky”

感谢OpenAI 宣布将暂停供聊天机器人 ChatGPT 语音功能使用的“Sky” 语音，起因是用户指出该声音与演员斯嘉丽・约翰逊 (Scarlett Johansson) 的声音十分相似。IT之家注意到，OpenAI 在一篇博客文章中表示，“Sky”只是五个可用语音之一，其来源为某位女演员，但并非刻意模仿斯嘉丽・约翰逊。斯嘉丽・约翰逊曾出演电影《Her》，片中饰演让男主角坠入爱河的虚拟助手系统。5 月 14 日 OpenAI 发布了新的 GPT-4o 模型，GPT-4o 可以理解用户的语音提问并用语音进行回答。

OpenAI 发布全新旗舰生成式 AI 模型 GPT-4o：语音对话更流畅，免费提供

感谢OpenAI 宣布推出其最新旗舰生成式 AI 模型 GPT-4o，该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。最让人惊喜的是，GPT-4o 将免费提供给所有用户使用。综合 TechCrunch 等外媒报道，OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示，GPT-4o 将提供与 GPT-4 同等水平的智能，但在文本、图像以及语音处理方面均取得了进一步提升。“GPT-4o 可以综合利用语音、文本和视觉信息进行推理，”穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。G

OpenAI GPT 搜索引擎原型曝光：新模型 GPT4-Lite 驱动，虽然鸽了发布会但代码已上传

OpenAI 发布会前一天，员工集体发疯中…… 上演大型套娃行为艺术。A：我为 B 的兴奋感到兴奋；B：我为 C 的兴奋感到兴奋……Z：我为这些升级感到兴奋与此同时还有小动作不断，比如现在 GPT-4 的文字描述已不再是“最先进的模型”，而仅仅是“先进的”。以及被鸽掉的 GPT 搜索引擎，原型代码上传到 ChatGPT 了。黑客“光头哥”Tibor Blaho，从更新的前端代码中扒出 SearchGPT 的界面。从泄露的界面来看，SearchGPT 会出现在侧边栏，与其他 GPTs 一起。首页目前还很简洁，像谷歌一

语音