June 8 AI 日报

Jun 08, 2025

1️⃣ OpenAI 更新 ChatGPT 的 Advanced Voice 功能，使其更自然和无缝

OpenAI 宣布更新了 ChatGPT 的 Advanced Voice 功能，旨在使与 AI 的对话更加自然和无缝。该功能现已向所有付费用户开放。此外，该更新还提升了翻译功能，能够在多个回合中持续翻译，直到用户停止。

用户反馈显示，该更新在英语对话中表现出色，但部分用户对非英语语言（如丹麦语）的口音和语调表示不满。一些用户还指出新版本的语音功能在表达力和自由度上有所限制，引发了关于平衡自然性和审查的讨论。

🔗 推文：https://x.com/OpenAI/status/1931446297665695773

2️⃣ Google 发布 Veo 3 FAST 模型，支持音频且成本更低

Google 推出了新的 Veo 3 FAST 模型，该模型支持音频生成，并且成本仅为现有模型的六分之一。该模型可以通过 Google Flow 的 PRO 计划访问。

这一模型的发布尚未得到 Google 官方正式宣布，但已在社区中引发热烈讨论。用户期待利用其低成本和高效率生成高质量视频内容，特别是在创意和商业领域。

🔗 推文：https://x.com/Prashant_1722/status/1931420216254513578

3️⃣ Google Labs 推出 Sparkify 实验，利用 Veo 3 和 Gemini 模型生成 2 分钟信息视频

Google Labs 推出了一个名为 Sparkify 的实验性工具，该工具结合 Veo 3 和 Gemini 模型，能够根据用户选择的主题生成 2 分钟长的信息视频。目前该工具仍处于等待名单阶段。

Sparkify 支持横向和纵向视频格式，适用于 YouTube Shorts 等平台。用户对其生成长视频的能力表示惊讶，认为这标志着 AI 视频生成技术的重大进步。

🔗 推文：https://x.com/testingcatalog/status/1931436999967191298

4️⃣ Gemini 2.5 Pro 通过 NanoBrowser 扩展实现浏览器任务自动化

Paul Couvert 展示了如何使用 Gemini 2.5 Pro 和免费开源的 NanoBrowser 扩展来自动化浏览器任务。该扩展允许用户使用自然语言指令来执行任务，无需连接 API 或泄露凭证。

NanoBrowser 利用用户现有浏览器会话，支持在 HuggingFace 搜索模型或在 X 平台点赞等操作。其开源性质和模型无关性使其成为开发者自动化工作流的理想选择。

🔗 推文：https://x.com/itsPaulAi/status/1931443119439888731

5️⃣ Figure Robotics 的 Helix 神经网络驱动人形机器人完成 60 分钟物流工作

Figure Robotics 展示了其 Helix 神经网络驱动的人形机器人，能够连续 60 分钟进行物流工作。该机器人能够处理各种类型的包裹，并在速度、准确性和适应性行为方面取得改进。

通过增加训练数据，Helix 的包裹处理时间从 6.3 秒降至 4.3 秒，条形码扫描准确率从 88% 提升至约 95%。机器人还能在失误后重新规划任务，显示出神经网络的强大适应能力。

🔗 推文：https://x.com/Figure_robot/status/1931391490967928936

6️⃣ OpenAudio S1：终极 AI 配音演员

OpenAudio S1 将于 2025 年 6 月 3 日发布，提供情感细腻、多说话者支持和真实感声纹克隆功能。该模型支持 11 种语言，延迟低于 100 毫秒，适用于各种创意和专业用途。

OpenAudio S1 可用于短片配音、多语言教学和企业自动化通信等场景。用户对其情感表达能力和多场景应用的潜力表示兴奋，期待其在内容创作中的表现。

🔗 推文：https://x.com/AIBuzzNews/status/1931653151309889744

今日GitHub 热门AI项目

Note-gen

一个跨平台的 Markdown 笔记应用，专注于使用 AI 连接记录和写作，将碎片化的知识组织成可读的笔记。支持多种记录方式，包括插图记录、文件记录、链接记录等，并提供 AI 对话和剪贴板识别功能。

🔗 Github链接：https://github.com/codexu/note-gen

DT News