June 8 AI 日报
1️⃣ OpenAI 更新 ChatGPT 的 Advanced Voice 功能,使其更自然和无缝
OpenAI 宣布更新了 ChatGPT 的 Advanced Voice 功能,旨在使与 AI 的对话更加自然和无缝。该功能现已向所有付费用户开放。此外,该更新还提升了翻译功能,能够在多个回合中持续翻译,直到用户停止。
用户反馈显示,该更新在英语对话中表现出色,但部分用户对非英语语言(如丹麦语)的口音和语调表示不满。一些用户还指出新版本的语音功能在表达力和自由度上有所限制,引发了关于平衡自然性和审查的讨论。
🔗 推文:https://x.com/OpenAI/status/1931446297665695773
2️⃣ Google 发布 Veo 3 FAST 模型,支持音频且成本更低
Google 推出了新的 Veo 3 FAST 模型,该模型支持音频生成,并且成本仅为现有模型的六分之一。该模型可以通过 Google Flow 的 PRO 计划访问。
这一模型的发布尚未得到 Google 官方正式宣布,但已在社区中引发热烈讨论。用户期待利用其低成本和高效率生成高质量视频内容,特别是在创意和商业领域。
🔗 推文:https://x.com/Prashant_1722/status/1931420216254513578
3️⃣ Google Labs 推出 Sparkify 实验,利用 Veo 3 和 Gemini 模型生成 2 分钟信息视频
Google Labs 推出了一个名为 Sparkify 的实验性工具,该工具结合 Veo 3 和 Gemini 模型,能够根据用户选择的主题生成 2 分钟长的信息视频。目前该工具仍处于等待名单阶段。
Sparkify 支持横向和纵向视频格式,适用于 YouTube Shorts 等平台。用户对其生成长视频的能力表示惊讶,认为这标志着 AI 视频生成技术的重大进步。
🔗 推文:https://x.com/testingcatalog/status/1931436999967191298
4️⃣ Gemini 2.5 Pro 通过 NanoBrowser 扩展实现浏览器任务自动化
Paul Couvert 展示了如何使用 Gemini 2.5 Pro 和免费开源的 NanoBrowser 扩展来自动化浏览器任务。该扩展允许用户使用自然语言指令来执行任务,无需连接 API 或泄露凭证。
NanoBrowser 利用用户现有浏览器会话,支持在 HuggingFace 搜索模型或在 X 平台点赞等操作。其开源性质和模型无关性使其成为开发者自动化工作流的理想选择。
🔗 推文:https://x.com/itsPaulAi/status/1931443119439888731
5️⃣ Figure Robotics 的 Helix 神经网络驱动人形机器人完成 60 分钟物流工作
Figure Robotics 展示了其 Helix 神经网络驱动的人形机器人,能够连续 60 分钟进行物流工作。该机器人能够处理各种类型的包裹,并在速度、准确性和适应性行为方面取得改进。
通过增加训练数据,Helix 的包裹处理时间从 6.3 秒降至 4.3 秒,条形码扫描准确率从 88% 提升至约 95%。机器人还能在失误后重新规划任务,显示出神经网络的强大适应能力。
🔗 推文:https://x.com/Figure_robot/status/1931391490967928936
6️⃣ OpenAudio S1:终极 AI 配音演员
OpenAudio S1 将于 2025 年 6 月 3 日发布,提供情感细腻、多说话者支持和真实感声纹克隆功能。该模型支持 11 种语言,延迟低于 100 毫秒,适用于各种创意和专业用途。
OpenAudio S1 可用于短片配音、多语言教学和企业自动化通信等场景。用户对其情感表达能力和多场景应用的潜力表示兴奋,期待其在内容创作中的表现。
🔗 推文:https://x.com/AIBuzzNews/status/1931653151309889744
今日GitHub 热门AI项目
Note-gen
一个跨平台的 Markdown 笔记应用,专注于使用 AI 连接记录和写作,将碎片化的知识组织成可读的笔记。支持多种记录方式,包括插图记录、文件记录、链接记录等,并提供 AI 对话和剪贴板识别功能。
🔗 Github链接:https://github.com/codexu/note-gen