June 20 AI 日报
1️⃣ ManusAI 正式登陆 Microsoft Store
ManusAI 宣布其 AI 通用代理现已在 Microsoft Store 上线,支持 Windows 用户下载。该应用旨在通过 AI 技术提升生产力,提供智能自动化和强大的任务管理功能。
用户可以直接从 Microsoft Store 下载 ManusAI,体验其在 Windows 平台上的无缝集成和高效使用。
🔗 推文:https://x.com/manusai_hq/status/1935736663705362673?s=46
2️⃣ Codex 引入 Post-Setup Snapshotting 功能
Codex 在 ChatGPT 中推出了“Post-Setup Snapshotting”功能,能够在任务开始时复用容器状态,减少设置时间,提高任务执行效率。这一功能允许在执行设置脚本后保存容器状态,供后续任务使用,从而加速任务启动过程。
用户反馈表示,这一功能解决了之前需要重复设置环境的问题,尤其适合复杂任务的快速迭代。
🔗 推文:https://x.com/btibor91/status/1935743705157451918?s=46
3️⃣ Google DeepMind 展示 Gemini Computer 原型
Google DeepMind 展示了“Gemini Computer”原型,使用 Gemini 2.5 Flash-Lite 动态生成基于上下文的用户界面。这一原型展示了 AI 在实时生成 UI 方面的潜力,为未来软件交互方式提供了新的思路。
视频中,用户可以通过简单指令生成定制化的界面,涵盖从文件夹到完整应用的多种场景。
🔗 推文:https://x.com/googledeepmind/status/1935719933075177764?s=46
4️⃣ ManusAI Scheduled Tasks 自动化 EV 行业简报
ManusAI 的 Scheduled Tasks 功能能够自动生成每日 EV 行业简报,汇总过去 24 小时内的主要新闻,分类整理并生成结构化的报告。这一功能大大减少了用户手动搜集信息的时间和精力,提高了工作效率。
用户只需设置一次任务,即可每天自动接收简报,无需额外干预。
🔗 推文:https://x.com/manusai_hq/status/1935710173815030112?s=46
5️⃣ Kyutai Labs 发布开源语音识别模型
Kyutai Labs 发布了开源的语音识别模型,支持流式处理、批量推理,并针对交互式应用进行了优化。该模型能够实时转录和理解语音,支持多语言,并具有低延迟的特点。
该模型在性能上超过了 Whisper Large v3,即使在处理复杂场景时也能保持高效。
🔗 推文:https://x.com/kyutai_labs/status/1935652243119788111?s=46
6️⃣ MiniMax 推出 Hailuo Video Agent 测试版
MiniMax 发布了 Hailuo Video Agent 的测试版,支持零接触视频制作,用户只需选择创意代理风格、输入想法即可生成精致视频。这一功能旨在帮助用户快速创建社交媒体内容,简化了视频制作流程。
未来,MiniMax 计划逐步推出更高级的功能,允许用户对视频进行更细致的自定义。
🔗 推文:https://x.com/minimax__ai/status/1935934152773451838?s=46
7️⃣ HeyGen 推出产品放置功能
HeyGen 推出了产品放置功能,允许用户上传产品照片、选择虚拟人物并添加脚本,生成吸引眼球的 UGC 广告。这一功能利用 Avatar IV 的超真实手势和唇同步技术,无需录音棚、演员或编辑即可制作高质量广告。
用户可以轻松上传产品图片,选择合适的虚拟人物,输入广告脚本,即可生成专业级别的广告视频。
🔗 推文:https://x.com/heygen_official/status/1935702900195619312?s=46
今日 GitHub 热门项目
vLLM
vLLM 是一个高效的语言模型库,旨在优化大型语言模型的推理性能和内存使用。该项目提供了易于使用的 API 和工具,支持多种模型架构和硬件平台。
vLLM 的设计重点在于提高模型的运行效率,特别适合于资源受限的环境下的大规模部署。
🔗 GitHub:https://github.com/vllm-project/vllm