June 26 AI 日报
1️⃣ Google 发布 Gemini CLI:开源 AI 代理,免费预览中
Google 今日宣布推出 Gemini CLI,一款基于 Gemini 2.5 Pro 的开源 AI 代理工具,旨在帮助开发者在终端中直接使用 AI 能力。该工具支持复杂编码、内容创建、问题解决和深入研究等任务,目前处于预览阶段,免费使用,无使用限制。
Gemini CLI 提供轻量级的 Gemini 访问方式,直接从提示到模型的路径最短。它不仅擅长编码,还可以作为多功能本地工具,用于内容生成、问题解决、深入研究和任务管理。Google 表示,该工具将为开发者带来全新的命令行体验,支持自然语言提示编写和调试代码。
🔗 推文:Google Gemini CLI 发布
2️⃣ Anthropic 推出 Claude 新功能:专属创作空间和 AI 嵌入
Anthropic 今日宣布为 Claude 推出两个新功能:一个专属的创作空间,用于构建、托管和分享工件;另一个是将 AI 能力直接嵌入到创作中,允许创建完全功能的 AI 驱动应用。该工具旨在帮助开发者和创作者更高效地使用 AI 技术。
创作空间允许用户浏览精选的示例,fork 任何工件以满足自己的需求,并将所有项目组织在一个地方。对于 AI 驱动应用,当分享时,查看者需要使用自己的 Claude 账户认证,因此使用费用计入他们的订阅,而不是创建者的。
🔗 推文:Anthropic Claude 新功能
3️⃣ Google DeepMind 发布 AlphaGenome:AI 模型助力科学家理解 DNA
Google DeepMind 今日发布 AlphaGenome,一款 AI 模型,旨在帮助科学家更好地理解 DNA——生命的指令手册。研究人员现在可以快速预测遗传变化的影响,助力生成新的假设并推动生物学发现。
AlphaGenome 是迄今为止最全面且准确的 DNA 序列模型,能够分析一百万个 DNA 字母并预测变异或突变的影响,可能导致新的治疗方法开发和对生命分子基础的更深入理解。该模型目前通过 API 提供预览版。
🔗 推文:Google DeepMind AlphaGenome
4️⃣ ManusAI 推出 Scheduled Task:单一提示生成重复工作流
ManusAI 今日展示其 AI 工具的新功能 Scheduled Task,能够将单一提示转化为强大的、重复的工作流。该工具可以从无休止的手动搜索转变为每日洞察,Manus 自动跟踪 GitHub 的顶级贡献者,构建丰富的数字档案,并部署交互式 Web 应用。
该功能使用了 635 个信用点,通过每天在 5 点调度任务,Manus 会抓取 GitHub、LinkedIn 和其他来源的数据,编译并部署一个展示贡献者信息的交互式网站。
5️⃣ Microsoft 发布 Mu:Windows 设置的微型 AI 模型
Microsoft 今日发布 Mu,一款微型 AI 模型,专为 Windows 设置设计。该模型拥有 330 百万参数,在 Qualcomm 芯片上速度提升 4.7 倍,比 Phi-3.5-mini 小 10 倍,但性能相当。Mu 可以在 500 毫秒内响应,即使离线也能工作。
Mu 已经在 Windows 中可用,充当设置翻译器,允许用户使用自然语言命令调整设置,例如“调暗屏幕”或“使文本更易读”。该模型在 360 万个真实和合成的任务上训练,包括背景噪音或打字错误,因此能够完美处理杂乱的人类语言。
🔗 推文:Microsoft Mu 发布
6️⃣ Higgsfield AI 发布 Soul:高美学照片模型,50+ 精选预设
Higgsfield AI 今日发布 Soul,一款高美学照片模型,配备 50 多个精选预设,提供时尚级别的真实感。该模型的质量如此之高,以至于用户可能不再需要 iPhone 来拍照。
Soul 提供了多种风格的示例,包括 Y2K、big hands、nails check、bimbocore、gorpcore、Tokyo street style 等,展示了其在各种时尚和美学偏好上的 versatility 和 creativity。用户可以通过转发该推文获取完整指南,并通过 higgsfield.ai 尝试 Soul。
🔗 推文:Higgsfield Soul 发布
7️⃣ alphaXiv 推出 Paper2Blog:将研究论文转化为易懂的博客
alphaXiv 今日推出 Paper2Blog,一款工具,可以将任何研究论文(如 arXiv、bioRxiv、medRxiv 等)、课程材料或技术文档一键转化为视觉化、易于理解的博客。该工具通过点击按钮即可完成转换,提供快速理解、清晰解释、视觉表示和结构化高亮等功能。
Paper2Blog 使复杂的学术内容更易于公众理解。alphaXiv 还计划即将推出 Zotero 集成,进一步提升用户体验。
🔗 推文:alphaXiv Paper2Blog
8️⃣ ElevenLabs 发布 Voice Design v3:用提示语创建任何声音
ElevenLabs 今日发布 Voice Design v3,允许用户通过提示语创建任何他们能想象的声音。该版本重建了底层的 Voice Design 模型,以提供更高的质量和更广泛的表达范围。
Voice Design v3 支持 70 多种语言,支持数百种本地化口音,可以生成适合生产的语音。该工具提供了对角色语调和个性的更精细控制,包括语气、节奏、语调、年龄和性别。它与 Eleven v3 和 expressive [audio tags] 兼容,并提供了更高的音频质量。
🔗 推文:ElevenLabs Voice Design v3
来自 GitHub 的热门 AI 项目:Portkey-AI/gateway
AI Gateway 是一个快速的 AI 网关,集成了防护栏,支持路由到 1600+ 的语言、视觉、音频和图像模型。它是轻量级、开源且企业级的解决方案,具有低延迟(<1ms)、小占用空间(122kb),每天处理超过 100 亿个令牌。
该项目支持 250+ 个 LLM 和 50+ 个 AI 防护栏,通过一个快速友好的 API 访问。企业版提供安全密钥管理、简单语义缓存、访问控制、PII 脱敏、SOC2、ISO、HIPAA、GDPR 合规性和专业支持。
🔗 GitHub:Portkey-AI Gateway