May 28 AI 日报

May 28, 2025

1️⃣ Google 发布全面的 Prompt Engineering 指南

Google 发布了一份详细的 Prompt Engineering 指南，旨在简化与大型语言模型（LLM）的交互过程。

该指南涵盖了 LLM 输出配置、各种提示技术（包括零样本、单样本和少样本提示）以及高级方法如 Chain of Thought（CoT）和 Tree of Thoughts（ToT）。此外，它还包括控制 LLM 行为的最佳实践和生成结构化响应的方法。

2️⃣ Anthropic 将 Web 搜索功能扩展到免费计划用户

Anthropic 宣布，Claude 的 Web 搜索功能现在对所有免费计划用户可用。

这一功能最初是为美国的付费计划用户推出的，允许 Claude 搜索网络并提供带有内联引用的响应。将这一功能扩展到免费计划用户履行了 Anthropic 之前的承诺，使其更广泛可用。

3️⃣ Anthropic 为 Claude 推出语音模式 Beta 版

Anthropic 已开始在移动设备上推出 Claude 的语音模式功能，目前处于 Beta 阶段。

这一功能允许用户通过语音与 Claude 进行对话，询问其总结日历或搜索文档。语音模式最初仅支持英语，并计划在未来几周内扩展到所有计划，包括免费和付费计划。用户可以通过下载 Claude 移动应用来尝试这一功能。

4️⃣ ManusAI 引入直接文本编辑功能

ManusAI 推出了一项新功能，允许用户直接在其平台生成的网站上编辑文本。

这一更新使用户能够实时自定义文字，而无需为小改动重新开始。功能展示视频展示了一个旅行行程网站，用户可以在页面上直接修改文本。此外，Manus Pro 用户现在可以自定义其网站域名，从而增强其在线存在。

5️⃣ Superblocks 推出 Clark，专为构建内部企业应用的 AI 代理

Superblocks 推出了 Clark，一款专为构建内部企业应用的 AI 代理，由 6000 万美元资金支持。

Clark 被誉为第一款能够创建符合企业标准的生产就绪内部应用的 AI 代理，包括设计系统、与私有 API 和数据库的集成，以及审计日志和漏洞扫描等安全功能。

6️⃣ Google DeepMind 推出 SignGemma，用于手语翻译

Google DeepMind 宣布推出 SignGemma，一款旨在将手语翻译成口语文本的新模型，目的是使技术更具可访问性。

SignGemma 将于今年晚些时候作为开放模型加入 Gemma 模型家族，允许更广泛的使用和开发。

7️⃣ xAI 正在开发 Grok 的 Web 语音模式

xAI 目前正在为 Grok 的 Web 界面添加语音模式，允许用户使用语音命令与 AI 互动。

据 TestingCatalog News 报道，这一功能仍处于早期开发阶段，预计不会包括摄像头或屏幕共享功能。视频演示展示了 SuperGrok 的 Web 界面，突出了聊天窗口和设置面板，用户可以在此自定义 Grok 的个性并启用语音互动。

8️⃣ Tencent Hunyuan 推出 HunyuanVideo-Avatar，用于动画化照片

Tencent Hunyuan 与 Tencent Music 合作推出了 HunyuanVideo-Avatar，一款模型可通过生成逼真的演讲和歌唱动态视觉，将静态照片带入生活。

该模型能够自动检测场景上下文和情绪，支持多风格、多物种场景，并在多角色互动方面表现出色。它适用于短视频创作、电子商务和广告等应用，已在腾讯音乐娱乐集团的多个应用中部署。HunyuanVideo-Avatar 的单角色模式现已开源，可在 Hunyuan 网站上使用，多角色模式将很快开源。

9️⃣ Lazy 2.0 发布：AI 工具将过去知识带入现在

Ahmed Men 推出了 Lazy 2.0，一款 AI 增强型工具，旨在通过将用户的过去知识整合到当前工作流程中来提高生产力。

只需一个快捷键（Command + J），Lazy 2.0 即可让用户实时访问并利用其现有笔记、文档和对话，充当“思维伙伴”，即时呈现相关信息和联系。工具在各种场景中进行了演示，例如将新内容与现有笔记进行比较、回忆过去的讨论，并以用户的写作风格起草响应。

RD-Agent

Microsoft 的 RD-Agent 项目旨在通过 AI 自动化研发流程，重点关注数据和模型。它支持自动化构建数据驱动的 AI 解决方案，并在 MLE-bench 上表现出色，支持金融、医疗等多种场景。

DT News