May 24 AI 日报

May 24, 2025

1️⃣ ChatGPT 图片现在可以说话

ChatGPT推出了一项创新功能，允许用户通过Arcads平台将静态图像转化为会说话的头像，带有声音、情感和精确的脚本同步

2️⃣ 开源 AI Agent 发布，支持多任务处理

Shubham Saboo发布了一个开源AI Agent，声称其能像人类一样思考、编码、推理和浏览，性能优于其他框架如Manus AI和OpenAI Deep Research。

该代理支持研究、内容生成、数据分析、软件开发和流程自动化，基于Anthropic的Claude模型，提供命令行和网页接口。其核心架构采用大型语言模型（LLM）交互、动态上下文提示和迁移学习等技术。

3️⃣ WheeAI 推出，30 秒内从文本创建海报

WheeAI是一款新推出的AI设计工具，可在30秒内根据文本提示生成专业级海报，无需用户具备设计技能。

其功能包括背景移除、图像增强和即将推出的图层编辑，号称比Canva更快、比Photoshop更简单。

4️⃣ OpenAI 更新 ChatGPT Operator，使用 o3 推理模型

OpenAI宣布更新ChatGPT的Operator功能，集成了最新的o3推理模型。

提升了浏览器交互的持久性和准确性，任务成功率显著提高。响应内容更加清晰、全面且结构化。

5️⃣ Google AI Studio 成为免费的 Cursor 替代品

Google AI Studio现支持用户在浏览器中通过Google账户直接构建带有AI功能的应用，作为Cursor的免费替代品。

用户可通过“构建”选项卡使用Gemini模型生成文本或Imagen生成图像，自动处理API密钥。

6️⃣ Cua 发布，计算机使用代理的 Docker

由@trycua团队推出的Cua被誉为“计算机使用代理的Docker”，是一个开源框架，允许AI代理在轻量级虚拟容器中控制完整操作系统，支持任意语言模型。

其功能包括桌面任务自动化、即时部署和本地/云端运行，采用按需付费模式。

7️⃣ Google DeepMind 推出 Gemma 3n，多模态移动设备 AI 模型

Google DeepMind发布了Gemma 3n，一款专为移动设备设计的多模态AI模型，内存占用减少近3倍，适合在手机上运行复杂应用或云端直播。

其功能包括从音频、图像、视频和文本生成智能文本，支持实时语音、翻译和语音命令等应用。

8️⃣ Anthropic 和 Rick Rubin 发布《代码之道》

Anthropic 和 Rick Rubin 合作发布了《代码之道》，一本基于老子《道德经》的哲学书籍，将道家思想应用于编码，倡导“氛围编码”理念，强调直觉与创造力。

书籍包含81章，用户可通过Claude模型阅读和修改艺术内容。

Qlib

Qlib 是一个由 Microsoft 开发的开源量化投资平台，旨在利用 AI 技术实现潜力、赋能研究并创造价值。它支持多种机器学习建模范式，包括监督学习、市场动态建模和强化学习。Qlib 提供从数据处理到模型训练和回测的全面工作流，帮助用户构建、测试和评估量化投资策略。

DT News