May 24 AI 日报
1️⃣ ChatGPT 图片现在可以说话
ChatGPT推出了一项创新功能,允许用户通过Arcads平台将静态图像转化为会说话的头像,带有声音、情感和精确的脚本同步
🔗 X 帖子
2️⃣ 开源 AI Agent 发布,支持多任务处理
Shubham Saboo发布了一个开源AI Agent,声称其能像人类一样思考、编码、推理和浏览,性能优于其他框架如Manus AI和OpenAI Deep Research。
该代理支持研究、内容生成、数据分析、软件开发和流程自动化,基于Anthropic的Claude模型,提供命令行和网页接口。其核心架构采用大型语言模型(LLM)交互、动态上下文提示和迁移学习等技术。
🔗 X 帖子
3️⃣ WheeAI 推出,30 秒内从文本创建海报
WheeAI是一款新推出的AI设计工具,可在30秒内根据文本提示生成专业级海报,无需用户具备设计技能。
其功能包括背景移除、图像增强和即将推出的图层编辑,号称比Canva更快、比Photoshop更简单。
🔗 X 帖子
4️⃣ OpenAI 更新 ChatGPT Operator,使用 o3 推理模型
OpenAI宣布更新ChatGPT的Operator功能,集成了最新的o3推理模型。
提升了浏览器交互的持久性和准确性,任务成功率显著提高。响应内容更加清晰、全面且结构化。
🔗 X 帖子
5️⃣ Google AI Studio 成为免费的 Cursor 替代品
Google AI Studio现支持用户在浏览器中通过Google账户直接构建带有AI功能的应用,作为Cursor的免费替代品。
用户可通过“构建”选项卡使用Gemini模型生成文本或Imagen生成图像,自动处理API密钥。
🔗 X 帖子
6️⃣ Cua 发布,计算机使用代理的 Docker
由@trycua团队推出的Cua被誉为“计算机使用代理的Docker”,是一个开源框架,允许AI代理在轻量级虚拟容器中控制完整操作系统,支持任意语言模型。
其功能包括桌面任务自动化、即时部署和本地/云端运行,采用按需付费模式。
🔗 X 帖子
7️⃣ Google DeepMind 推出 Gemma 3n,多模态移动设备 AI 模型
Google DeepMind发布了Gemma 3n,一款专为移动设备设计的多模态AI模型,内存占用减少近3倍,适合在手机上运行复杂应用或云端直播。
其功能包括从音频、图像、视频和文本生成智能文本,支持实时语音、翻译和语音命令等应用。
🔗 X 帖子
8️⃣ Anthropic 和 Rick Rubin 发布《代码之道》
Anthropic 和 Rick Rubin 合作发布了《代码之道》,一本基于老子《道德经》的哲学书籍,将道家思想应用于编码,倡导“氛围编码”理念,强调直觉与创造力。
书籍包含81章,用户可通过Claude模型阅读和修改艺术内容。
🔗 X 帖子
来自 GitHub 的热门 AI 项目
Qlib
Qlib 是一个由 Microsoft 开发的开源量化投资平台,旨在利用 AI 技术实现潜力、赋能研究并创造价值。它支持多种机器学习建模范式,包括监督学习、市场动态建模和强化学习。Qlib 提供从数据处理到模型训练和回测的全面工作流,帮助用户构建、测试和评估量化投资策略。