May 7 AI 日报
1️⃣ Agent2Agent协议与模型上下文协议对比
Daily Dose of Data Science分享了一篇清晰的对比文章,配有视觉图表,解释了Agent2Agent协议(用于AI代理间连接)和模型上下文协议(MCP,用于AI代理与工具/API连接)。两者均为开源且互补,而非竞争关系。
🔗 链接
2️⃣ Gemini 2.5 Pro更新:3D城市模拟
Paul Couvert (@itsPaulAi)展示了谷歌Gemini 2.5 Pro的重大更新,可通过单一提示生成包含交通、行人和昼夜循环的完整3D城市模拟。帖子突出其代码和UI生成能力,用户可通过Gemini App或Google AI Studio免费使用。
🔗 链接
3️⃣ ComfyUI推出原生API节点
ComfyUI公布了全新品牌形象和原生API节点,整合了11个在线视觉AI模型,包括Butterfly ML的Flux、Hailuo AI、MiniMax AI、Kling AI、Luma Labs、PixVerse、Recraft、Stability AI、Google Veo2、Ideogram AI和OpenAI GPT image-1。用户可链式使用API与开源模型和流程,无需高性能硬件。
🔗 链接
4️⃣ Gemini 2.5 Pro更新:增强编码能力
Google DeepMind发布了Gemini 2.5 Pro(I/O版)的更新,提升了编码能力,用户可通过单一提示构建更丰富的网页应用、游戏和模拟。该更新还支持将自然图像(如树木)转化为代表独特图案的代码,已集成于GeminiApp等平台。
🔗 链接
5️⃣ Grok推出提示文档格式
Grok宣布推出“提示文档格式”(PDF),用户只需描述需求即可生成简历、合同或菜单等文档。该功能目前为桌面版beta,可通过Grok Studio使用。
🔗 链接
6️⃣ Meta发布感知编码器
AI at Meta推出了Meta感知编码器,这是一款视觉编码器,在图像和视频任务中表现出色,在零样本分类和检索方面超越现有模型。用户可查看详情、阅读研究论文并下载代码和数据集。
🔗 链接
GitHub 热门项目
Agent Squad
Agent Squad是AWS Labs开发的一个灵活且强大的开源框架,用于协调多个AI代理处理复杂对话。它具备智能意图分类、双语言支持(Python和TypeScript)、灵活的代理响应、上下文管理、可扩展架构和通用部署选项。该项目非常适合开发者构建复杂的AI系统,包含多个专用代理。
🔗 Github链接