1️⃣ OpenAI:欧洲合作、教育推广与图像生成更新
高校合作落地:OpenAI 与意大利大学校长联合会(CRUI)签署协议,将先进 AI 工具引入欧洲高校的教学与研究体系。
政策蓝图发布:OpenAI 发布《EU Economic Blueprint》,提出在欧洲推动 AI 应用的政策建议,包括投资、监管简化等。
图像生成更新:ChatGPT 4o 图像生成功能新增“个人形象转游戏角色”功能,提升定制能力与输出细节。
2️⃣ Google:Gemini 应用扩展与 AI 能力升级
Gemini Live 发布:Gemini 推出新功能“Project Astra”,支持摄像头与屏幕共享,增强协同与交互能力。
Pixel 9 集成演示:Pixel 9 设备展示了语音与屏幕共享的 Gemini 交互方式。
AI Mode 扩展:Google AI Mode 功能扩展至美国更多用户,强化视觉输入支持。
ICASSP 会议支持:Google 成为 ICASSP 2025 Diamond Patron,并将在会议展示语音与信号处理方向研究成果。
音频算法演讲预告:Yann LeCun 将在 ICASSP 上发表演讲,介绍音频算法在边缘设备上的实现策略。
🔗 Gemini Live
🔗 Pixel 9 演示
🔗 AI Mode 扩展
🔗 ICASSP 合作
🔗 LeCun 演讲
3️⃣ Meta / DeepMind:播客发布预告
Google DeepMind 宣布将于 4 月 10 日推出官方播客《Google DeepMind: The Podcast》,由 Professor @FryRsquared 主持,聚焦 AI 技术在医疗、机器人等领域的实际应用与研究前沿。
🔗 播客链接
4️⃣ MegaTTS:文本转语音系统上线
MegaTTS 语音合成模型上线 Hugging Face,具备高自然度语音输出能力,用于多种语音交互场景。
来自 GitHub 的热门 AI 项目
supabase-mcp
Supabase MCP 是一个用于将 Supabase 项目连接至 AI 助手(如 Cursor、Claude)的服务器实现,基于 Model Context Protocol(MCP)标准构建。它允许 LLM 控制 Supabase 项目的创建、查询、变更、分支管理等操作。项目使用 Node.js 和 TypeScript 实现,提供 CLI 接入方式,支持多种操作系统。适用于自动化数据库管理或与 AI 助手集成的开发场景。
MarkItDown
MarkItDown 是微软开源的文档转 Markdown 工具,专为大语言模型(LLM)和文本分析流程设计。它支持将 PDF、Word、PPT、Excel、音频、图像、HTML 等多种格式转换为结构化 Markdown,保留标题、列表、表格等文档结构。支持 CLI、Python API、Docker 部署,并具备插件扩展能力。项目采用 MIT 许可,适用于增强 AI 输入质量的文档预处理任务。