1️⃣ OpenAI:模型规范、界面、招聘与 API 动向
Model Spec 更新:OpenAI 于 2025 年 4 月 11 日更新 Model Spec,提供最新模型技术规范及 commit 历史,支持开发者对接最新系统架构。
模型页面视觉更新:新增 o3、o4-mini 与 GPT-4.1 等模型的图标与界面设计,提升模型识别度并为后续发布预热。
全球招聘启动:CEO Sam Altman 发文表示,OpenAI 正在全球范围招聘系统基础设施与大规模计算方向的技术人才。
API 功能预告:OpenAI 可能推出 ImageGen API 与 Voice Engine API,面向图像生成与语音处理任务。
🔗 Model Spec
🔗 模型界面更新
🔗 招聘公告
🔗 API 预告
2️⃣ Google:健康模型、研究工具、视频生成能力更新
TxGemma 模型发布:Jeff Dean 宣布推出面向健康领域的 TxGemma 模型,构建于 Gemma/Gemini 架构之上,支持病例分析与医疗数据挖掘。
Deep Research 能力展示:Gemini 2.5 Pro 被用于生成 20 页以上研究报告,强调其在文本生成与知识整合方面的能力。
Veo 2 视频生成模型:Google AI Studio 发布 Veo 2,可基于图像生成提示驱动的视频内容,适用于创意场景。
🔗 TxGemma 模型
🔗 Deep Research 展示
🔗 Veo 2 发布
3️⃣ Adobe:AI Agent 接入创意工具
据消息源透露,Adobe 即将在 Photoshop 与 Premiere Pro 中引入 AI Agent 功能,未来可在图像编辑与视频剪辑中提供自动提示与操作建议,提高内容创作效率。
4️⃣ PAISS 2025 夏校开放申请
第四届 PAISS AI 夏校已开放申请,活动将于 2025 年 9 月在法国格勒诺布尔举办,聚焦 AI 研究分享与人才交流。
🔗 PAISS 公告
来自 GitHub 的热门 AI 项目
meeting-minutes
Meetily 是一个开源、可本地部署的 AI 会议助手,支持实时录音、转录和摘要生成,强调隐私保护,所有数据处理均在本地完成。集成 Whisper.cpp 进行语音识别,支持 Windows 和 macOS(Linux 支持在开发中),可导出 Markdown 和 PDF。后端采用 FastAPI,支持多种 LLM 接入(如 Groq、Anthropic、Ollama),适合团队会议记录和笔记自动整理。
omi
Omi 是一款开源 AI 可穿戴设备,通过连接手机,实时记录和转录语音内容,自动生成摘要和待办事项。支持创建自定义 App 与插件,适用于会议、语音备忘录等场景。项目包含硬件、移动端应用、SDK 和 AI 人格系统,支持 Android 和 iOS 使用。Omi 强调便携性与实时交互,是结合硬件与 AI 的创新型项目。