April 14 AI 日报

OpenAI 预热发布，Google 更新健康模型，Adobe 创意工具接入 AI Agent

Ausdin

Apr 14, 2025

1️⃣ OpenAI：模型规范、界面、招聘与 API 动向

Model Spec 更新：OpenAI 于 2025 年 4 月 11 日更新 Model Spec，提供最新模型技术规范及 commit 历史，支持开发者对接最新系统架构。
模型页面视觉更新：新增 o3、o4-mini 与 GPT-4.1 等模型的图标与界面设计，提升模型识别度并为后续发布预热。
全球招聘启动：CEO Sam Altman 发文表示，OpenAI 正在全球范围招聘系统基础设施与大规模计算方向的技术人才。
API 功能预告：OpenAI 可能推出 ImageGen API 与 Voice Engine API，面向图像生成与语音处理任务。

🔗 Model Spec
🔗 模型界面更新
🔗 招聘公告
🔗 API 预告

2️⃣ Google：健康模型、研究工具、视频生成能力更新

TxGemma 模型发布：Jeff Dean 宣布推出面向健康领域的 TxGemma 模型，构建于 Gemma/Gemini 架构之上，支持病例分析与医疗数据挖掘。
Deep Research 能力展示：Gemini 2.5 Pro 被用于生成 20 页以上研究报告，强调其在文本生成与知识整合方面的能力。
Veo 2 视频生成模型：Google AI Studio 发布 Veo 2，可基于图像生成提示驱动的视频内容，适用于创意场景。

🔗 TxGemma 模型
🔗 Deep Research 展示
🔗 Veo 2 发布

3️⃣ Adobe：AI Agent 接入创意工具

据消息源透露，Adobe 即将在 Photoshop 与 Premiere Pro 中引入 AI Agent 功能，未来可在图像编辑与视频剪辑中提供自动提示与操作建议，提高内容创作效率。

🔗 Adobe Agent 相关

4️⃣ PAISS 2025 夏校开放申请

第四届 PAISS AI 夏校已开放申请，活动将于 2025 年 9 月在法国格勒诺布尔举办，聚焦 AI 研究分享与人才交流。

🔗 PAISS 公告

来自 GitHub 的热门 AI 项目

meeting-minutes

Meetily 是一个开源、可本地部署的 AI 会议助手，支持实时录音、转录和摘要生成，强调隐私保护，所有数据处理均在本地完成。集成 Whisper.cpp 进行语音识别，支持 Windows 和 macOS（Linux 支持在开发中），可导出 Markdown 和 PDF。后端采用 FastAPI，支持多种 LLM 接入（如 Groq、Anthropic、Ollama），适合团队会议记录和笔记自动整理。

omi

Omi 是一款开源 AI 可穿戴设备，通过连接手机，实时记录和转录语音内容，自动生成摘要和待办事项。支持创建自定义 App 与插件，适用于会议、语音备忘录等场景。项目包含硬件、移动端应用、SDK 和 AI 人格系统，支持 Android 和 iOS 使用。Omi 强调便携性与实时交互，是结合硬件与 AI 的创新型项目。

DT News

Discussion about this post

Ready for more?