April 9 AI 日报

Google AI 研究进展与开发工具更新

Ausdin

Apr 09, 2025

1️⃣ Google：研究进展、开发工具与语音识别应用

研究发布与获奖：Google AI 团队凭借论文《SoundStream: An End-to-End Natural Audio Codec》获得 IEEE 最佳论文奖，并宣布启动名为 Geospatial Reasoning 的新研究项目，结合 Gemini 模型能力处理多源地理数据。
开发工具更新：Gen AI Python SDK 推出新功能 gemini-2.5-flash-preview-04-09，并引入 thinking_config 与 thinking_budget，支持更细粒度的模型行为配置。
ICASSP 2025 参展计划：Google AI 宣布将在 ICASSP 2025 介绍 Project Euphonia 项目，聚焦提升对失序语音的识别能力。
Gemini 深度研究功能更新：Gemini 2.5 Pro 支持每日生成多语言多国家研究报告，Gemini Advanced 用户已可体验该功能，提升数据分析与推理能力。
AI 音乐演示：展示“Dot Synth”原型系统，结合 Gemini 2.5 实现 AI 控制的实时音乐合成。

🔗 研究与 SDK
🔗 ICASSP 报告
🔗 Deep Research 功能
🔗 音乐演示

2️⃣ OpenAI：平台能力增强与教育项目上线

OpenAI Academy 动态：面向初学者的虚拟学院开放注册，支持使用免费版 ChatGPT 学习基础 AI 知识。
Evals API 发布：开发者可通过 OpenAI API 自动化评估 prompt 和模型输出，提升开发与调优效率。

🔗 OpenAI Academy
🔗 Evals API

3️⃣ 视频生成模型：skyreal-a2 发布

skyreal-a2 模型现已上线 Hugging Face，支持将对象无缝嵌入视频，扩展了 AI 在视频创作领域的应用场景。

🔗 模型链接

来自 GitHub 的热门 AI 项目

FunASR

FunASR 是一个功能全面的开源语音识别工具包，支持语音识别、语音活动检测、说话人识别、情绪识别等任务。它集成了多种高精度预训练模型，如 Paraformer 和 Whisper，适用于中英文及多语种音频处理。FunASR 支持流式与离线识别，提供 Python API 和命令行工具，适合快速部署语音转写服务，广泛用于智能客服、实时字幕、语音分析等场景。

n8n

n8n 是一款开源的工作流自动化平台，结合可视化界面与代码扩展能力，帮助用户快速构建数据集成与自动化流程。它内置 400 多种服务集成，支持自定义节点、AI 工作流、LangChain 接入，适用于数据同步、API 编排、自动通知等。n8n 支持本地部署和企业级扩展，提供强大的灵活性和可控性，是开发者和技术团队构建自动化系统的理想工具。

DT News

Discussion about this post

Ready for more?