1️⃣ Google:研究进展、开发工具与语音识别应用
研究发布与获奖:Google AI 团队凭借论文《SoundStream: An End-to-End Natural Audio Codec》获得 IEEE 最佳论文奖,并宣布启动名为 Geospatial Reasoning 的新研究项目,结合 Gemini 模型能力处理多源地理数据。
开发工具更新:Gen AI Python SDK 推出新功能 gemini-2.5-flash-preview-04-09,并引入 thinking_config 与 thinking_budget,支持更细粒度的模型行为配置。
ICASSP 2025 参展计划:Google AI 宣布将在 ICASSP 2025 介绍 Project Euphonia 项目,聚焦提升对失序语音的识别能力。
Gemini 深度研究功能更新:Gemini 2.5 Pro 支持每日生成多语言多国家研究报告,Gemini Advanced 用户已可体验该功能,提升数据分析与推理能力。
AI 音乐演示:展示“Dot Synth”原型系统,结合 Gemini 2.5 实现 AI 控制的实时音乐合成。
🔗 研究与 SDK
🔗 ICASSP 报告
🔗 Deep Research 功能
🔗 音乐演示
2️⃣ OpenAI:平台能力增强与教育项目上线
OpenAI Academy 动态:面向初学者的虚拟学院开放注册,支持使用免费版 ChatGPT 学习基础 AI 知识。
Evals API 发布:开发者可通过 OpenAI API 自动化评估 prompt 和模型输出,提升开发与调优效率。
3️⃣ 视频生成模型:skyreal-a2 发布
skyreal-a2 模型现已上线 Hugging Face,支持将对象无缝嵌入视频,扩展了 AI 在视频创作领域的应用场景。
🔗 模型链接
来自 GitHub 的热门 AI 项目
FunASR
FunASR 是一个功能全面的开源语音识别工具包,支持语音识别、语音活动检测、说话人识别、情绪识别等任务。它集成了多种高精度预训练模型,如 Paraformer 和 Whisper,适用于中英文及多语种音频处理。FunASR 支持流式与离线识别,提供 Python API 和命令行工具,适合快速部署语音转写服务,广泛用于智能客服、实时字幕、语音分析等场景。
n8n
n8n 是一款开源的工作流自动化平台,结合可视化界面与代码扩展能力,帮助用户快速构建数据集成与自动化流程。它内置 400 多种服务集成,支持自定义节点、AI 工作流、LangChain 接入,适用于数据同步、API 编排、自动通知等。n8n 支持本地部署和企业级扩展,提供强大的灵活性和可控性,是开发者和技术团队构建自动化系统的理想工具。