March 12 AI 日报
1️⃣ OpenAI 发布全新 Agent SDK
OpenAI 推出了一系列 AI Agent 开发工具,包括 Responses API 和 开源 Agents SDK,大幅简化智能体的构建。
Responses API 结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力。
内置工具:Web 搜索、文件搜索、计算机操作,让 AI 具备实时信息查询、文档检索和自动化操作能力。
Agents SDK:升级自 Swarm 框架,支持多 Agent 协同,提升 AI 任务自动化能力。
OpenAI 的新 Agents SDK 采用更细化的工具收费模式,例如 Web 搜索每千次查询 $30 (GPT-4o) 或 $25 (GPT-4o-mini),文件搜索 $2.5/千次查询,计算工具按 token 计费(输入 $3/百万 token,输出 $12/百万 token),这里和 gpt-4o 的 api 定价类似。老模型主要按输入、输出 token 计费,例如 GPT-4o 价格为 $2.50/百万输入 token 和 $10/百万输出 token。
2️⃣ Google 发布 Gemma 3,轻量级开源 AI 模型
Google 正式推出 Gemma 3,基于 Gemini 2.0 技术,支持 多模态输入、140+ 语言、128K 上下文长度,可在 单 GPU 运行,性能超越 Llama 3-405B 和 DeepSeek-V3。
轻量级但强大:1B、4B、12B、27B 参数规模,支持 Hugging Face、Ollama、Vertex AI 等多平台部署。
视觉 & 语言理解:可处理图像、视频和文本,支持复杂推理和函数调用。
安全性:集成 ShieldGemma 2,提供 AI 生成内容审核,提升安全性。
3️⃣ Luma 开源 Inductive Moment Matching (IMM),提升图像生成效率 10 倍
Luma 实验室发布 Inductive Moment Matching (IMM),一种全新的图像模型预训练技术,对比扩散模型:
采样效率提升 10 倍,保持高质量图像生成。
更稳定的训练过程,相比 Consistency Models 拥有更强的泛化能力。
在 ImageNet 和 CIFAR-10 等基准测试中表现卓越,大幅降低计算成本。
4️⃣ Sam Altman:OpenAI 训练了一个擅长创意写作的新模型
OpenAI CEO Sam Altman 透露,他们训练了一款全新的 AI 创意写作模型,能够精准捕捉 元小说(metafiction) 的风格和情感。
AI 生成的故事展现出强烈的文学性,让 Altman 也感到惊艳。
尚未决定何时发布,但这可能是 AI 在艺术和文学领域的新突破。