March 20 AI 日报

OpenAI 推出 o1-pro 模型 API，字节推出 Agent TARS，Orpheus 3B 发布

Mar 20, 2025

1️⃣ OpenAI 推出 o1-pro 模型 API & Agents SDK

o1-pro 模型 API 开放，支持：Function Calling & 结构化输出，文本 & 图像输入，定价信息透明化，具体定价信息参考：。同时，Agents SDK 发布，展示 AI 代理应用案例，如健康管理助手、自动化财务分析等。

价格方面，每 100 万 Token 输入 150 刀，每 100 万 Token 输出 600 刀（但可以通过批量接口节省一半），作为对比，o1 的价钱是它的十分之一，o3-mini 更是一百分之一都不到。

🔗 OpenAI

2️⃣ StepFun Ti2V & FlexWorld 框架升级，推动多模态生成

Tiezhen WANG 发布 StepFun Ti2V 新版，支持 30B 模型，拥有长视频生成能力；文本+图像联动控制，优化生成精度。

同时，FlexWorld 框架 推出 从单幅图像生成 3D 场景 的新功能，进一步提升 AI 在 多模态生成 领域的能力。

🔗 Hugging face

3️⃣ Hugging Face 推出 3D Arena Leaderboard & Orpheus 3B 语音模型

3D Arena Leaderboard：基于 ELO 评分 评估 image-to-3D 模型，提供可量化基准。
Orpheus 3B：全新 文本转语音（TTS）模型，支持 零样本语音克隆，增强 AI 语音合成的自然度，采用 Apache 2.0 开源 许可。

🔗 3D Arena Leaderboard | Orpheus

4️⃣ Anthropic 回应 Newsom AI政策报告，聚焦透明与安全

Anthropic 近日发布了针对 Governor Newsom AI Working Group Draft Report 的回应声明，强调以透明策略和严格的第三方测试进行 AI 安全管理。该声明中详细说明了其 Responsible Scaling Policy，表明了公司在推动AI发展同时确保安全风险最小化的坚定决心。

🔗 回应

5️⃣ 字节开源 AI Agent 框架：Agent TARS

该框架由视觉语言模型驱动，实现精准的自然语言控制，支持截图和视觉识别，同时具备精确的鼠标和键盘操作能力。兼容Windows和MacOS，并提供实时反馈与状态显示。所有处理均在本地完成，确保数据安全与隐私保护。

🔗 Github

教程

same(.)dev，以像素级精度克隆任何网站

使用密塔，从文档一键生成可视化网页

DT News

Discussion about this post

Ready for more?