1️⃣ OpenAI 推出 o1-pro 模型 API & Agents SDK
o1-pro 模型 API 开放,支持:Function Calling & 结构化输出,文本 & 图像输入,定价信息透明化,具体定价信息参考:。同时,Agents SDK 发布,展示 AI 代理应用案例,如健康管理助手、自动化财务分析等。
价格方面,每 100 万 Token 输入 150 刀,每 100 万 Token 输出 600 刀 (但可以通过批量接口节省一半),作为对比,o1 的价钱是它的十分之一,o3-mini 更是一百分之一都不到。
🔗 OpenAI
2️⃣ StepFun Ti2V & FlexWorld 框架升级,推动多模态生成
Tiezhen WANG 发布 StepFun Ti2V 新版,支持 30B 模型,拥有长视频生成能力;文本+图像联动控制,优化生成精度。
同时,FlexWorld 框架 推出 从单幅图像生成 3D 场景 的新功能,进一步提升 AI 在 多模态生成 领域的能力。
3️⃣ Hugging Face 推出 3D Arena Leaderboard & Orpheus 3B 语音模型
3D Arena Leaderboard:基于 ELO 评分 评估 image-to-3D 模型,提供可量化基准。
Orpheus 3B:全新 文本转语音(TTS)模型,支持 零样本语音克隆,增强 AI 语音合成的自然度,采用 Apache 2.0 开源 许可。
🔗 3D Arena Leaderboard | Orpheus
4️⃣ Anthropic 回应 Newsom AI政策报告,聚焦透明与安全
Anthropic 近日发布了针对 Governor Newsom AI Working Group Draft Report 的回应声明,强调以透明策略和严格的第三方测试进行 AI 安全管理。该声明中详细说明了其 Responsible Scaling Policy,表明了公司在推动AI发展同时确保安全风险最小化的坚定决心。
🔗 回应
5️⃣ 字节开源 AI Agent 框架:Agent TARS
该框架由视觉语言模型驱动,实现精准的自然语言控制,支持截图和视觉识别,同时具备精确的鼠标和键盘操作能力。兼容Windows和MacOS,并提供实时反馈与状态显示。所有处理均在本地完成,确保数据安全与隐私保护。
🔗 Github
推荐阅读
《SemiAnalysis:GTC 2025最专业的解读来了》
SemiAnalysis发布GTC 2025分析报告,详解英伟达在AI硬件和软件上的最新进展。英伟达大幅降低推理成本,优化GPU架构,并推出Blackwell Ultra B300和未来的Rubin系列,提升计算性能。新一代网络技术和共封装光学(CPO)方案增强数据中心效率,同时NVIDIA Dynamo推理栈提高模型部署能力。尽管DeepSeek等开源模型冲击市场,英伟达仍凭借技术优势保持领先,持续推动AI计算发展。