OpenAI o1 核心 Noam Brown:从扑克到通用 AI 推理
从攻克两人扑克不完美信息博弈,到在 Meta 实现人类水平的外交(Diplomacy)AI,Noam Brown 一直引领高级推理算法的前沿。如今,他转战 OpenAI,聚焦将推理与大型模型无缝结合,推进 o1 等通用 AI 推理体系的发展。
在 GTC 2025 峰会中,OpenAI 负责 o1 模型的核心人物 Noam Brown 与英伟达的工程师进行了圆桌讨论「Advancing AI Reasoning: From Games to Complex Problem Solving」,揭露了他是如何从研究「德州扑克 AI」一步步转而研究通用的推理模型的。
为何关注 Noam Brown?
Noam Brown 在人工智能领域的研究,不仅为德州扑克 AI(Poker AI)与大型策略游戏 AI 的发展树立了重要里程碑,也推动了更为通用、可扩展的推理算法走向现实。他所带来的最重要价值在于:他针对不完美信息游戏(Imperfect-Information Games)的突破,以及把自然语言交流与多玩家策略推理结合在一起,为「高级 AI 推理」(Advanced AI Reasoning)打开了新的大门。这些成果已成为学术界与产业界共同瞩目的焦点,代表了下一代人工智能在多智能体复杂决策与谈判方面的重要进展。
早期历程与在 CMU 的两人扑克研究
Noam Brown 的学术研究始于 2012 年,他在卡内基梅隆大学攻读博士期间,专注于如何在扑克这一不完美信息游戏中达成超越人类水平的 AI。相较于国际象棋或围棋,扑克的隐藏信息与高方差特性让其更加复杂。
• Libratus(2017):他与团队在两人扑克场景下取得突破,开发了首个超越人类顶尖职业选手的扑克 AI。这一研究摆脱了传统查表式策略,开始关注推理层面更深入的算法思路,为后续扩展打下了基础。
• 推理在不完美信息游戏中的价值:在此阶段,Noam Brown 体会到「人类会在关键抉择前投入大量思考时间」,因此在 AI 中也应强化推理计算,而非只依赖预训练的静态策略。Libratus 就是这样首度展示了在推理阶段引入更多计算所能带来的性能增益。
Pluribus 的多人扑克革命
在 2019 年,Noam Brown 与同事进一步推出了 Pluribus,它不再局限于两名玩家,而是扩展到多玩家(六人)的德州扑克对战。
• 算法与成本的双重突破:在推理算法上,团队通过改进对局阶段的计算策略,大幅减少了预训练的需求,使得 Pluribus 在云端的训练成本可低至 150 美元,而推理则使用约 28 个 CPU 核心在每局花约 20 秒进行深度思考。
• 推理规模与性能的平衡:Pluribus 的意义在于证明了「推理时的高计算投入」可以替代大规模离线训练,从而既减少训练花费又提升实时决策水准。这与传统完美信息游戏中的搜索算法(如国际象棋的 alpha-beta 剪枝、围棋的蒙特卡洛树搜索)有明显不同,也进一步强化了 Noam Brown 「要在决策环节充分利用计算资源」的理念。
在 Meta 的「外交」Cicero 项目
离开学术界后,Noam Brown 于 2018 年加入 Meta(原 Facebook),并与团队将不完美信息博弈的研究扩展到更具挑战的多人自然语言策略游戏——「外交(Diplomacy)」。
• 游戏背景:Diplomacy 是七人参与、强调自然语言交流与背后联盟、背叛等人性化策略的游戏。其真正的复杂度源于玩家通过语言“讨价还价”并在关键时刻进行策略背刺或妥协。
• Cicero 的诞生:在此阶段,他与同事开发了 Cicero,首次实现人类水平的自然语言多玩家交互。这意味着人工智能必须同时掌握多边博弈中的高维策略与语言表达的灵活性。Cicero 因此被视为大步迈向多智能体环境与自然语言推理的重要里程碑。
走向通用推理——在 OpenAI 的 o1 系统
完成 Cicero 后,Noam Brown 注意到此前在扑克和外交等不同游戏中,推理框架往往依赖相对狭窄的、定制化的方案。他因此选择加入 OpenAI,着手与更多同事合作,研发更通用的 o1 推理系统。
• 多场景通用性:深度学习(Deep Learning)的优势在于可一套模型应用多个任务,但在高级推理领域,目前还缺少能像 Transformer 一样「可迁移」的通用框架。Noam Brown 的追求在于:让 AI 不再「针对每种游戏或应用都单独研发推理方法」,而能直接利用推理过程、推理时间,充分做到在不同场景下都具备超强决策能力。
• 系统 1 与系统 2 的结合:深度学习多被视为「系统 1(快速、直觉式)」的计算。Noam Brown 的工作聚焦如何让 AI 在推理阶段(「系统 2」)更灵活地分配算力,通过更长时间或更深层级的思考,获得超越简单直觉式决策的效果。
专业视角下的影响与展望
1. 学术推进:Noam Brown 在不完美信息游戏算法上所做的探索极具启示意义,为多智能体博弈理论和自然语言协同提供了新思路。
2. 工业应用:他在推理计算与训练计算间所做的重新分配,也给数据中心架构、GPU 加速方案以及推理平台带来了新需求,正如在对话中指出的——「对于行业而言,推理计算量变大或许是下一步的关键革新方向」。
3. 通用推理与新范式:从扑克到多人游戏再到自然语言协作,无不体现了其对通用 AI 推理的追求。从 Libratus 到 Pluribus,再到 Cicero 与 o1,所走出的每一步都是为让 AI 学会在更复杂、更多变的环境中进行实时高水平决策。
结语
Noam Brown 的研究历程带来了不完美信息博弈的重大突破,并且跨越了人机对战、多人博弈以及自然语言谈判等多个维度。如今,他致力于在 OpenAI 打造更具普适性的推理算法,使得 AI 能够像 Transformer 之于深度学习那样,把推理范式推广到更多领域。这一系列努力不仅将影响学术研究,也会在实际应用中加速催生下一代「类人思考」或「超人思考」的智能系统。对于任何对高级 AI 推理、通用计算架构与多智能体交互感兴趣的专业人士来说,Noam Brown 的探索无疑是当前不可忽视的核心焦点之一。
本文在 o1-pro 的协助下完成。