一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

42章经 - A podcast by KaiQu - Saturdays

Categories:

当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。但很多人对 RL 都没有一个足够清晰的理解,包括我自己。所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。【人类博物馆】导游:曲凯,42章经创始人32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。【时光机】 1:51 到底什么是 RL? 4:25 人生就是一个强化学习的过程 6:22 RL 和 LLM 是怎么结合起来的? 7:01 强强联手第一步:InstructGPT,实现指令遵从 10:07 过程中衍生出了 RLHF 11:41「慢思考」的需求催生了 RL 的应用 16:10 为什么说 Anthropic RL 做得特别好? 21:17 行业对 RL+LLM 的最优路径形成共识了吗? 25:11 RL 起来之后,对 Agent 的影响是什么? 32:11 Intelligence = LLM (理解) × RL (决策),二者缺一不可 34:14 Scaling law 的未来 34:33 Pretraining 的两个发展方向 36:43 RL 还处于早期,进入深水区后可能会走向分化 40:02 大模型团队的组织架构要如何设计? 43:21 一个反常识:对 AI 来说,理解比生成更难,token 消耗更大 47:38 现在做 Agent 一定需要一个懂 RL 的人吗? 49:32 为什么 RL 人才这么稀缺? 56:10 RL 目前三大分支:泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI) 58:55 框架对 RL 意味着什么? 1:02:51  RL 在海内外进展还有明显差距 1:04:42 想做好 RL,基建≫数据>算法 1:06:05 研究 RL 收获的一些人生启发【Reference】 吴翼的 PhD 毕业论文:On Building Generalizable Learning Agents 吴翼获机器学习顶级会议 NIPS2016 最佳论文奖的论文: Value Iteration Network 吴翼提到的他非常喜欢的有关 Diversity-Driven RL 的两篇论文:Iteratively Learn Diverse Strategies with State Distance Information、Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization 吴翼团队和蚂蚁研究院开源的强化学习训练框架:AReaL-boba【The gang that made this happen】 制作人:陈皮、Celia 剪辑:陈皮 Bgm:Mondo Bongo - Joe Strummer & The Mescaleros