强化学习快速入门与实战

强化学习快速入门与实战 / 玩转 AI 决策,深入多行业应用

H 博士 & 袁从德 AI 资深研究员、AI 创业公司 CTO

  • 课程介绍
  1. 01|强化学习概述:从马尔可夫决策过程到智能体与环境交互

    强化学习可以抽象为智能体与环境的交互,在奖励信号指导下学习最优策略。

  2. 02|基于价值的强化学习:从Q-learning到Deep Q-Network

    今天我们将聚焦于基于价值的强化学习算法。

  3. 03|基于策略的强化学习:从策略梯度到Actor-Critic

    带你建立起对策略优化方法的完整认知框架,理解各类算法背后的数学原理与工程实践考量。

  4. 04|模型与规划:从动态规划到蒙特卡洛树搜索

    从动态规划到蒙特卡洛树搜索,规划技术的演进始终围绕一个核心目标:在有限资源下做出最优决策。

  5. 05|探索与利用:从多臂赌博机到汤普森采样

    汤普森采样作为其中的代表性方法,不仅为多臂赌博机问题提供了高效解决方案,也为更复杂的决策问题奠定了基础,成为现代决策科学中的重要工具。

  6. 06|深度强化学习:从DQN到A3C

    这些算法的提出和发展,推动了深度强化学习在实际应用中的不断拓展,让我们看到了智能体在复杂环境中自主学习和决策的巨大潜力。​

  7. 07|基础策略梯度法:Policy Gradient

    希望你对策略梯度方法会有一个全面的认识,了解了它的核心思想、算法流程、优缺点以及应用。

  8. 08|优势函数:涵盖Actor Critic/GAE/TRPO

    优势函数在解决策略梯度方法的方差问题、提高学习效率和稳定性方面发挥了关键作用。​

  9. 09|重要性采样:On-policy vs. Off-policy

    本节课核心围绕重要性采样及强化学习两大范式展开。

  10. 10|TRPO精读:涵盖自然梯度法、全变分约束以及最终导向PPO

    系统精读 TRPO 算法,完整梳理 TRPO 理论框架。

  11. 11|TRPO的大语言模型时代扩展:PPO、DPO、GRPO(上)

    我们将聚焦 TRPO 的三大关键扩展算法。

  12. 12|TRPO的大语言模型时代扩展:PPO、DPO、GRPO(下)

    GRPO 聚焦 LLM “奖励集中于序列末尾”的特性。

  13. 13|大语言模型时代的RL工作流:以RLHF为代表的后训练方法

    在大语言模型从“通用能力”向“实用价值”跃迁的过程中,以 RLHF 为代表的后训练方法无疑是核心技术支柱。

  14. 14|强化学习前沿:从模仿学习到逆向强化学习

    深入探索强化学习前沿中的模仿学习和逆向强化学习。

  15. 15|强化学习前沿:从离散控制到连续控制

    DDPG 算法是强化学习领域中处理连续动作控制问题的重要算法。

  16. 16|强化学习前沿:离线强化学习

    离线强化学习,又称作批量强化学习,是强化学习的一种变体。

  17. 17|强化学习前沿:离线强化学习之BCQ

    BCQ 算法在离线学习场景具有优异性能,展现出显著优于传统方法的决策效果。

  18. 18|强化学习前沿:离线强化学习之CQL

    CQL 算法通过独特的保守性约束机制,使智能体能够在离线数据上学习到更加稳健、可靠的策略。

  19. 19|推荐系统:从个性化推荐到广告投放(上)

    掌握推荐系统的核心逻辑,理清推荐系统的完整架构。

  20. 20|推荐系统:从个性化推荐到广告投放(下)

    进一步理解推荐系统与广告投放结合的商业逻辑。

  21. 21|机器人控制:从机械臂到自动驾驶(上)

    带你掌握机械臂控制的核心原理。

  22. 22|机器人控制:从机械臂到自动驾驶(中)

    带你洞悉自动驾驶系统的完整链路。

  23. 23|机器人控制:从机械臂到自动驾驶(下)

    理清两大场景的技术关联。

  24. 24|金融交易:从股票交易到投资组合优化(上)

    层层拆解强化学习在股票交易场景中的应用逻辑。

  25. 25|金融交易:从股票交易到投资组合优化(下)

    从投资组合优化的核心逻辑出发,详细拆解强化学习在该领域的应用方法、关键设计与实际案例。

  26. 26|资源调度:从云计算到物流配送

    深入探讨强化学习在资源调度领域的两大重要应用。

  27. 27|自然语言处理:从机器翻译到对话系统(上)

    深入剖析机器翻译这一自然语言处理的重要应用领域。

  28. 28|自然语言处理:从机器翻译到对话系统(下)

    逐步揭开让机器“会说话、懂交流”的技术面纱。

  29. 29|计算机视觉:从目标检测到图像生成

    探讨强化学习在计算机视觉领域的一些应用。

  30. 30|强化学习平台与工具:从OpenAI Gym到Ray

    OpenAI Gym 和 Ray RLlib 在强化学习领域都扮演着重要的角色。

  31. 31|强化学习未来展望:从通用人工智能到人机协作

    展望强化学习的未来,它正朝着通用人工智能的星辰大海进发,同时也在重塑人机协作的模式,为人类社会的发展注入新的动能。

  32. 结束语|共赴强化学习的未来征程

    一条通往 AGI 的必经学习路径。

  33. 结课测试|来赴一场满分之约!

    为了帮你检验自己的学习成果,我特意准备了一套结课测试题,快来挑战吧!

课程介绍

你将获得 理解强化学习的核心概念与经典算法 配套代码示例深入强化学习必备基础 探索强化学习领域的研究热点 解锁强化学习的 6 大应用场景 讲师介绍 课程介绍 然而 RL...

你将获得

  • 理解强化学习的核心概念与经典算法
  • 配套代码示例深入强化学习必备基础
  • 探索强化学习领域的研究热点
  • 解锁强化学习的 6 大应用场景

讲师介绍


课程介绍

然而 RL 是一门强交叉学科,学习曲线陡峭且发展迅速。从理论的角度,RL 因为涉及时序和反馈,其复杂度高于其他机器学习科目。从工程的角度,RL 涉及分布式计算和同步/异步更新,且 RL 采样效率低,需要大量反馈,想将一个 RL 系统在实际大规模环境应用,所需的工程 trick 一点不少于其他领域。而且 RL 中的概念复杂,术语众多,甚至还有不同流派的 RLer,对概念的使用存在混杂的情况。

那么该如何入门呢?

我们邀请到在 RL 领域有着多年实践经验的 H 博士和袁从德老师,他们将采用“理论、算法、实战”相结合的方式,循序渐进地带你掌握强化学习的核心知识与实践技能。

1. 难度适中,层层递进,注重对理论的理解而非推导

祖师爷 Sutton 的 RL 圣经前几章集中讲解了大量理论相关内容,比如贝尔曼迭代、时序差分、动态规划、蒙特卡洛……很多初学者读完前几章就被劝退了。

然而对于初学者,在理解重要定理的同时,控制难度也很重要。无需将每个细节都死磕清楚。当然,想要入门 RL,MDP 数学理论依然是绕不开的部分。

因此,“基础篇”花了大量的篇幅介绍强化学习的基础,比如 MDP、Value-based RL、Policy-based RL 以及动态规划和蒙特卡洛的基本思想。但努力做到难度适中。在介绍数理相关的定理时,尽量用形象生动的语言让你对艰深晦涩的理论有直观理解,而不是像学术领域那样给出严格但枯燥的证明。同时对于想要进一步在理论上深挖的同学,讲师也会在专栏以及互动过程中提供进阶知识指引。

2. 与时俱进,注重梳理方法演进背后的思想

RL 变化日新月异,新方法层出不穷。在有限的篇幅下,为了尽量让你了解到实际应用中最有效的新方法,“进阶篇”精心选择了少数几个当前蓬勃发展的方向进行介绍。

首当其冲的是大语言模型时代风头无两的策略梯度法——PPO 和 GRPO。这里专门使用三个章节介绍 PPO 的基础——策略梯度法、重要性采样和优势函数。当你完成这三节课的学习后,再学习 PPO 和 GRPO 以及 RLHF,就可以很容易理解这些算法看似复杂的形式背后的发展脉络,也会自然明白了为何 GRPO 相对 PPO 做了那样的改变。

此外,进阶篇还覆盖了其他蓬勃发展的方向,如逆向强化学习、离线强化学习等。这些都是在实际业务中落地效果最好的方向。

3. 理论与实践结合,介绍 RL 的主要应用场景,并辅以代码加深理解

作为一门应用学科,只有理论讲解是远远不够的。因此,每节课都提供了配套代码作为简单示例,加深你对原理的理解。

同时,考虑大家需要在实际工作中使用 RL 的需求,“应用篇”介绍了 RL 在多个领域的应用。包括推荐系统、机器人控制、金融交易、资源调度、自然语言处理、计算机视觉等等,同时我们也为对 RL 开发感兴趣的朋友介绍了 OpenAI Gym 和 Ray 这两大平台。

总结来说,这门课程会为你入门强化学习做一个冷启,让你在最短的时间内对 RL 有基本了解,并可以上手做项目,最终助力你的职业发展!


课程目录


订阅须知