全國 [城市選擇] [會員登錄] [講師注冊] [機構(gòu)注冊] [助教注冊]  
中國企業(yè)培訓(xùn)講師
強化學(xué)習(xí)與深度強化學(xué)習(xí)
 
講師:葉梓 瀏覽次數(shù):2603

課程描述INTRODUCTION

強化學(xué)習(xí)是當(dāng)前最熱門的研究方向之一,廣泛應(yīng)用于機器人學(xué)、電子競技等領(lǐng)域。本課程系統(tǒng)性的介紹了強化學(xué)習(xí)(深度強化學(xué)習(xí))的基本理論和關(guān)鍵算法,包括:馬爾科夫決策過程、動態(tài)規(guī)劃法、蒙特卡羅法、時間差分法、值函數(shù)逼近法,策略梯度法等;以及該領(lǐng)域的*前沿發(fā)展,包括:DQN及其變種、信賴域系方法、Actor-Critic類方法、多Agent深度強化學(xué)習(xí)等;同時也介紹大量的實際案例,包括深度強化學(xué)習(xí)中最*的工程應(yīng)用:Alpha Go。

· IT人士· 技術(shù)總監(jiān)· 軟件工程師· 技術(shù)主管· 研發(fā)經(jīng)理

培訓(xùn)講師:葉梓    課程價格:¥元/人    培訓(xùn)天數(shù):3天   

日程安排SCHEDULE



課程大綱Syllabus

強化學(xué)習(xí)課程

第一天 強化學(xué)習(xí)
第一課 強化學(xué)習(xí)綜述
1.強化學(xué)習(xí)要解決的問題
2.強化學(xué)習(xí)方法的分類
3.強化學(xué)習(xí)方法的發(fā)展趨勢
4.環(huán)境搭建實驗(Gym,TensorFlow等)
5.Gym環(huán)境的基本使用方法

第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數(shù)、狀態(tài)行為值函數(shù)
3.貝爾曼方程
4.最優(yōu)策略
案例:構(gòu)建機器人找金幣和迷宮的環(huán)境

第三課 基于模型的動態(tài)規(guī)劃方法
1.動態(tài)規(guī)劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
案例:實現(xiàn)基于模型的強化學(xué)習(xí)算法

第四課 蒙特卡羅方法
1.蒙特卡羅策略評估
2.蒙特卡羅策略改進
3.基于蒙特卡羅的強化學(xué)習(xí)
4.同策略和異策略
案例:利用蒙特卡羅方法實現(xiàn)機器人找金幣和迷宮

第五課 時序差分方法
1.DP,MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
案例:Q-learning和Sarsa的實現(xiàn)

第二天 從強化學(xué)習(xí)到深度強化學(xué)習(xí)
第一課 基于值函數(shù)逼近方法(強化學(xué)習(xí))
1.維數(shù)災(zāi)難與表格型強化學(xué)習(xí)
2.值函數(shù)的參數(shù)化表示
3.值函數(shù)的估計過程
4.常用的基函數(shù)

第二課 基于值函數(shù)逼近方法(深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合)
1.簡單提一下深度學(xué)習(xí)
2.深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合
3.DQN 方法介紹
4.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第三課 策略梯度方法(強化學(xué)習(xí))
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數(shù)法,修改估計值函數(shù)法
案例:利用gym和tensorflow實現(xiàn)小車倒立擺系統(tǒng)等

第四課 Alpha Go(深度學(xué)習(xí)與強化學(xué)習(xí)的結(jié)合)
1.MCTS
2.策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)
3.Alpha Go的完整架構(gòu)
第五課 GAN(深度學(xué)習(xí))
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例:生成手寫數(shù)字的GAN

第三天 深度強化學(xué)習(xí)進階
第一課 AC類方法-1
1. PG的問題與AC的思路
2. AC類方法的發(fā)展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案例:AC類方法的案例

第三課 信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發(fā)展路線圖
3.TRPO方法
案例:TRPO方法的案例

第四課 信賴域系方法-2
1.PPO方法
2.DPPO方法簡介
3.ACER方法
案例:PPO方法的案例

第五課 多Agent強化學(xué)習(xí)
1.矩陣博弈
2.納什均衡
3.多人隨機博弈學(xué)習(xí)
4.完全合作、完全競爭與混合任務(wù)
5.MADDPG
案例:MADDPG的案例等

強化學(xué)習(xí)課程


轉(zhuǎn)載:http://malashangbang.com/gkk_detail/65029.html

已開課時間Have start time

在線報名Online registration

    參加課程:強化學(xué)習(xí)與深度強化學(xué)習(xí)

    單位名稱:

  • 參加日期:
  • 聯(lián)系人:
  • 手機號碼:
  • 座機電話:
  • QQ或微信:
  • 參加人數(shù):
  • 開票信息:
  • 輸入驗證:  看不清楚?點擊驗證碼刷新
付款信息:
開戶名:上海投智企業(yè)管理咨詢有限公司
開戶行:中國銀行股份有限公司上海市長壽支行
帳號:454 665 731 584
葉梓
[僅限會員]

預(yù)約1小時微咨詢式培訓(xùn)