Reinforcement[͵riɪnˋforsmənt] learning (RL) 強化學習是機器學習其中的一大類。讓電腦從什麼都不懂的狀態下,不斷嘗試,從錯誤中學習,最後找到其中的規律。Alpha go 下圍棋就是典型的例子; 讓電腦自已玩Atari (小精靈) 遊戲也是另一個例子。
強化學習會在每次的行為中給予一個分數,比如選擇 “笑臉” 就給予一個高分,選擇 “哭臉” 就給予一個低分。然後下次用同樣的行為拿高分,避免低分的行為。
強化學習演算法
強化學習有很多種演算法,比如
通過行為價值行為的 Q Learning, Sarsa, Deep Q network
直接輸出行為的 Policy Gradients
了解所處環境,想像出一個虛擬環境並從中學習的 Model based RL。