Reinforcement[͵riɪnˋforsmənt] learning (RL) 強化學習是機器學習其中的一大類。讓電腦從什麼都不懂的狀態下，不斷嘗試，從錯誤中學習，最後找到其中的規律。Alpha go 下圍棋就是典型的例子; 讓電腦自已玩Atari (小精靈) 遊戲也是另一個例子。

強化學習會在每次的行為中給予一個分數，比如選擇 “笑臉” 就給予一個高分，選擇 “哭臉” 就給予一個低分。然後下次用同樣的行為拿高分，避免低分的行為。

強化學習演算法

強化學習有很多種演算法，比如

通過行為價值行為的 Q Learning, Sarsa, Deep Q network
直接輸出行為的 Policy Gradients
了解所處環境，想像出一個虛擬環境並從中學習的 Model based RL。

強化學習簡介