什麼是強化學習？用遊戲解釋 AI 如何自己學會玩

你有沒有想過，AI 是怎麼「學會」下圍棋、打電動、甚至控制無人機的？它不是被人一步步教的，也不是靠背規則書——它是透過不斷嘗試、犯錯、然後修正，自己把技術練出來的。這個過程，就叫做強化學習（Reinforcement Learning，RL）。

一個你馬上懂的比喻

想像你第一次玩某款格鬥遊戲。一開始你亂按，偶爾打中對手、偶爾被打飛——但每次被打飛，你會稍微記住「這個按法不行」；每次打中，你會記住「這個按法有效」。玩個幾十局後，你慢慢摸出套路了。

強化學習的 AI，走的就是完全一樣的路。差別是：AI 可以在幾小時內模擬幾十萬局，把你要花幾年才能積累的「感覺」，用算法壓縮進去。

強化學習只有三個主角，搞懂這三個，你就懂強化學習的骨架了。

🤖

負責做決策的那個 AI。它觀察環境、選擇行動。

🌍

Agent 所在的世界。可以是遊戲、模擬器、真實機器人。

🏆

行動後拿到的分數。正分代表做對了，負分代表做錯了。

三者的關係很簡單：Agent 觀察 Environment 的狀態 → 選擇一個行動 → 拿到 Reward → 更新決策策略 → 重複。這個循環跑幾萬次、幾百萬次之後，Agent 就學會了「在什麼情況下做什麼選擇，能拿到最多獎勵」。

💡 重點：強化學習沒有「標準答案資料集」。AI 不是照著答案學的，而是靠自己探索出來的。這跟我們小時候學走路一樣——沒有人給你逐帧示範，你就是跌倒、爬起來、再試。

假設我們設計一個簡單的太空遊戲——戰機在畫面中，隕石從上方落下，玩家要左右移動躲開。

State 戰機的 X 座標、最近一顆隕石的位置與速度

Action 向左移、向右移、不動（三個選項）

Reward 每存活一秒 +1 分；被隕石擊中 −10 分，遊戲結束

一開始，AI 完全不懂規則，可能亂移動然後馬上被打中，拿到 −10 分。它記住「那個狀態下那個行動很差」。下次遇到類似情況，它傾向換一個方向試試看。幾千局後，它學會了「隕石在左邊就往右閃，在右邊就往左閃」——不是因為有人告訴它，而是它自己試出來的。

平常我們聽到的 AI（比如圖片辨識、ChatGPT）大多是監督式學習：人先準備好大量「問題 + 正確答案」的資料，AI 從這些資料中學習規律。

強化學習的特別在於：它不需要標準答案，只需要一個「好不好」的評分系統（Reward）。這讓它特別適合用在「正確答案很難定義」或「需要長期策略」的場合——下棋、開車、機器人控制，都是強化學習的主場。

強化學習有一個其他 AI 技術沒有的特質：學習過程看得見。你可以觀察 AI 從完全亂玩，到慢慢有策略，到最後打敗人類——這個「成長過程」本身就是最好的 AI 教材。

這也是 LeafLune 的 ReinRoom 平台設計的出發點：讓學生親眼看著 Reward 曲線上升，親手調整學習率，感受 AI 訓練的每一個細節—— 不是讀教科書上的公式，而是實際讓 AI 在你做的遊戲裡學習。

強化學習的核心其實很直觀：給 AI 一個環境，讓它嘗試、給它回饋，它就會越來越好。這不是魔法，也不是黑盒子——它是一種非常像「人類學習方式」的機器學習範式，差別只在於 AI 能夠不喊累、不睡覺地練幾百萬局。

如果你對強化學習感興趣，想親手訓練一個 AI Agent，可以直接去 ReinRoom 平台體驗—— 不需要安裝任何軟體，在瀏覽器裡就能跑。