你有沒有想過,AI 是怎麼「學會」下圍棋、打電動、甚至控制無人機的? 它不是被人一步步教的,也不是靠背規則書——它是透過不斷嘗試、犯錯、然後修正,自己把技術練出來的。 這個過程,就叫做強化學習(Reinforcement Learning,RL)

一個你馬上懂的比喻

想像你第一次玩某款格鬥遊戲。 一開始你亂按,偶爾打中對手、偶爾被打飛——但每次被打飛,你會稍微記住「這個按法不行」; 每次打中,你會記住「這個按法有效」。玩個幾十局後,你慢慢摸出套路了。

強化學習的 AI,走的就是完全一樣的路。 差別是:AI 可以在幾小時內模擬幾十萬局,把你要花幾年才能積累的「感覺」,用算法壓縮進去。

三個核心概念

強化學習只有三個主角,搞懂這三個,你就懂強化學習的骨架了。

🤖

Agent(智能體)

負責做決策的那個 AI。它觀察環境、選擇行動。

🌍

Environment(環境)

Agent 所在的世界。可以是遊戲、模擬器、真實機器人。

🏆

Reward(獎勵)

行動後拿到的分數。正分代表做對了,負分代表做錯了。

三者的關係很簡單:Agent 觀察 Environment 的狀態 → 選擇一個行動 → 拿到 Reward → 更新決策策略 → 重複。 這個循環跑幾萬次、幾百萬次之後,Agent 就學會了「在什麼情況下做什麼選擇,能拿到最多獎勵」。

💡 重點:強化學習沒有「標準答案資料集」。AI 不是照著答案學的,而是靠自己探索出來的。這跟我們小時候學走路一樣——沒有人給你逐帧示範,你就是跌倒、爬起來、再試。

用遊戲舉例:讓 AI 學會躲隕石

假設我們設計一個簡單的太空遊戲——戰機在畫面中,隕石從上方落下,玩家要左右移動躲開。

🎮 太空戰機範例

State 戰機的 X 座標、最近一顆隕石的位置與速度
Action 向左移、向右移、不動(三個選項)
Reward 每存活一秒 +1 分;被隕石擊中 −10 分,遊戲結束

一開始,AI 完全不懂規則,可能亂移動然後馬上被打中,拿到 −10 分。 它記住「那個狀態下那個行動很差」。下次遇到類似情況,它傾向換一個方向試試看。 幾千局後,它學會了「隕石在左邊就往右閃,在右邊就往左閃」——不是因為有人告訴它,而是它自己試出來的。

強化學習跟一般 AI 有什麼不同?

平常我們聽到的 AI(比如圖片辨識、ChatGPT)大多是監督式學習:人先準備好大量「問題 + 正確答案」的資料,AI 從這些資料中學習規律。

強化學習的特別在於:它不需要標準答案,只需要一個「好不好」的評分系統(Reward)。 這讓它特別適合用在「正確答案很難定義」或「需要長期策略」的場合——下棋、開車、機器人控制,都是強化學習的主場。

強化學習適合的場景

為什麼它很適合拿來教學?

強化學習有一個其他 AI 技術沒有的特質:學習過程看得見。 你可以觀察 AI 從完全亂玩,到慢慢有策略,到最後打敗人類——這個「成長過程」本身就是最好的 AI 教材。

這也是 LeafLune 的 ReinRoom 平台設計的出發點: 讓學生親眼看著 Reward 曲線上升,親手調整學習率,感受 AI 訓練的每一個細節—— 不是讀教科書上的公式,而是實際讓 AI 在你做的遊戲裡學習。

小結

強化學習的核心其實很直觀:給 AI 一個環境,讓它嘗試、給它回饋,它就會越來越好。 這不是魔法,也不是黑盒子——它是一種非常像「人類學習方式」的機器學習範式, 差別只在於 AI 能夠不喊累、不睡覺地練幾百萬局。

如果你對強化學習感興趣,想親手訓練一個 AI Agent,可以直接去 ReinRoom 平台體驗—— 不需要安裝任何軟體,在瀏覽器裡就能跑。