Q-Learning 互動實驗
強化學習:Q-Learning
按「單步」看一次更新,按「一鍵訓練到完成」看策略如何形成。
State:當前情境
Action:可選動作
Reward:本步回饋
Q 值:動作評分
第一頁|迷宮學習
5×5 迷宮
目標:從起點走到終點,避開牆壁與陷阱。
規則:每回合最多 32 步,共 60 回合。
回饋:終點 +1、陷阱 -1、移動 -0.03、撞牆 -0.12。
參數與本步更新
Q 更新
按「單步」開始。
Q(s,a) ← Q(s,a) + α × [reward + γ × maxQ(s') - Q(s,a)]
看右側 Reward 走勢與 Q-Table 亮度變化。
Reward 走勢
最近 70 步
訓練結果
最佳路徑
完成訓練後顯示最佳路徑。
Q-Table(位置 × 動作)
可走格 × 4 動作
市場環境與狀態
關卡 1|穩定市場
操作
快速體驗
關卡 1:趨勢穩定、較容易學習;關卡 2:高波動、訊號雜訊較多;關卡 3:中途規則改變(Regime Shift),需重新適應。
規則:完整訓練 240 步;狀態=市場(上漲/下跌/震盪) × 持倉(空手/多單)。
回饋包含損益、交易成本、風險;關卡 3 在第 45 步後轉向。
本步更新
Q 更新
決策模式
--
下一個 State
--
TD Error
--
本步市場報酬
--
按「單步執行」開始。
Q(s,a) ← Q(s,a) + α × [reward + γ × maxQ(s') - Q(s,a)]
看 Q-Table 亮度變化,找出 AI 偏好的動作。
Q-Table
6 狀態 × 3 動作
學習結論
訓練中
按「一鍵訓練到完成」查看本次學習結論。
Test Scoring
尚未測試
完成訓練後可執行測試打分,查看模型報酬率。