ML、DL、Transformer 到底差在哪?

一句話先記住

傳統 ML:你先決定模型看哪些欄位,模型再在這些欄位上學對應規則,也就是「先決定欄位,再學公式」。

深度學習:模型不只學答案,還會從原始資料一步步學出中間表示,也就是「不只學答案,也學怎麼看資料」。

Transformer:它屬於深度學習,但特別強在每個 token 都能動態決定要看誰,直接建立全局關係。

三個互動式例子

ML 重點:先決定特徵,再讓模型學公式。沒放進去的資訊,模型就看不到。

DL 重點:模型會從原始資料自己學中間表示,再用這些表示做判斷。

Transformer 重點:每個 token 都能動態關注其他 token,直接建立全局關係。

動手操作

先選模型能看的欄位

先勾選特徵,再調整房屋條件。你會看到:模型只能用你提供的欄位估價。

這項不進模型,只拿來比較「真實價格」和「模型估價」的差距。
結果面板

固定特徵空間上的函數擬合

模型估價
0
真實價格
0
誤差
0
目前模型真的有看的欄位

你沒提供的特徵,對模型來說就像不存在。

重點整理

傳統 ML 先定義欄位,再學映射規則。模型不會自己從原始資料長出新特徵。

動手操作

從原始像素,一層一層學出中間表示

選一個手寫數字。觀察同一份像素經過多層後,如何變成更抽象的表示。

雜訊越高,原始像素越亂,後面的表示也會比較不穩。
左邊是原始輸入(想像成小型像素圖)。
第 1 層:低階模式

例如:直線、邊緣、轉角、封閉區域

第 2 層:組合模式

例如:圈圈、直立筆劃、雙圈結構

第 3 層:高階語意

把前面的表示整合成與任務更相關的概念

核心觀念

深度學習的關鍵不是只有「層比較多」

關鍵:

模型不只學最後輸出,還在多層網路裡學到「怎麼表示資料比較有用」。這就叫做 representation learning

傳統 ML 人工先寫好特徵,例如:筆畫數、黑點總數、是否對稱。
深度學習 直接從像素開始,自己學出哪些中間模式最有助於辨識。
一句話記住 「ML 是你先整理重點給模型;DL 是模型自己慢慢長出重點。」

操作時請觀察

  • 原始輸入改一點點,哪些中間表示先受到影響?
  • 模型不是直接從像素跳到答案,中間有一層一層的抽象化。
  • 這些中間表示不一定是人先命名好的,但它們很有任務價值。
動手操作

同樣一句話,注意力會因內容而改變

切換句子,再點選有歧義的 token。觀察注意力如何隨語境改變。

點一個 token 看它最關注誰
注意力權重
這次最重要的對齊

架構比較

Transformer 改變的是資訊互動方式

CNN 多半先看局部鄰近區域,用固定視窗抓局部模式。
RNN / LSTM 資訊一步一步傳,越遠的依賴通常越難保留。
Transformer 每個位置都可直接看全部位置,而且權重是根據內容動態算出來。

一句話理解

Transformer 不是「只是更大更深」,而是它讓資料中不同位置之間的關係,變成可以直接、動態、全局地互相參照。

你會看到的差異

  • 長距離依賴:前面出現的資訊,後面可以直接看。
  • 語意對齊:同一個詞在不同上下文,會看不同地方。
  • 多對多關係:不是只沿著一條順序傳遞,而是整體互相參照。