ML / DL / Transformer 核心差異互動教學

三個互動式例子

ML 重點：先決定特徵，再讓模型學公式。沒放進去的資訊，模型就看不到。

DL 重點：模型會從原始資料自己學中間表示，再用這些表示做判斷。

Transformer 重點：每個 token 都能動態關注其他 token，直接建立全局關係。

動手操作

先選模型能看的欄位

先勾選特徵，再調整房屋條件。你會看到：模型只能用你提供的欄位估價。

坪數地段屋齡樓層

坪數：32 坪

地段分數：7 / 10

屋齡：14 年

樓層：9 樓

真實世界條件（不放進模型）：是否靠近捷運？

這項不進模型，只拿來比較「真實價格」和「模型估價」的差距。

結果面板

固定特徵空間上的函數擬合

模型估價

真實價格

誤差

目前模型真的有看的欄位

你沒提供的特徵，對模型來說就像不存在。

重點整理

傳統 ML 先定義欄位，再學映射規則。模型不會自己從原始資料長出新特徵。

動手操作

從原始像素，一層一層學出中間表示

選一個手寫數字。觀察同一份像素經過多層後，如何變成更抽象的表示。

加入雜訊：0 / 4

雜訊越高，原始像素越亂，後面的表示也會比較不穩。

左邊是原始輸入（想像成小型像素圖）。

第 1 層：低階模式

例如：直線、邊緣、轉角、封閉區域

第 2 層：組合模式

例如：圈圈、直立筆劃、雙圈結構

第 3 層：高階語意

把前面的表示整合成與任務更相關的概念

核心觀念

深度學習的關鍵不是只有「層比較多」

關鍵：

模型不只學最後輸出，還在多層網路裡學到「怎麼表示資料比較有用」。這就叫做 representation learning。

傳統 ML 人工先寫好特徵，例如：筆畫數、黑點總數、是否對稱。

深度學習 直接從像素開始，自己學出哪些中間模式最有助於辨識。

一句話記住 「ML 是你先整理重點給模型；DL 是模型自己慢慢長出重點。」

操作時請觀察

原始輸入改一點點，哪些中間表示先受到影響？
模型不是直接從像素跳到答案，中間有一層一層的抽象化。
這些中間表示不一定是人先命名好的，但它們很有任務價值。

動手操作

同樣一句話，注意力會因內容而改變

切換句子，再點選有歧義的 token。觀察注意力如何隨語境改變。

點一個 token 看它最關注誰

注意力權重

這次最重要的對齊

架構比較

Transformer 改變的是資訊互動方式

CNN 多半先看局部鄰近區域，用固定視窗抓局部模式。

RNN / LSTM 資訊一步一步傳，越遠的依賴通常越難保留。

Transformer 每個位置都可直接看全部位置，而且權重是根據內容動態算出來。

一句話理解

Transformer 不是「只是更大更深」，而是它讓資料中不同位置之間的關係，變成可以直接、動態、全局地互相參照。

你會看到的差異

長距離依賴：前面出現的資訊，後面可以直接看。
語意對齊：同一個詞在不同上下文，會看不同地方。
多對多關係：不是只沿著一條順序傳遞，而是整體互相參照。

ML、DL、Transformer 到底差在哪？

一句話先記住

三個互動式例子

先選模型能看的欄位

固定特徵空間上的函數擬合

從原始像素，一層一層學出中間表示

深度學習的關鍵不是只有「層比較多」

操作時請觀察

同樣一句話，注意力會因內容而改變

Transformer 改變的是資訊互動方式

一句話理解

你會看到的差異