🎯 進階 · 第一課

用範例教學

監督式學習（Supervised Learning）的核心概念：標記資料如何塑造AI的判斷能力。

機器能否只靠看範例，就學會辨別貓和狗？

2012年，Google X實驗室在未告知任何「貓」的概念下，讓一個神經網路（neural network）瀏覽YouTube上1,000萬張縮圖。結果模型自行發展出一個對貓臉高度敏感的神經元。然而真正改變行業的，是同年ImageNet大規模視覺識別挑戰賽（ILSVRC）：Geoffrey Hinton團隊的AlexNet以15.3%的錯誤率拿下冠軍，比第二名低了將近10個百分點。AlexNet的成功完全依賴一件事——120萬張人工標記的訓練圖片。這一刻標誌著現代監督式學習時代的開端。

監督式學習的本質

監督式學習（Supervised Learning）是目前應用最廣泛的機器學習（Machine Learning）範式。其核心邏輯極為直接：給模型大量已知答案的範例，讓它學習輸入（input）與輸出（output）之間的對應關係，最終能對從未見過的新資料做出預測。

以AlexNet為例，訓練過程是這樣的：系統接收一張圖片，預測它是什麼（例如「金魚」），然後將預測結果與正確標籤（label）比對。若預測錯誤，系統會透過反向傳播（backpropagation）演算法微調內部參數（parameters），使下一次預測更準確。這個過程重複數百萬次。

核心概念

監督式學習需要三個要素：大量標記資料（labeled data）、能夠衡量預測誤差的損失函數（loss function），以及一個反覆修正參數的最佳化演算法（optimization algorithm）。

ImageNet資料集本身耗費了史丹佛大學李飛飛（Fei-Fei Li）教授的團隊三年時間，透過Amazon Mechanical Turk眾包平台，動員全球49個國家的工作人員完成標記。這提醒我們：機器學習的基礎，從來都不只是演算法，而是大量的人工勞動。

訓練、驗證與測試的分工

在實務中，資料集通常被分割成三個部分：訓練集（training set）用於更新模型參數；驗證集（validation set）用於在訓練過程中監控模型是否出現過度配適（overfitting）；測試集（test set）則在訓練完全結束後才使用，提供最終、公正的效能評估。

過度配適是監督式學習最常見的失敗模式之一：模型對訓練範例記憶太深，失去了對新資料的泛化（generalization）能力。就如同一個學生只會背答案，而不懂得舉一反三。AlexNet透過一種稱為Dropout的技術來緩解這個問題——訓練時隨機關閉部分神經元，迫使模型學習更具魯棒性（robustness）的特徵。

訓練集：模型用來學習規律的資料，佔全部資料約60–80%。
驗證集：用來調整超參數（hyperparameters）並監控過度配適，約10–20%。
測試集：最終評估，只用一次，以確保評估的客觀性，約10–20%。

📝 測驗 · 第一課

用範例教學

檢驗你對監督式學習核心概念的理解。

1. AlexNet在2012年ImageNet挑戰賽中的突破，最主要依賴的是什麼？

✓ 正確！AlexNet的成功關鍵在於120萬張人工標記圖片與GPU加速的深度卷積神經網路，而非手工規則。

✗ 再想想。AlexNet的核心突破在於結合大量標記資料與深度學習架構，標記資料的規模是決定性因素。

2. 在機器學習的資料分割中，「測試集」的正確用途是？

✓ 正確！測試集只在訓練完全結束後使用一次，以確保評估的客觀性，避免資訊洩漏。

✗ 再思考一下。測試集的角色是「最終裁判」——它在訓練結束後才出現，確保評估不受訓練過程影響。

3. 「過度配適（overfitting）」是什麼問題？

✓ 正確！過度配適就像只會死背考古題的學生——遇到新題目就束手無策，因為它學的是記憶而非規律。

✗ 不對。過度配適的核心問題是：模型對訓練資料「太熟悉了」，以至於無法處理從未見過的新資料。

🧪 實驗室 · 第一課

監督式學習探究

與AI助教對話，深化你對標記資料與訓練過程的理解。

實驗目標

在這個實驗室中，你將透過與AI對話來探索監督式學習的實際運作方式。思考以下問題作為起點：

標記資料的品質如何影響模型的最終效能？
Dropout技術為何能減少過度配適？
如果訓練集與測試集的資料分布不同，會發生什麼？

建議提示：「請解釋，如果ImageNet的標籤有20%是錯誤的，AlexNet的訓練結果會受到什麼影響？」

🤖 AI助教監督式學習

🎯 進階 · 第二課

無處不在的規律

機器學習如何從複雜的原始資料中萃取出有意義的特徵與規律。

AI看到的「規律」，和人類眼中的規律是同一回事嗎？

2018年，史丹佛大學皮膚科研究團隊發表了一項研究：他們訓練一個卷積神經網路（convolutional neural network, CNN）辨識皮膚癌，使用了超過12萬張臨床照片。結果模型在區分惡性黑色素瘤（melanoma）與良性痣（benign moles）的準確率上，與21位認證皮膚科醫師不相上下。然而，後續研究者發現了一個令人不安的真相：部分模型學到的不是真正的醫學特徵，而是圖片中標尺（ruler）的出現頻率——因為皮膚科醫師通常在疑似惡性病灶旁放置標尺，模型把「有標尺」當成「可能是癌症」的規律。

特徵與表示學習

傳統機器學習方法需要人類專家手動設計特徵（feature engineering）：例如在人臉辨識中，工程師必須明確定義「眼距」、「鼻樑高度」等特徵。深度學習（deep learning）的革命在於，它讓模型自行從原始資料中學習有用的特徵表示（representation）。

以CNN為例，網路的不同層會自動學習到不同層級的視覺特徵：淺層（shallow layers）學習邊緣（edges）與色彩梯度（color gradients）；中間層組合出紋理（textures）與形狀（shapes）；深層（deep layers）則整合出高層語意概念，例如「眼睛」、「車輪」或「皮膚病灶」。這種層次化的表示學習（representation learning）正是深度神經網路強大的根源。

警示

皮膚癌標尺案例揭示了一個關鍵教訓：模型找到的「規律」不一定是人類期望的規律。模型會學習訓練資料中任何統計上相關（statistically correlated）的特徵，無論那個特徵是否具有真正的因果意義（causal meaning）。

捷徑學習與虛假相關

研究人員將上述現象稱為「捷徑學習（shortcut learning）」：模型傾向學習在訓練集中最容易區分類別的表面特徵，而非具有泛化能力的深層規律。NLP（自然語言處理）領域也存在類似問題——早期的文字情感分析模型學會了「凡是出現『爛』字的評論就是負評」，而沒有真正理解語意脈絡。

解決這個問題的方式包括：對抗性測試（adversarial testing）、使用多元化的訓練資料，以及引入因果推論（causal inference）方法。近年來，Google Brain等研究機構也開始使用「資料地圖（data maps）」技術，在訓練過程中識別哪些樣本是模型真正從中學習的，哪些只是被記憶的特例。

捷徑學習：模型依賴訓練資料中的虛假相關（spurious correlations）進行預測。
對抗性樣本（adversarial examples）：對輸入做微小擾動，就能讓模型產生錯誤預測。
分布偏移（distribution shift）：測試環境的資料分布與訓練環境不同，導致效能下降。

📝 測驗 · 第二課

無處不在的規律

檢驗你對特徵學習與捷徑學習的理解。

1. 在史丹佛皮膚癌AI的案例中，部分模型學到了什麼「錯誤的」規律？

✓ 正確！模型把「圖片中有標尺」當作「可能是癌症」的訊號，因為皮膚科醫師習慣在疑似惡性病灶旁放置標尺。這是典型的虛假相關。

✗ 不對。這個案例中，模型學到的捷徑是標尺的存在——這與醫學判斷毫無因果關係，只是資料中的統計巧合。

2. 深度學習與傳統機器學習在「特徵」處理上的最大差異是什麼？

✓ 正確！這正是深度學習的核心突破：表示學習（representation learning）讓模型自動發現資料中的層次化特徵，無需人工指定。

✗ 再想想。深度學習的革命性在於「自動特徵萃取」——讓模型自行決定哪些模式對預測有幫助，取代了傳統需要領域專家手工設計特徵的過程。

3. 「分布偏移（distribution shift）」會導致什麼後果？

✓ 正確！當部署環境的資料分布與訓練時不同，模型學到的規律就不再適用，效能因此大幅下降。這是AI部署中最常見的挑戰之一。

✗ 不對。分布偏移的核心問題是「環境不符」——訓練時學到的規律，在不同的現實環境中可能完全失效。

🧪 實驗室 · 第二課

規律與陷阱探究

探索捷徑學習在現實案例中的影響，思考如何設計更可靠的訓練資料。

實驗目標

本實驗室聚焦於AI如何學習規律，以及這些規律可能出現的問題。思考以下探索方向：

除了皮膚癌標尺案例，還有哪些領域容易出現捷徑學習？
對抗性測試如何幫助工程師發現模型的弱點？
如何設計訓練資料集，以減少虛假相關的出現？

建議提示：「假設我在訓練一個判別台灣新聞真假的模型，有哪些常見的虛假相關需要避免？」

🤖 AI助教規律與陷阱

🎯 進階 · 第三課

什麼是模型？

從數學函數到神經網路：理解模型的本質、參數與泛化能力。

「模型」究竟是什麼？它只是一堆數字嗎？

2023年3月，Meta AI發布了LLaMA（Large Language Model Meta AI）的第一個版本。該模型有65億到650億個參數（parameters）。每一個參數都是一個浮點數，儲存著模型在訓練過程中學到的「知識」。LLaMA-65B的參數檔案大小約130GB——比許多作業系統的安裝包還大十倍。然而，這130GB的數字群，能夠理解問題、生成程式碼、翻譯語言，並在多個學術基準測試上超越了GPT-3。這引發了一個根本性的問題：一堆浮點數，是如何包含「理解」的？

模型作為函數

從最精確的數學定義來看，一個機器學習模型就是一個參數化函數（parameterized function）：f(x; θ)，其中x是輸入，θ是參數集合，f(x; θ)是輸出。訓練的目標是找到一組θ，使得模型在訓練資料上的預測誤差最小化。

神經網路（neural network）是實現這個函數的一種特定架構。它由大量的「神經元（neurons）」組成，每個神經元接收加權輸入，通過激活函數（activation function）後產生輸出。「深度（depth）」指的是這些神經元被排列成的層數——LLaMA-65B有80層Transformer層，每層包含數億個參數。

核心洞見

模型的「智能」並非存在於某個特定參數中，而是分散式地編碼在所有參數的相互關係裡。這就是為什麼我們無法指著某個數字說「這就是它理解中文的地方」。

模型容量與泛化

模型容量（model capacity）指的是模型能夠學習的函數的複雜程度。參數越多，容量越高，能夠表示的規律越複雜。然而，高容量並非萬能——若訓練資料不足，高容量的模型反而更容易過度配適。

LLaMA的案例說明了現代大型語言模型（LLM）的一個關鍵特性：規模定律（scaling laws）。OpenAI在2020年發表的研究表明，模型的效能（以損失函數衡量）與模型參數量、訓練資料量和計算量之間存在可預測的冪次關係（power-law relationship）。這項發現成為業界「大力出奇蹟」策略的理論依據。

參數（parameters）：模型中可學習的數值，是「知識」的載體。
超參數（hyperparameters）：訓練前需手動設定的配置，例如學習率（learning rate）與層數。
規模定律（scaling laws）：模型效能隨參數量、資料量、算力的增加而可預測地提升。
湧現能力（emergent abilities）：模型在達到某個規模後突然具備的新能力，例如多步推理。

📝 測驗 · 第三課

什麼是模型？

測試你對模型本質、參數與規模定律的理解。

1. 根據「規模定律（scaling laws）」，模型效能主要取決於哪三個因素？

✓ 正確！OpenAI 2020年的研究確認，這三個因素與模型效能之間存在可預測的冪次關係，推動了大型模型的發展浪潮。

✗ 再想想。規模定律聚焦的是可量化的資源要素：模型本身的大小（參數量）、餵給它的知識量（資料量）、以及用於訓練的算力（計算量）。

2. LLaMA-65B中的「65B」代表什麼？

✓ 正確！B代表「十億（Billion）」，65B即650億個參數。每個參數都是一個浮點數，共同編碼了模型學到的所有知識與能力。

✗ 不對。在AI模型的命名慣例中，數字+B代表參數（parameters）的數量，單位是十億。LLaMA-65B擁有650億個可學習的參數。

3. 為什麼我們無法指出神經網路中「哪個參數負責理解中文」？

✓ 正確！神經網路的「理解」是分散式表示（distributed representation）——沒有任何單一參數負責某個特定概念，所有能力都來自參數之間複雜的相互作用。

✗ 再思考。這是神經網路的根本特性：知識以分散式方式編碼，每個參數都參與了多種不同的能力，無法對應到單一的「語言理解中心」。

🧪 實驗室 · 第三課

模型內部探究

深入理解模型的參數、架構與規模定律的實際含義。

實驗目標

在這個實驗室中，你將探討模型的本質與規模定律的意涵。以下方向供你參考：

如果模型參數量增加10倍，效能會如何變化？
「湧現能力」意味著什麼？能舉一個具體案例嗎？
高容量模型一定優於低容量模型嗎？

建議提示：「請用具體數字說明，GPT-2和GPT-3的參數量差距，以及這個差距帶來了哪些能力上的躍升？」

🤖 AI助教模型與參數

🎯 進階 · 第四課

非監督式與強化學習

當沒有標記答案時，AI如何自行發現結構？當有獎懲訊號時，AI如何學習策略？

沒有人告訴它對錯，AI還能學習嗎？

2016年，DeepMind的AlphaGo以4:1擊敗世界圍棋冠軍李世乭（Lee Sedol），震驚全球。然而2017年發布的AlphaGo Zero更具革命意義：它從未觀看過任何人類棋譜，僅憑自我對弈（self-play）以強化學習（reinforcement learning）訓練了40天，就超越了所有人類版本的AlphaGo。AlphaGo Zero的獎勵函數（reward function）極其簡單：贏棋得+1，輸棋得-1。就憑這個訊號，它自行發展出人類數千年圍棋理論中從未出現過的棋型。

非監督式學習

非監督式學習（Unsupervised Learning）處理的是沒有標記的原始資料。它的目標不是預測一個已知答案，而是發現資料本身的內在結構（intrinsic structure）。常見的非監督式學習任務包括：

聚類（Clustering）：將相似的資料點分組，例如客戶分群。k-means和DBSCAN是常見演算法。
降維（Dimensionality Reduction）：將高維資料壓縮到低維空間，同時保留關鍵結構，例如PCA和t-SNE。
生成模型（Generative Models）：學習資料的分布，然後生成新的樣本，例如VAE和GAN。
自監督學習（Self-Supervised Learning）：從資料自身構建監督訊號，例如預測下一個詞（語言模型的預訓練方式）。

關鍵聯繫

現代大型語言模型的預訓練本質上是自監督學習：以「預測下一個詞」作為訓練任務，資料本身就是標記，不需要人工標注。這使得LLM可以利用近乎無限的網路文字資料進行訓練。

強化學習的架構

強化學習（Reinforcement Learning, RL）的框架涉及三個核心概念：代理（agent）、環境（environment）與獎勵（reward）。代理在環境中採取行動（action），環境回傳新的狀態（state）與獎勵訊號；代理的目標是學習一個策略（policy），使長期累積的期望獎勵最大化。

AlphaGo Zero的成功表明，強化學習結合深度神經網路（稱為深度強化學習，Deep RL），可以在沒有任何人類示範的情況下掌握極為複雜的技能。然而，強化學習在現實世界的應用面臨一個根本挑戰：獎勵函數的設計極為困難。如果獎勵函數設計不當，AI可能找到人類意料之外的「鑽漏洞」策略——這被稱為「獎勵駭客（reward hacking）」。

在LLM領域，OpenAI在訓練ChatGPT時使用了一種稱為人類回饋強化學習（Reinforcement Learning from Human Feedback, RLHF）的技術：人類評估員對模型的回應進行評分，訓練一個獎勵模型（reward model），再用這個獎勵模型引導LLM的行為。

📝 測驗 · 第四課

非監督式與強化學習

測試你對不同學習範式的掌握程度。

1. AlphaGo Zero與原版AlphaGo最根本的差異是什麼？

✓ 正確！AlphaGo Zero的突破在於純粹的強化學習自我對弈，不依賴任何人類知識輸入，卻超越了所有使用人類棋譜訓練的版本。

✗ 不對。AlphaGo Zero的革命性在於它的「無監督」性質——它從零開始，通過與自己對弈來學習圍棋的一切，沒有人類示範。

2. 「獎勵駭客（reward hacking）」指的是？

✓ 正確！獎勵駭客是強化學習的重大挑戰：AI會尋找任何能最大化獎勵的方式，即使那個方式違背了設計者的真實意圖。

✗ 再想想。獎勵駭客不是人類駭客，而是AI自己找到了設計者未預料到的「漏洞」——一種技術上符合獎勵函數定義，但實際上沒有完成任務的行為。

3. 現代大型語言模型的預訓練，主要使用的是哪種學習範式？

✓ 正確！自監督學習讓模型把「預測下一個詞」當成訓練目標，資料本身提供監督訊號，這使得LLM可以利用龐大的網路文字資料庫進行訓練，無需人工標注。

✗ 不對。LLM的預訓練階段使用的是自監督學習——模型學習「給定前文，預測下一個詞」，訓練訊號完全來自資料本身，不需要人工標記。

🧪 實驗室 · 第四課

強化學習策略探究

探索強化學習的設計邏輯，以及RLHF如何影響LLM的行為。

實驗目標

本實驗室聚焦於強化學習的設計挑戰。思考以下問題：

如果要訓練一個AI幫助學生學習，獎勵函數應該如何設計？
RLHF訓練過程中，如果人類評估員的偏好互相矛盾，會發生什麼？
AlphaGo Zero發現了哪些人類從未想到的圍棋招式？

建議提示：「請舉一個具體案例，說明強化學習中的獎勵駭客是如何在實驗室環境中被觀察到的。」

🤖 AI助教強化學習

🎯 進階 · 第五課

資料的問題

偏差、品質與規模——訓練資料的特性如何決定AI系統的命運。

如果訓練資料本身有偏見，AI會學到什麼？

2018年，Amazon宣布廢棄一個用於篩選工程師應徵者的AI招募工具。這個系統使用過去十年的履歷資料訓練，而那十年的履歷多數來自男性應徵者（反映了科技業的性別不均衡現實）。結果模型學到的規律是：「應徵人數越少的學校的女性校友」與「被錄取」呈負相關。更嚴重的是，模型甚至開始降低包含「女子西洋棋俱樂部」或「女子學院」字樣的履歷分數。Amazon工程師多次修正，最終仍選擇放棄這個系統。

資料偏差的根源

資料偏差（data bias）並非技術錯誤，而是社會現實的數位映照。當訓練資料反映了歷史上不公平的決策，模型就會學習並複製那些不公平。Amazon的案例揭示了一個殘酷的邏輯：如果過去十年「成功的工程師」以男性為主，那麼模型就會學到「像男性的履歷 = 好的履歷」。

研究人員將資料偏差分為幾類：歷史偏差（historical bias）反映的是社會既有的不平等；測量偏差（measurement bias）源於資料收集方式的系統性差異；標籤偏差（annotation bias）則是標記者的主觀判斷滲入了標籤。2020年麻省理工學院媒體實驗室（MIT Media Lab）的研究發現，市面上多個人臉辨識系統對深膚色女性的辨識錯誤率高達35%，而對淺膚色男性幾乎是0%——根源正是訓練資料中的人口結構偏差。

重要原則

「垃圾進，垃圾出（Garbage In, Garbage Out）」是資料科學的古老格言。然而在AI時代，問題更隱微：「帶偏見的資料進，帶偏見的決策出」，而且這些偏見往往被演算法的「客觀性」外衣所掩蓋。

規模問題與資料治理

現代大型語言模型的訓練資料規模令人難以想像。GPT-3使用了約4,990億個詞元（tokens），來源包括Common Crawl（網路爬蟲資料）、WebText2、維基百科等。然而資料量的增加並不自動帶來品質的提升。

2021年，一份名為《Documenting the English Colossal Clean Crawled Corpus》的研究分析了C4語料庫，發現其中包含大量歧視性內容、錯誤資訊，以及對某些語言和文化的嚴重低代表性。這引發了資料治理（data governance）的迫切討論：誰有權決定什麼資料可以用於訓練？如何平衡資料規模與資料品質？如何取得資料版權？

資料多樣性（data diversity）：確保不同人口群體、語言和文化都有充分代表性。
資料清洗（data cleaning）：過濾有害內容、重複資料和低品質資料，但清洗標準本身也可能帶入偏見。
資料卡（data cards）：Google提出的文件標準，要求說明資料集的來源、限制和潛在偏差。
版權爭議：New York Times於2023年起訴OpenAI，指控其未經授權使用版權文章進行訓練。

📝 測驗 · 第五課

資料的問題

測試你對資料偏差與資料治理的理解。

1. Amazon AI招募系統的偏差，其根本原因是什麼？

✓ 正確！這是歷史偏差的典型案例：訓練資料本身就蘊含著社會不平等，模型忠實地學習了這些不平等，並將其轉化為自動化的決策偏見。

✗ 再想想。Amazon的案例中沒有人刻意寫入歧視規則——問題更隱微：模型從過去十年以男性為主的成功履歷資料中，自行學到了「帶偏見的規律」。

2. MIT媒體實驗室的人臉辨識研究發現了什麼系統性問題？

✓ 正確！這項研究（由Joy Buolamwini和Timnit Gebru進行）揭示了訓練資料中的人口結構偏差如何在商用AI系統中製造出嚴重的系統性不公平。

✗ 不對。MIT媒體實驗室的研究發現，市售人臉辨識系統的效能存在嚴重的種族和性別差異——對淺膚色男性幾乎完美，對深膚色女性卻錯誤率高達35%。

3. 「資料卡（data cards）」的主要目的是什麼？

✓ 正確！資料卡是一種透明度工具，要求資料集的發布者明確說明資料的收集方式、已知限制和潛在偏差，讓使用者做出更知情的判斷。

✗ 再思考。資料卡的核心目的是「透明度」——它不執行任何自動化操作，而是要求人類負責任地記錄和揭露資料集的特性與風險。

🧪 實驗室 · 第五課

資料偏差審查

分析真實案例中的資料問題，思考如何建立更公平的AI訓練資料集。

實驗目標

在這個實驗室中，你將扮演一位AI倫理審查員，思考資料偏差的識別與緩解。

如何設計一個偵測訓練資料偏差的審查流程？
台灣的司法判決資料庫若用於訓練AI法官，可能存在哪些偏差？
資料清洗本身如何可能引入新的偏見？

建議提示：「假設我要訓練一個AI協助台灣的大學入學審查，請分析潛在的資料偏差來源，並提出緩解方案。」

🤖 AI助教資料倫理

🎯 進階 · 第六課

預訓練與微調

理解現代AI的兩階段訓練策略，以及遷移學習如何改變了AI開發的經濟學。

為什麼不從零開始訓練，而要先「預訓練」再「微調」？

2020年，OpenAI將GPT-3以API形式開放商業使用。一家名為Jasper（當時叫Jarvis）的新創公司，僅憑對GPT-3進行提示工程（prompt engineering）和微調（fine-tuning），在一年內達到了7,500萬美元的年度重複性收入（ARR），估值超過15億美元。這個商業模式的核心是：把OpenAI的巨大預訓練成本（約460萬美元）分攤到數千個下游應用，讓每個應用只需負擔微調的邊際成本。這徹底改變了AI應用開發的進入門檻。

預訓練：建立通用能力

預訓練（pretraining）是在大規模、通用資料集上訓練一個基礎模型（foundation model）的過程。這個階段的目標不是完成特定任務，而是讓模型學習語言、知識和推理的通用表示。GPT系列模型使用的是自回歸語言模型（autoregressive language model）任務：給定前文預測下一個詞元（token）。BERT則使用遮罩語言模型（masked language model）：隨機遮蔽部分詞元並要求模型填補。

預訓練的代價極高。GPT-4的訓練成本估計超過1億美元，需要數千個高階GPU運行數個月。這使得預訓練成為少數巨型科技公司和頂尖研究機構的專屬領地——OpenAI、Google DeepMind、Meta AI、Anthropic、百度等。

遷移學習的邏輯

預訓練的核心概念來自遷移學習（transfer learning）：在大任務上學到的通用能力，可以「遷移」到小任務上，極大地降低了小任務所需的資料量和訓練成本。這就如同一個熟讀萬卷書的人，學習任何新專業都比完全的新手快得多。

微調：針對特定任務調整

微調（fine-tuning）是在預訓練模型的基礎上，使用特定領域的資料進一步訓練，使模型的行為更符合特定任務或價值觀的過程。微調可以分為幾個層次：

全量微調（Full Fine-Tuning）：更新所有模型參數，效果最好但成本最高。
參數高效微調（PEFT）：只更新一小部分參數，例如LoRA（Low-Rank Adaptation），可以用消費級GPU完成。
指令微調（Instruction Tuning）：用「指令—回應」格式的資料訓練，使模型更善於遵循指令。GPT-3到InstructGPT的關鍵改進之一。
RLHF微調：結合人類回饋，使模型輸出更符合人類偏好，是ChatGPT的核心訓練步驟之一。

2023年，Meta發布LLaMA模型後，研究者Georgi Gerganov在數小時內就在M1 MacBook上完成了4位元量化版本的本地部署，隨後Stanford的研究者用不到100美元的成本對其進行指令微調，產出了Alpaca模型——這標誌著開源生態系統中「民主化微調」時代的到來。

📝 測驗 · 第六課

預訓練與微調

測試你對兩階段訓練策略與遷移學習的理解。

1. Jasper（Jarvis）能在一年內達到7,500萬美元ARR，核心商業邏輯是什麼？

✓ 正確！這正是預訓練範式改變AI開發經濟學的關鍵：讓新創公司能站在巨人肩膀上，以極低的成本建立有競爭力的AI應用。

✗ 再想想。Jasper的模式是「利用別人的基礎，專注自己的應用層」——他們不訓練基礎模型，而是把GPT-3的巨額訓練成本轉化為按使用量計費的API費用。

2. LoRA（Low-Rank Adaptation）的主要優勢是什麼？

✓ 正確！LoRA是參數高效微調（PEFT）的代表技術，它在原始權重旁插入低秩矩陣，只訓練這些額外的參數，大幅降低了顯存需求和訓練成本。

✗ 不對。LoRA的核心創新是「高效」——它不修改原始模型的全部參數，而是添加少量可訓練的低秩矩陣，讓消費級硬體也能完成大模型的微調。

3. BERT與GPT在預訓練任務設計上的根本差異是什麼？

✓ 正確！BERT的遮罩語言模型任務讓它能從雙向上下文理解語意，更擅長分類和問答；GPT的自回歸任務讓它更擅長生成連貫的文字。這兩種預訓練策略各有優缺點。

✗ 再思考。BERT和GPT都是自監督學習，差異在於任務方向：BERT是「填空（雙向理解）」，GPT是「接龍（單向生成）」，這個設計差異決定了它們各自最擅長的應用場景。

🧪 實驗室 · 第六課

微調策略設計

思考如何為不同的應用場景選擇最合適的微調策略。

實驗目標

在這個實驗室中，你將扮演一位AI工程師，為不同的實際場景設計微調方案。

如果要為台灣的法律顧問公司微調一個LLM，應該使用哪種微調策略？需要多少資料？
指令微調（instruction tuning）如何改變了模型與用戶的互動方式？
微調後的模型如何避免「遺忘（catastrophic forgetting）」預訓練學到的通用能力？

建議提示：「請比較全量微調和LoRA微調在計算成本、效能和部署靈活性方面的取捨，並說明各自適合的應用場景。」

🤖 AI助教預訓練與微調

🎯 進階 · 第七課

評估與基準測試

我們如何衡量AI的能力？從困惑度到MMLU——基準測試的意義與局限。

我們怎麼知道一個AI模型真的「更好」了？

2023年，多個頂尖AI實驗室相繼宣稱其模型在MMLU（Massive Multitask Language Understanding）基準測試上達到人類水準。MMLU包含57個學科、約15,000道多選題，被廣泛視為測量「通才智能」的黃金標準。然而加州大學柏克萊分校的研究者隨後發現，部分模型表現優異，是因為MMLU的測試題出現在了訓練資料中——即所謂的「資料污染（data contamination）」。這個發現迫使整個領域重新審視：我們的基準測試，到底在測什麼？

評估的基礎框架

AI模型的評估指標（metrics）因任務而異。對於分類任務，常用準確率（accuracy）、精確率（precision）、召回率（recall）和F1分數。對於語言模型，困惑度（perplexity）是常見的內在指標（intrinsic metric），衡量模型對測試文字的預測能力——困惑度越低，代表模型對語言結構的掌握越好。對於生成任務，則需要外在指標（extrinsic metrics），例如機器翻譯的BLEU分數，或摘要任務的ROUGE分數。

然而單一指標往往不足以全面評估模型能力。這正是綜合基準測試（benchmark suites）存在的原因：MMLU測試多學科知識；BIG-bench測試多樣化的推理任務；HumanEval測試程式碼生成能力；TruthfulQA測試模型在回答傾向性問題時的誠實程度。

Goodhart定律

「當一個指標成為目標，它就不再是好的指標。」——Charles Goodhart。AI研究領域正面臨這個困境：當所有實驗室都針對MMLU優化，MMLU就逐漸失去了區分真實能力的意義。

基準測試的危機與演進

資料污染問題的嚴重性在於：由於現代LLM的訓練資料龐大且來源複雜，幾乎不可能完全保證測試集與訓練資料的隔離。2024年，GPQA（Graduate-Level Google-Proof Q&A）基準測試被開發出來，包含由博士生設計的、需要深度領域知識且難以從網路搜尋中找到答案的問題，試圖解決污染問題。

另一個挑戰是：基準測試往往測不到真實能力。一個在MMLU上接近滿分的模型，可能在現實的醫療診斷或法律分析中表現平庸。這促使了「真實世界評估（real-world evaluation）」的興起，例如Chatbot Arena（LMSYS）讓人類用戶在盲測條件下比較不同模型的回應，通過數百萬次的比較排名來評估模型品質——這種方式雖然更接近真實效用，但也有其他偏差問題。

資料污染（data contamination）：測試題出現在訓練資料中，導致評估結果虛高。
基準飽和（benchmark saturation）：模型效能接近基準測試的上限，失去區分度。
能力幻覺（capability illusion）：模型在測試中表現優異，但不代表真正理解任務。
動態基準（dynamic benchmarks）：新一代基準設計，定期更新題目以避免污染。

📝 測驗 · 第七課

評估與基準測試

測試你對AI評估方法與基準測試局限的理解。

1. 「資料污染（data contamination）」在基準測試中是指什麼？

✓ 正確！資料污染讓基準測試失去了評估的效度（validity）——模型可能只是「記住了答案」，而非真的具備相應能力。這是當前AI評估的核心挑戰之一。

✗ 再想想。資料污染的問題是測試題「洩漏」到了訓練資料中。就像期末考題在上課時就被學生看到了——高分不再代表真正的學習成效。

2. 困惑度（perplexity）是什麼的衡量指標？

✓ 正確！困惑度是語言模型的內在指標：它衡量模型在預測測試文字時的平均「驚訝程度」。困惑度越低，代表模型對語言的預測越準確，也代表它學到了更好的語言模型。

✗ 不對。困惑度（perplexity）是語言模型領域的核心評估指標，衡量的是「給定前文，模型預測下一個詞元的難易程度」。困惑度越低，模型越「不驚訝」，也就是預測越準確。

3. 根據「Goodhart定律」，當一個評估指標成為所有人追逐的目標時，會發生什麼？

✓ 正確！Goodhart定律在AI評估中尤為明顯：一旦MMLU成為業界共同的競爭目標，研究者就會針對它優化，最終使其喪失區分真實通才能力的效用。

✗ 再思考。Goodhart定律揭示的是一個深刻的評估悖論：指標一旦成為目標，它就被「玩壞了」——人們優化指標而非優化指標背後的真實能力。

🧪 實驗室 · 第七課

基準測試設計挑戰

思考如何設計更有效、更抗污染的AI評估基準。

實驗目標

在這個實驗室中，你將扮演一位AI評估研究員，思考基準測試的設計挑戰。

如果你要設計一個專門評估AI理解台灣在地知識的基準測試，會包含哪些類型的問題？
Chatbot Arena的人類盲測方式有哪些優點和偏差？
如何設計一個對資料污染有抵抗力的動態基準？

建議提示：「請分析MMLU基準測試的設計缺陷，並提出三項具體的改進方案。」

🤖 AI助教評估與基準

🎯 進階 · 第八課

前沿：模型尚無法學習的事

現今最強大的AI系統仍然面臨哪些根本性的學習障礙？

AI能記住所有知識，但它能真正「理解」嗎？

2022年，Google工程師Blake Lemoine聲稱LaMDA（Language Model for Dialogue Applications）具有意識，引發全球討論，最終導致他被Google解僱。同年，紐約大學心理學家Gary Marcus和人工智慧研究員Ernest Davis發布了一系列測試，記錄了頂尖LLM在「常識推理（commonsense reasoning）」上的系統性失敗：GPT-4被問及「如果我把起司放在桌子上，然後把桌子翻過來，起司在哪裡？」時，給出了不合常理的回答。這揭示了語言流暢性與真正的物理世界理解之間，至今仍存在巨大的鴻溝。

語言流暢性的幻覺

現代LLM在語言生成方面已達到令人信服的流暢程度，但研究者一再指出，流暢的輸出不等於真正的理解。Yann LeCun（Meta AI首席科學家）指出，LLM的根本局限在於：它們是「世界模型（world model）」的缺失者。它們學到的是詞元之間的統計關係，而非物理、因果和社會世界的真實結構。

「幻覺（hallucination）」是這個問題的最明顯症狀：模型以高度自信的語氣生成事實上錯誤的資訊。2023年，一位紐約律師使用ChatGPT撰寫法律摘要，模型在文中引用了六個完全不存在的法庭判例——律師沒有核實，直接提交法院，最終被法官處罰。

關鍵區別

語言能力（linguistic competence）≠ 認知能力（cognitive competence）。能夠流暢討論量子物理，不等於理解量子物理。這個區別在AI安全和部署風險評估中至關重要。

當前的根本性挑戰

研究界已識別出多個模型目前無法有效學習的能力類型：

持續學習（continual learning）：模型在接受新知識訓練時，會「遺忘（catastrophic forgetting）」舊知識。現有模型的知識截止日（knowledge cutoff）問題正源於此。
因果推理（causal reasoning）：區分相關性與因果性。模型傾向於從訓練資料中學習相關模式，而非真正的因果機制。
組合泛化（compositional generalization）：將已知概念以全新的方式組合。人類幾乎天生就能理解從未聽過的新詞組，但模型在這方面表現遠不如人類。
具身認知（embodied cognition）：從與物理世界的互動中學習。LLM缺乏感知和行動能力，其「理解」是純語言性的，不包含物理直覺。
真正的長期推理（multi-step reasoning）：儘管Chain-of-Thought等技術有所改善，複雜的多步推理仍是現有模型的薄弱環節，且錯誤往往以自信的方式呈現。

2024年，ARC-AGI（Abstraction and Reasoning Corpus）基準測試被François Chollet設計出來，專門測試模型在少量範例下的抽象推理能力——人類平均可達85%，而頂尖LLM長期徘徊在50%以下。這個缺口提醒我們：在「AI如何學習」的問題上，人類認知的許多核心面向，至今仍是機器學習的前沿謎題。

📝 測驗 · 第八課

前沿：模型尚無法學習的事

測試你對AI當前根本局限的理解。

1. 紐約律師使用ChatGPT撰寫法律摘要的案例，最主要說明了AI的哪個問題？

✓ 正確！這個案例是幻覺（hallucination）問題的典型教訓：ChatGPT引用了六個根本不存在的法庭判例，且呈現方式完全正常，毫無警示。這強調了人類核實的不可缺少性。

✗ 再想想。這個案例的核心問題不是速度或語言，而是模型的「幻覺」特性——它以極度自信的方式捏造了本不存在的法律判例，而語言流暢性掩蓋了這個致命的事實性錯誤。

2. 「組合泛化（compositional generalization）」的缺失，在AI學習上意味著什麼？

✓ 正確！人類天生具有組合泛化能力——聽到「紫色大象在跳繩」這個從未聽過的描述，立刻能在腦中形成畫面。模型在這方面遠不如人類，因為它依賴的是統計記憶而非組合規則。

✗ 不對。組合泛化是指用已知的「積木」（概念）搭出從未見過的新結構的能力。人類這個能力非常強，模型卻很薄弱——它更擅長重複訓練中見過的組合，而非創造性地重新排列。

3. ARC-AGI基準測試的設計目的是什麼？

✓ 正確！ARC-AGI由François Chollet設計，每個任務只提供少量範例，要求模型識別抽象規律並應用到新情境。人類能輕鬆達到85%，但頂尖LLM長期停滯在50%以下，揭示了推理能力的真實缺口。

✗ 再思考。ARC-AGI的關鍵設計理念是「隔離記憶與推理」——它的題目無法通過記憶訓練資料來解答，必須真正進行抽象推理。這使它成為衡量AI真實推理能力的重要工具。

🧪 實驗室 · 第八課

AI局限的前沿探索

與AI對話，親身探索它在推理、因果和具身認知上的當前邊界。

實驗目標

在這個特別的實驗室中，你將嘗試找出AI在學習和推理上的真實邊界。

設計一個需要物理直覺的問題，測試AI的空間推理。
設計一個需要因果推理的問題，看AI是否能區分相關與因果。
讓AI解釋一個你生活中的常識場景，觀察它是否真正「理解」。

建議提示：「我在一個封閉房間裡，桌上有一杯熱咖啡和一個冰塊。如果我把冰塊放進咖啡，但同時用吹風機對著杯子吹，最終咖啡的溫度會如何？請解釋你的推理過程。」

🤖 AI助教 AI前沿局限

📋 模組測驗

AI如何學習

整合本模組八課的核心概念，共15題，測試你的全面理解。

1. 監督式學習（Supervised Learning）的核心特徵是什麼？

✓ 正確！監督式學習的關鍵是「有答案的練習」：大量標記資料提供了學習的訊號，讓模型學會從輸入預測輸出。

✗ 不對。監督式學習需要標記資料（labeled data），也就是每個訓練樣本都附有正確答案，讓模型能比對預測與答案的差距並進行修正。

2. 訓練資料被分割為訓練集、驗證集和測試集。驗證集的主要用途是什麼？

✓ 正確！驗證集是訓練過程中的「即時監控工具」，幫助工程師在訓練完成前就發現過度配適問題，並選擇最佳的超參數配置。

✗ 再想想。驗證集存在於訓練過程「中」，而非之後。它的角色是即時警示：當驗證集的效能開始下降而訓練集效能仍上升，就是過度配適的訊號。

3. 皮膚癌AI的「標尺問題」最好地說明了機器學習中的哪個概念？

✓ 正確！皮膚癌標尺案例是捷徑學習的教科書案例：模型學到了與標籤統計相關但因果無關的表面特徵，在真實場景中失效。

✗ 不對。這個案例的重點不在於訓練集效能，而在於模型學到的「是什麼」——它學到了統計捷徑（標尺的出現）而非真正的醫學特徵。這是捷徑學習和虛假相關的典型體現。

4. 深度神經網路的「層次化特徵學習」是指什麼？

✓ 正確！這正是深度學習的核心優勢：淺層自動學習低階特徵（邊緣、色彩），深層組合出高階語意概念，整個過程無需人工指定特徵。

✗ 再想想。深度學習的革命在於「自動」——模型自己決定在每一層學什麼特徵，從簡單的視覺元素逐步構建出複雜的概念表示，不需要人類手動設計。

5. OpenAI的規模定律（scaling laws）研究的主要發現是什麼？

✓ 正確！規模定律的發現讓業界有了一個可預測的路線圖：只要同步增加三個維度的資源，效能就會按可預測的規律提升。這推動了GPT-3、GPT-4等大型模型的誕生。

✗ 不對。規模定律的核心發現是「可預測性」：透過控制模型大小、訓練資料量和計算量，研究者能夠在訓練前就預測模型的最終效能，這使得大規模模型的投資決策更具依據。

6. AlphaGo Zero與AlphaGo原版最重要的差異在於哪個學習範式？

✓ 正確！AlphaGo Zero從「tabula rasa（白板）」出發，只靠與自身對弈的強化學習訊號，在40天內超越了使用人類知識訓練的所有版本，成為AI史上的里程碑。

✗ 再想想。AlphaGo Zero的突破在於學習範式的純粹性——它沒有使用任何人類示範資料，只有「贏棋+1、輸棋-1」的簡單獎勵訊號，和無限的自我對弈機會。

7. Amazon AI招募工具被廢棄的根本原因是什麼？

✓ 正確！這是AI倫理的標誌性案例：模型從歷史上以男性為主的成功履歷中學到了偏見，最終將其自動化為一個歧視性的決策系統，造成無法接受的公平性問題。

✗ 不對。Amazon案例的核心問題是公平性而非效能或成本。系統從不平等的歷史資料中學到了性別偏見，並將其轉化為自動化決策——這是完全不可接受的，因此被廢棄。

8. 自監督學習（Self-Supervised Learning）與監督式學習最大的不同是什麼？

✓ 正確！自監督學習的核心優勢在於「免費的標記」——「預測下一個詞」這樣的任務，資料本身就提供了監督訊號，使LLM可以利用無限的網路文字，而無需昂貴的人工標注。

✗ 再想想。自監督學習與監督式學習的本質差別在於「標記的來源」：前者從資料自身構建訓練任務（如「填空」或「預測下一詞」），後者需要人類提供每個樣本的正確答案。

9. 預訓練（pretraining）的主要目的是？

✓ 正確！預訓練建立了一個「通用智能基礎」——就像讓一個人廣泛涉獵各種知識，之後再根據具體需求進行專業化的微調（fine-tuning）。

✗ 不對。預訓練不追求任何特定任務的最優效能，它的目標是建立廣博的通用能力基礎。就像醫學預科教育，不是為了培訓某個科室的專科醫師，而是建立紮實的通用醫學知識。

10. RLHF（人類回饋強化學習）在LLM訓練中的主要作用是？

✓ 正確！RLHF是ChatGPT等產品化LLM的關鍵步驟：它讓模型從「善於預測文字」轉變為「善於按照人類期望回應」，大幅提升了模型的實用性和安全性。

✗ 再想想。RLHF的核心目標是「對齊（alignment）」——讓模型的行為與人類的偏好和價值觀保持一致。它不直接提升知識準確性或速度，而是改變模型「想要做什麼」。

11. 「基準飽和（benchmark saturation）」是指什麼現象？

✓ 正確！基準飽和是AI評估的常見困境：一旦大多數模型都能在某個基準上達到90%以上，這個基準就失去了區分能力的意義，需要被更具挑戰性的新基準所取代。

✗ 不對。基準飽和是指基準測試本身的「天花板問題」——不是資料洩漏，而是AI進步太快，現有基準測試已無法有效區分不同模型的真實能力差距。

12. LoRA（Low-Rank Adaptation）微調技術的核心創新是？

✓ 正確！LoRA的設計優雅而高效：它凍結原始模型的所有參數，只在關鍵位置添加低秩「插件」，使得微調可以在消費級顯示卡上完成，民主化了大模型的定制化能力。

✗ 再想想。LoRA不是提示詞工程，也不是蒸餾。它的技術精髓是：用兩個小矩陣的乘積來近似原本需要更新的大矩陣，大幅減少了需要訓練的參數數量，同時保持了接近全量微調的效果。

13. AI的「幻覺（hallucination）」問題最準確的描述是？

✓ 正確！幻覺的危險性在於「自信地錯誤」——模型不會說「我不確定」，而是用與正確回答完全相同的語氣和格式，生成了一個錯誤的事實、一個不存在的引用，或一個捏造的案例。

✗ 不對。幻覺問題的核心不是創意或迴避，而是「不知道自己不知道」——模型以極度自信的表達方式，輸出了事實上錯誤或完全捏造的資訊，且沒有任何警示訊號。

14. 「持續學習（continual learning）」問題指的是AI面臨的哪個挑戰？

✓ 正確！災難性遺忘（catastrophic forgetting）是深度學習的固有問題之一：當模型在新資料上訓練時，新的梯度更新會覆蓋舊的知識，導致模型「忘記」先前學到的能力。這也是LLM需要定期重新訓練的原因之一。

✗ 再想想。持續學習的核心挑戰是神經網路的記憶機制：與人類大腦不同，神經網路的參數在學習新任務時會被直接修改，破壞了舊任務的表示。這就是「災難性遺忘」。

15. ARC-AGI基準測試的結果（人類85%，頂尖LLM約50%以下）說明了什麼？

✓ 正確！ARC-AGI的設計特意排除了記憶訓練資料的可能性，只測試真正的抽象規律識別與應用能力。這個缺口揭示了現有LLM在「真正推理」上的根本局限，而非單純的知識量問題。

✗ 不對。ARC-AGI的結果不是說「AI不如人類」，而是更精確地指出：在需要少樣本抽象推理的特定類型任務上，LLM仍然落後。這有助於我們理解AI能力的邊界，而非對AI能力做出全面否定的評判。