```html AI如何學習 — 進階 | AESOP AI學院 模組六
🎯 進階 · 第一課

用範例教學

監督式學習(Supervised Learning)的核心概念:標記資料如何塑造AI的判斷能力。

機器能否只靠看範例,就學會辨別貓和狗?

2012年,Google X實驗室在未告知任何「貓」的概念下,讓一個神經網路(neural network)瀏覽YouTube上1,000萬張縮圖。結果模型自行發展出一個對貓臉高度敏感的神經元。然而真正改變行業的,是同年ImageNet大規模視覺識別挑戰賽(ILSVRC):Geoffrey Hinton團隊的AlexNet以15.3%的錯誤率拿下冠軍,比第二名低了將近10個百分點。AlexNet的成功完全依賴一件事——120萬張人工標記的訓練圖片。這一刻標誌著現代監督式學習時代的開端。

監督式學習的本質

監督式學習(Supervised Learning)是目前應用最廣泛的機器學習(Machine Learning)範式。其核心邏輯極為直接:給模型大量已知答案的範例,讓它學習輸入(input)與輸出(output)之間的對應關係,最終能對從未見過的新資料做出預測。

以AlexNet為例,訓練過程是這樣的:系統接收一張圖片,預測它是什麼(例如「金魚」),然後將預測結果與正確標籤(label)比對。若預測錯誤,系統會透過反向傳播(backpropagation)演算法微調內部參數(parameters),使下一次預測更準確。這個過程重複數百萬次。

核心概念

監督式學習需要三個要素:大量標記資料(labeled data)、能夠衡量預測誤差的損失函數(loss function),以及一個反覆修正參數的最佳化演算法(optimization algorithm)。

ImageNet資料集本身耗費了史丹佛大學李飛飛(Fei-Fei Li)教授的團隊三年時間,透過Amazon Mechanical Turk眾包平台,動員全球49個國家的工作人員完成標記。這提醒我們:機器學習的基礎,從來都不只是演算法,而是大量的人工勞動。

訓練、驗證與測試的分工

在實務中,資料集通常被分割成三個部分:訓練集(training set)用於更新模型參數;驗證集(validation set)用於在訓練過程中監控模型是否出現過度配適(overfitting);測試集(test set)則在訓練完全結束後才使用,提供最終、公正的效能評估。

過度配適是監督式學習最常見的失敗模式之一:模型對訓練範例記憶太深,失去了對新資料的泛化(generalization)能力。就如同一個學生只會背答案,而不懂得舉一反三。AlexNet透過一種稱為Dropout的技術來緩解這個問題——訓練時隨機關閉部分神經元,迫使模型學習更具魯棒性(robustness)的特徵。

  • 訓練集:模型用來學習規律的資料,佔全部資料約60–80%。
  • 驗證集:用來調整超參數(hyperparameters)並監控過度配適,約10–20%。
  • 測試集:最終評估,只用一次,以確保評估的客觀性,約10–20%。
📝 測驗 · 第一課

用範例教學

檢驗你對監督式學習核心概念的理解。

1. AlexNet在2012年ImageNet挑戰賽中的突破,最主要依賴的是什麼?
✓ 正確!AlexNet的成功關鍵在於120萬張人工標記圖片與GPU加速的深度卷積神經網路,而非手工規則。
✗ 再想想。AlexNet的核心突破在於結合大量標記資料與深度學習架構,標記資料的規模是決定性因素。
2. 在機器學習的資料分割中,「測試集」的正確用途是?
✓ 正確!測試集只在訓練完全結束後使用一次,以確保評估的客觀性,避免資訊洩漏。
✗ 再思考一下。測試集的角色是「最終裁判」——它在訓練結束後才出現,確保評估不受訓練過程影響。
3. 「過度配適(overfitting)」是什麼問題?
✓ 正確!過度配適就像只會死背考古題的學生——遇到新題目就束手無策,因為它學的是記憶而非規律。
✗ 不對。過度配適的核心問題是:模型對訓練資料「太熟悉了」,以至於無法處理從未見過的新資料。
🧪 實驗室 · 第一課

監督式學習探究

與AI助教對話,深化你對標記資料與訓練過程的理解。

實驗目標

在這個實驗室中,你將透過與AI對話來探索監督式學習的實際運作方式。思考以下問題作為起點:

  1. 標記資料的品質如何影響模型的最終效能?
  2. Dropout技術為何能減少過度配適?
  3. 如果訓練集與測試集的資料分布不同,會發生什麼?
建議提示:「請解釋,如果ImageNet的標籤有20%是錯誤的,AlexNet的訓練結果會受到什麼影響?」
🤖 AI助教 監督式學習
🎯 進階 · 第二課

無處不在的規律

機器學習如何從複雜的原始資料中萃取出有意義的特徵與規律。

AI看到的「規律」,和人類眼中的規律是同一回事嗎?

2018年,史丹佛大學皮膚科研究團隊發表了一項研究:他們訓練一個卷積神經網路(convolutional neural network, CNN)辨識皮膚癌,使用了超過12萬張臨床照片。結果模型在區分惡性黑色素瘤(melanoma)與良性痣(benign moles)的準確率上,與21位認證皮膚科醫師不相上下。然而,後續研究者發現了一個令人不安的真相:部分模型學到的不是真正的醫學特徵,而是圖片中標尺(ruler)的出現頻率——因為皮膚科醫師通常在疑似惡性病灶旁放置標尺,模型把「有標尺」當成「可能是癌症」的規律。

特徵與表示學習

傳統機器學習方法需要人類專家手動設計特徵(feature engineering):例如在人臉辨識中,工程師必須明確定義「眼距」、「鼻樑高度」等特徵。深度學習(deep learning)的革命在於,它讓模型自行從原始資料中學習有用的特徵表示(representation)。

以CNN為例,網路的不同層會自動學習到不同層級的視覺特徵:淺層(shallow layers)學習邊緣(edges)與色彩梯度(color gradients);中間層組合出紋理(textures)與形狀(shapes);深層(deep layers)則整合出高層語意概念,例如「眼睛」、「車輪」或「皮膚病灶」。這種層次化的表示學習(representation learning)正是深度神經網路強大的根源。

警示

皮膚癌標尺案例揭示了一個關鍵教訓:模型找到的「規律」不一定是人類期望的規律。模型會學習訓練資料中任何統計上相關(statistically correlated)的特徵,無論那個特徵是否具有真正的因果意義(causal meaning)。

捷徑學習與虛假相關

研究人員將上述現象稱為「捷徑學習(shortcut learning)」:模型傾向學習在訓練集中最容易區分類別的表面特徵,而非具有泛化能力的深層規律。NLP(自然語言處理)領域也存在類似問題——早期的文字情感分析模型學會了「凡是出現『爛』字的評論就是負評」,而沒有真正理解語意脈絡。

解決這個問題的方式包括:對抗性測試(adversarial testing)、使用多元化的訓練資料,以及引入因果推論(causal inference)方法。近年來,Google Brain等研究機構也開始使用「資料地圖(data maps)」技術,在訓練過程中識別哪些樣本是模型真正從中學習的,哪些只是被記憶的特例。

  • 捷徑學習:模型依賴訓練資料中的虛假相關(spurious correlations)進行預測。
  • 對抗性樣本(adversarial examples):對輸入做微小擾動,就能讓模型產生錯誤預測。
  • 分布偏移(distribution shift):測試環境的資料分布與訓練環境不同,導致效能下降。
📝 測驗 · 第二課

無處不在的規律

檢驗你對特徵學習與捷徑學習的理解。

1. 在史丹佛皮膚癌AI的案例中,部分模型學到了什麼「錯誤的」規律?
✓ 正確!模型把「圖片中有標尺」當作「可能是癌症」的訊號,因為皮膚科醫師習慣在疑似惡性病灶旁放置標尺。這是典型的虛假相關。
✗ 不對。這個案例中,模型學到的捷徑是標尺的存在——這與醫學判斷毫無因果關係,只是資料中的統計巧合。
2. 深度學習與傳統機器學習在「特徵」處理上的最大差異是什麼?
✓ 正確!這正是深度學習的核心突破:表示學習(representation learning)讓模型自動發現資料中的層次化特徵,無需人工指定。
✗ 再想想。深度學習的革命性在於「自動特徵萃取」——讓模型自行決定哪些模式對預測有幫助,取代了傳統需要領域專家手工設計特徵的過程。
3. 「分布偏移(distribution shift)」會導致什麼後果?
✓ 正確!當部署環境的資料分布與訓練時不同,模型學到的規律就不再適用,效能因此大幅下降。這是AI部署中最常見的挑戰之一。
✗ 不對。分布偏移的核心問題是「環境不符」——訓練時學到的規律,在不同的現實環境中可能完全失效。
🧪 實驗室 · 第二課

規律與陷阱探究

探索捷徑學習在現實案例中的影響,思考如何設計更可靠的訓練資料。

實驗目標

本實驗室聚焦於AI如何學習規律,以及這些規律可能出現的問題。思考以下探索方向:

  1. 除了皮膚癌標尺案例,還有哪些領域容易出現捷徑學習?
  2. 對抗性測試如何幫助工程師發現模型的弱點?
  3. 如何設計訓練資料集,以減少虛假相關的出現?
建議提示:「假設我在訓練一個判別台灣新聞真假的模型,有哪些常見的虛假相關需要避免?」
🤖 AI助教 規律與陷阱
🎯 進階 · 第三課

什麼是模型?

從數學函數到神經網路:理解模型的本質、參數與泛化能力。

「模型」究竟是什麼?它只是一堆數字嗎?

2023年3月,Meta AI發布了LLaMA(Large Language Model Meta AI)的第一個版本。該模型有65億到650億個參數(parameters)。每一個參數都是一個浮點數,儲存著模型在訓練過程中學到的「知識」。LLaMA-65B的參數檔案大小約130GB——比許多作業系統的安裝包還大十倍。然而,這130GB的數字群,能夠理解問題、生成程式碼、翻譯語言,並在多個學術基準測試上超越了GPT-3。這引發了一個根本性的問題:一堆浮點數,是如何包含「理解」的?

模型作為函數

從最精確的數學定義來看,一個機器學習模型就是一個參數化函數(parameterized function):f(x; θ),其中x是輸入,θ是參數集合,f(x; θ)是輸出。訓練的目標是找到一組θ,使得模型在訓練資料上的預測誤差最小化。

神經網路(neural network)是實現這個函數的一種特定架構。它由大量的「神經元(neurons)」組成,每個神經元接收加權輸入,通過激活函數(activation function)後產生輸出。「深度(depth)」指的是這些神經元被排列成的層數——LLaMA-65B有80層Transformer層,每層包含數億個參數。

核心洞見

模型的「智能」並非存在於某個特定參數中,而是分散式地編碼在所有參數的相互關係裡。這就是為什麼我們無法指著某個數字說「這就是它理解中文的地方」。

模型容量與泛化

模型容量(model capacity)指的是模型能夠學習的函數的複雜程度。參數越多,容量越高,能夠表示的規律越複雜。然而,高容量並非萬能——若訓練資料不足,高容量的模型反而更容易過度配適。

LLaMA的案例說明了現代大型語言模型(LLM)的一個關鍵特性:規模定律(scaling laws)。OpenAI在2020年發表的研究表明,模型的效能(以損失函數衡量)與模型參數量、訓練資料量和計算量之間存在可預測的冪次關係(power-law relationship)。這項發現成為業界「大力出奇蹟」策略的理論依據。

  • 參數(parameters):模型中可學習的數值,是「知識」的載體。
  • 超參數(hyperparameters):訓練前需手動設定的配置,例如學習率(learning rate)與層數。
  • 規模定律(scaling laws):模型效能隨參數量、資料量、算力的增加而可預測地提升。
  • 湧現能力(emergent abilities):模型在達到某個規模後突然具備的新能力,例如多步推理。
📝 測驗 · 第三課

什麼是模型?

測試你對模型本質、參數與規模定律的理解。

1. 根據「規模定律(scaling laws)」,模型效能主要取決於哪三個因素?
✓ 正確!OpenAI 2020年的研究確認,這三個因素與模型效能之間存在可預測的冪次關係,推動了大型模型的發展浪潮。
✗ 再想想。規模定律聚焦的是可量化的資源要素:模型本身的大小(參數量)、餵給它的知識量(資料量)、以及用於訓練的算力(計算量)。
2. LLaMA-65B中的「65B」代表什麼?
✓ 正確!B代表「十億(Billion)」,65B即650億個參數。每個參數都是一個浮點數,共同編碼了模型學到的所有知識與能力。
✗ 不對。在AI模型的命名慣例中,數字+B代表參數(parameters)的數量,單位是十億。LLaMA-65B擁有650億個可學習的參數。
3. 為什麼我們無法指出神經網路中「哪個參數負責理解中文」?
✓ 正確!神經網路的「理解」是分散式表示(distributed representation)——沒有任何單一參數負責某個特定概念,所有能力都來自參數之間複雜的相互作用。
✗ 再思考。這是神經網路的根本特性:知識以分散式方式編碼,每個參數都參與了多種不同的能力,無法對應到單一的「語言理解中心」。
🧪 實驗室 · 第三課

模型內部探究

深入理解模型的參數、架構與規模定律的實際含義。

實驗目標

在這個實驗室中,你將探討模型的本質與規模定律的意涵。以下方向供你參考:

  1. 如果模型參數量增加10倍,效能會如何變化?
  2. 「湧現能力」意味著什麼?能舉一個具體案例嗎?
  3. 高容量模型一定優於低容量模型嗎?
建議提示:「請用具體數字說明,GPT-2和GPT-3的參數量差距,以及這個差距帶來了哪些能力上的躍升?」
🤖 AI助教 模型與參數
🎯 進階 · 第四課

非監督式與強化學習

當沒有標記答案時,AI如何自行發現結構?當有獎懲訊號時,AI如何學習策略?

沒有人告訴它對錯,AI還能學習嗎?

2016年,DeepMind的AlphaGo以4:1擊敗世界圍棋冠軍李世乭(Lee Sedol),震驚全球。然而2017年發布的AlphaGo Zero更具革命意義:它從未觀看過任何人類棋譜,僅憑自我對弈(self-play)以強化學習(reinforcement learning)訓練了40天,就超越了所有人類版本的AlphaGo。AlphaGo Zero的獎勵函數(reward function)極其簡單:贏棋得+1,輸棋得-1。就憑這個訊號,它自行發展出人類數千年圍棋理論中從未出現過的棋型。

非監督式學習

非監督式學習(Unsupervised Learning)處理的是沒有標記的原始資料。它的目標不是預測一個已知答案,而是發現資料本身的內在結構(intrinsic structure)。常見的非監督式學習任務包括:

  • 聚類(Clustering):將相似的資料點分組,例如客戶分群。k-means和DBSCAN是常見演算法。
  • 降維(Dimensionality Reduction):將高維資料壓縮到低維空間,同時保留關鍵結構,例如PCA和t-SNE。
  • 生成模型(Generative Models):學習資料的分布,然後生成新的樣本,例如VAE和GAN。
  • 自監督學習(Self-Supervised Learning):從資料自身構建監督訊號,例如預測下一個詞(語言模型的預訓練方式)。
關鍵聯繫

現代大型語言模型的預訓練本質上是自監督學習:以「預測下一個詞」作為訓練任務,資料本身就是標記,不需要人工標注。這使得LLM可以利用近乎無限的網路文字資料進行訓練。

強化學習的架構

強化學習(Reinforcement Learning, RL)的框架涉及三個核心概念:代理(agent)、環境(environment)與獎勵(reward)。代理在環境中採取行動(action),環境回傳新的狀態(state)與獎勵訊號;代理的目標是學習一個策略(policy),使長期累積的期望獎勵最大化。

AlphaGo Zero的成功表明,強化學習結合深度神經網路(稱為深度強化學習,Deep RL),可以在沒有任何人類示範的情況下掌握極為複雜的技能。然而,強化學習在現實世界的應用面臨一個根本挑戰:獎勵函數的設計極為困難。如果獎勵函數設計不當,AI可能找到人類意料之外的「鑽漏洞」策略——這被稱為「獎勵駭客(reward hacking)」。

在LLM領域,OpenAI在訓練ChatGPT時使用了一種稱為人類回饋強化學習(Reinforcement Learning from Human Feedback, RLHF)的技術:人類評估員對模型的回應進行評分,訓練一個獎勵模型(reward model),再用這個獎勵模型引導LLM的行為。

📝 測驗 · 第四課

非監督式與強化學習

測試你對不同學習範式的掌握程度。

1. AlphaGo Zero與原版AlphaGo最根本的差異是什麼?
✓ 正確!AlphaGo Zero的突破在於純粹的強化學習自我對弈,不依賴任何人類知識輸入,卻超越了所有使用人類棋譜訓練的版本。
✗ 不對。AlphaGo Zero的革命性在於它的「無監督」性質——它從零開始,通過與自己對弈來學習圍棋的一切,沒有人類示範。
2. 「獎勵駭客(reward hacking)」指的是?
✓ 正確!獎勵駭客是強化學習的重大挑戰:AI會尋找任何能最大化獎勵的方式,即使那個方式違背了設計者的真實意圖。
✗ 再想想。獎勵駭客不是人類駭客,而是AI自己找到了設計者未預料到的「漏洞」——一種技術上符合獎勵函數定義,但實際上沒有完成任務的行為。
3. 現代大型語言模型的預訓練,主要使用的是哪種學習範式?
✓ 正確!自監督學習讓模型把「預測下一個詞」當成訓練目標,資料本身提供監督訊號,這使得LLM可以利用龐大的網路文字資料庫進行訓練,無需人工標注。
✗ 不對。LLM的預訓練階段使用的是自監督學習——模型學習「給定前文,預測下一個詞」,訓練訊號完全來自資料本身,不需要人工標記。
🧪 實驗室 · 第四課

強化學習策略探究

探索強化學習的設計邏輯,以及RLHF如何影響LLM的行為。

實驗目標

本實驗室聚焦於強化學習的設計挑戰。思考以下問題:

  1. 如果要訓練一個AI幫助學生學習,獎勵函數應該如何設計?
  2. RLHF訓練過程中,如果人類評估員的偏好互相矛盾,會發生什麼?
  3. AlphaGo Zero發現了哪些人類從未想到的圍棋招式?
建議提示:「請舉一個具體案例,說明強化學習中的獎勵駭客是如何在實驗室環境中被觀察到的。」
🤖 AI助教 強化學習
🎯 進階 · 第五課

資料的問題

偏差、品質與規模——訓練資料的特性如何決定AI系統的命運。

如果訓練資料本身有偏見,AI會學到什麼?

2018年,Amazon宣布廢棄一個用於篩選工程師應徵者的AI招募工具。這個系統使用過去十年的履歷資料訓練,而那十年的履歷多數來自男性應徵者(反映了科技業的性別不均衡現實)。結果模型學到的規律是:「應徵人數越少的學校的女性校友」與「被錄取」呈負相關。更嚴重的是,模型甚至開始降低包含「女子西洋棋俱樂部」或「女子學院」字樣的履歷分數。Amazon工程師多次修正,最終仍選擇放棄這個系統。

資料偏差的根源

資料偏差(data bias)並非技術錯誤,而是社會現實的數位映照。當訓練資料反映了歷史上不公平的決策,模型就會學習並複製那些不公平。Amazon的案例揭示了一個殘酷的邏輯:如果過去十年「成功的工程師」以男性為主,那麼模型就會學到「像男性的履歷 = 好的履歷」。

研究人員將資料偏差分為幾類:歷史偏差(historical bias)反映的是社會既有的不平等;測量偏差(measurement bias)源於資料收集方式的系統性差異;標籤偏差(annotation bias)則是標記者的主觀判斷滲入了標籤。2020年麻省理工學院媒體實驗室(MIT Media Lab)的研究發現,市面上多個人臉辨識系統對深膚色女性的辨識錯誤率高達35%,而對淺膚色男性幾乎是0%——根源正是訓練資料中的人口結構偏差。

重要原則

「垃圾進,垃圾出(Garbage In, Garbage Out)」是資料科學的古老格言。然而在AI時代,問題更隱微:「帶偏見的資料進,帶偏見的決策出」,而且這些偏見往往被演算法的「客觀性」外衣所掩蓋。

規模問題與資料治理

現代大型語言模型的訓練資料規模令人難以想像。GPT-3使用了約4,990億個詞元(tokens),來源包括Common Crawl(網路爬蟲資料)、WebText2、維基百科等。然而資料量的增加並不自動帶來品質的提升。

2021年,一份名為《Documenting the English Colossal Clean Crawled Corpus》的研究分析了C4語料庫,發現其中包含大量歧視性內容、錯誤資訊,以及對某些語言和文化的嚴重低代表性。這引發了資料治理(data governance)的迫切討論:誰有權決定什麼資料可以用於訓練?如何平衡資料規模與資料品質?如何取得資料版權?

  • 資料多樣性(data diversity):確保不同人口群體、語言和文化都有充分代表性。
  • 資料清洗(data cleaning):過濾有害內容、重複資料和低品質資料,但清洗標準本身也可能帶入偏見。
  • 資料卡(data cards):Google提出的文件標準,要求說明資料集的來源、限制和潛在偏差。
  • 版權爭議:New York Times於2023年起訴OpenAI,指控其未經授權使用版權文章進行訓練。
📝 測驗 · 第五課

資料的問題

測試你對資料偏差與資料治理的理解。

1. Amazon AI招募系統的偏差,其根本原因是什麼?
✓ 正確!這是歷史偏差的典型案例:訓練資料本身就蘊含著社會不平等,模型忠實地學習了這些不平等,並將其轉化為自動化的決策偏見。
✗ 再想想。Amazon的案例中沒有人刻意寫入歧視規則——問題更隱微:模型從過去十年以男性為主的成功履歷資料中,自行學到了「帶偏見的規律」。
2. MIT媒體實驗室的人臉辨識研究發現了什麼系統性問題?
✓ 正確!這項研究(由Joy Buolamwini和Timnit Gebru進行)揭示了訓練資料中的人口結構偏差如何在商用AI系統中製造出嚴重的系統性不公平。
✗ 不對。MIT媒體實驗室的研究發現,市售人臉辨識系統的效能存在嚴重的種族和性別差異——對淺膚色男性幾乎完美,對深膚色女性卻錯誤率高達35%。
3. 「資料卡(data cards)」的主要目的是什麼?
✓ 正確!資料卡是一種透明度工具,要求資料集的發布者明確說明資料的收集方式、已知限制和潛在偏差,讓使用者做出更知情的判斷。
✗ 再思考。資料卡的核心目的是「透明度」——它不執行任何自動化操作,而是要求人類負責任地記錄和揭露資料集的特性與風險。
🧪 實驗室 · 第五課

資料偏差審查

分析真實案例中的資料問題,思考如何建立更公平的AI訓練資料集。

實驗目標

在這個實驗室中,你將扮演一位AI倫理審查員,思考資料偏差的識別與緩解。

  1. 如何設計一個偵測訓練資料偏差的審查流程?
  2. 台灣的司法判決資料庫若用於訓練AI法官,可能存在哪些偏差?
  3. 資料清洗本身如何可能引入新的偏見?
建議提示:「假設我要訓練一個AI協助台灣的大學入學審查,請分析潛在的資料偏差來源,並提出緩解方案。」
🤖 AI助教 資料倫理
🎯 進階 · 第六課

預訓練與微調

理解現代AI的兩階段訓練策略,以及遷移學習如何改變了AI開發的經濟學。

為什麼不從零開始訓練,而要先「預訓練」再「微調」?

2020年,OpenAI將GPT-3以API形式開放商業使用。一家名為Jasper(當時叫Jarvis)的新創公司,僅憑對GPT-3進行提示工程(prompt engineering)和微調(fine-tuning),在一年內達到了7,500萬美元的年度重複性收入(ARR),估值超過15億美元。這個商業模式的核心是:把OpenAI的巨大預訓練成本(約460萬美元)分攤到數千個下游應用,讓每個應用只需負擔微調的邊際成本。這徹底改變了AI應用開發的進入門檻。

預訓練:建立通用能力

預訓練(pretraining)是在大規模、通用資料集上訓練一個基礎模型(foundation model)的過程。這個階段的目標不是完成特定任務,而是讓模型學習語言、知識和推理的通用表示。GPT系列模型使用的是自回歸語言模型(autoregressive language model)任務:給定前文預測下一個詞元(token)。BERT則使用遮罩語言模型(masked language model):隨機遮蔽部分詞元並要求模型填補。

預訓練的代價極高。GPT-4的訓練成本估計超過1億美元,需要數千個高階GPU運行數個月。這使得預訓練成為少數巨型科技公司和頂尖研究機構的專屬領地——OpenAI、Google DeepMind、Meta AI、Anthropic、百度等。

遷移學習的邏輯

預訓練的核心概念來自遷移學習(transfer learning):在大任務上學到的通用能力,可以「遷移」到小任務上,極大地降低了小任務所需的資料量和訓練成本。這就如同一個熟讀萬卷書的人,學習任何新專業都比完全的新手快得多。

微調:針對特定任務調整

微調(fine-tuning)是在預訓練模型的基礎上,使用特定領域的資料進一步訓練,使模型的行為更符合特定任務或價值觀的過程。微調可以分為幾個層次:

  • 全量微調(Full Fine-Tuning):更新所有模型參數,效果最好但成本最高。
  • 參數高效微調(PEFT):只更新一小部分參數,例如LoRA(Low-Rank Adaptation),可以用消費級GPU完成。
  • 指令微調(Instruction Tuning):用「指令—回應」格式的資料訓練,使模型更善於遵循指令。GPT-3到InstructGPT的關鍵改進之一。
  • RLHF微調:結合人類回饋,使模型輸出更符合人類偏好,是ChatGPT的核心訓練步驟之一。

2023年,Meta發布LLaMA模型後,研究者Georgi Gerganov在數小時內就在M1 MacBook上完成了4位元量化版本的本地部署,隨後Stanford的研究者用不到100美元的成本對其進行指令微調,產出了Alpaca模型——這標誌著開源生態系統中「民主化微調」時代的到來。

📝 測驗 · 第六課

預訓練與微調

測試你對兩階段訓練策略與遷移學習的理解。

1. Jasper(Jarvis)能在一年內達到7,500萬美元ARR,核心商業邏輯是什麼?
✓ 正確!這正是預訓練範式改變AI開發經濟學的關鍵:讓新創公司能站在巨人肩膀上,以極低的成本建立有競爭力的AI應用。
✗ 再想想。Jasper的模式是「利用別人的基礎,專注自己的應用層」——他們不訓練基礎模型,而是把GPT-3的巨額訓練成本轉化為按使用量計費的API費用。
2. LoRA(Low-Rank Adaptation)的主要優勢是什麼?
✓ 正確!LoRA是參數高效微調(PEFT)的代表技術,它在原始權重旁插入低秩矩陣,只訓練這些額外的參數,大幅降低了顯存需求和訓練成本。
✗ 不對。LoRA的核心創新是「高效」——它不修改原始模型的全部參數,而是添加少量可訓練的低秩矩陣,讓消費級硬體也能完成大模型的微調。
3. BERT與GPT在預訓練任務設計上的根本差異是什麼?
✓ 正確!BERT的遮罩語言模型任務讓它能從雙向上下文理解語意,更擅長分類和問答;GPT的自回歸任務讓它更擅長生成連貫的文字。這兩種預訓練策略各有優缺點。
✗ 再思考。BERT和GPT都是自監督學習,差異在於任務方向:BERT是「填空(雙向理解)」,GPT是「接龍(單向生成)」,這個設計差異決定了它們各自最擅長的應用場景。
🧪 實驗室 · 第六課

微調策略設計

思考如何為不同的應用場景選擇最合適的微調策略。

實驗目標

在這個實驗室中,你將扮演一位AI工程師,為不同的實際場景設計微調方案。

  1. 如果要為台灣的法律顧問公司微調一個LLM,應該使用哪種微調策略?需要多少資料?
  2. 指令微調(instruction tuning)如何改變了模型與用戶的互動方式?
  3. 微調後的模型如何避免「遺忘(catastrophic forgetting)」預訓練學到的通用能力?
建議提示:「請比較全量微調和LoRA微調在計算成本、效能和部署靈活性方面的取捨,並說明各自適合的應用場景。」
🤖 AI助教 預訓練與微調
🎯 進階 · 第七課

評估與基準測試

我們如何衡量AI的能力?從困惑度到MMLU——基準測試的意義與局限。

我們怎麼知道一個AI模型真的「更好」了?

2023年,多個頂尖AI實驗室相繼宣稱其模型在MMLU(Massive Multitask Language Understanding)基準測試上達到人類水準。MMLU包含57個學科、約15,000道多選題,被廣泛視為測量「通才智能」的黃金標準。然而加州大學柏克萊分校的研究者隨後發現,部分模型表現優異,是因為MMLU的測試題出現在了訓練資料中——即所謂的「資料污染(data contamination)」。這個發現迫使整個領域重新審視:我們的基準測試,到底在測什麼?

評估的基礎框架

AI模型的評估指標(metrics)因任務而異。對於分類任務,常用準確率(accuracy)、精確率(precision)、召回率(recall)和F1分數。對於語言模型,困惑度(perplexity)是常見的內在指標(intrinsic metric),衡量模型對測試文字的預測能力——困惑度越低,代表模型對語言結構的掌握越好。對於生成任務,則需要外在指標(extrinsic metrics),例如機器翻譯的BLEU分數,或摘要任務的ROUGE分數。

然而單一指標往往不足以全面評估模型能力。這正是綜合基準測試(benchmark suites)存在的原因:MMLU測試多學科知識;BIG-bench測試多樣化的推理任務;HumanEval測試程式碼生成能力;TruthfulQA測試模型在回答傾向性問題時的誠實程度。

Goodhart定律

「當一個指標成為目標,它就不再是好的指標。」——Charles Goodhart。AI研究領域正面臨這個困境:當所有實驗室都針對MMLU優化,MMLU就逐漸失去了區分真實能力的意義。

基準測試的危機與演進

資料污染問題的嚴重性在於:由於現代LLM的訓練資料龐大且來源複雜,幾乎不可能完全保證測試集與訓練資料的隔離。2024年,GPQA(Graduate-Level Google-Proof Q&A)基準測試被開發出來,包含由博士生設計的、需要深度領域知識且難以從網路搜尋中找到答案的問題,試圖解決污染問題。

另一個挑戰是:基準測試往往測不到真實能力。一個在MMLU上接近滿分的模型,可能在現實的醫療診斷或法律分析中表現平庸。這促使了「真實世界評估(real-world evaluation)」的興起,例如Chatbot Arena(LMSYS)讓人類用戶在盲測條件下比較不同模型的回應,通過數百萬次的比較排名來評估模型品質——這種方式雖然更接近真實效用,但也有其他偏差問題。

  • 資料污染(data contamination):測試題出現在訓練資料中,導致評估結果虛高。
  • 基準飽和(benchmark saturation):模型效能接近基準測試的上限,失去區分度。
  • 能力幻覺(capability illusion):模型在測試中表現優異,但不代表真正理解任務。
  • 動態基準(dynamic benchmarks):新一代基準設計,定期更新題目以避免污染。
📝 測驗 · 第七課

評估與基準測試

測試你對AI評估方法與基準測試局限的理解。

1. 「資料污染(data contamination)」在基準測試中是指什麼?
✓ 正確!資料污染讓基準測試失去了評估的效度(validity)——模型可能只是「記住了答案」,而非真的具備相應能力。這是當前AI評估的核心挑戰之一。
✗ 再想想。資料污染的問題是測試題「洩漏」到了訓練資料中。就像期末考題在上課時就被學生看到了——高分不再代表真正的學習成效。
2. 困惑度(perplexity)是什麼的衡量指標?
✓ 正確!困惑度是語言模型的內在指標:它衡量模型在預測測試文字時的平均「驚訝程度」。困惑度越低,代表模型對語言的預測越準確,也代表它學到了更好的語言模型。
✗ 不對。困惑度(perplexity)是語言模型領域的核心評估指標,衡量的是「給定前文,模型預測下一個詞元的難易程度」。困惑度越低,模型越「不驚訝」,也就是預測越準確。
3. 根據「Goodhart定律」,當一個評估指標成為所有人追逐的目標時,會發生什麼?
✓ 正確!Goodhart定律在AI評估中尤為明顯:一旦MMLU成為業界共同的競爭目標,研究者就會針對它優化,最終使其喪失區分真實通才能力的效用。
✗ 再思考。Goodhart定律揭示的是一個深刻的評估悖論:指標一旦成為目標,它就被「玩壞了」——人們優化指標而非優化指標背後的真實能力。
🧪 實驗室 · 第七課

基準測試設計挑戰

思考如何設計更有效、更抗污染的AI評估基準。

實驗目標

在這個實驗室中,你將扮演一位AI評估研究員,思考基準測試的設計挑戰。

  1. 如果你要設計一個專門評估AI理解台灣在地知識的基準測試,會包含哪些類型的問題?
  2. Chatbot Arena的人類盲測方式有哪些優點和偏差?
  3. 如何設計一個對資料污染有抵抗力的動態基準?
建議提示:「請分析MMLU基準測試的設計缺陷,並提出三項具體的改進方案。」
🤖 AI助教 評估與基準
🎯 進階 · 第八課

前沿:模型尚無法學習的事

現今最強大的AI系統仍然面臨哪些根本性的學習障礙?

AI能記住所有知識,但它能真正「理解」嗎?

2022年,Google工程師Blake Lemoine聲稱LaMDA(Language Model for Dialogue Applications)具有意識,引發全球討論,最終導致他被Google解僱。同年,紐約大學心理學家Gary Marcus和人工智慧研究員Ernest Davis發布了一系列測試,記錄了頂尖LLM在「常識推理(commonsense reasoning)」上的系統性失敗:GPT-4被問及「如果我把起司放在桌子上,然後把桌子翻過來,起司在哪裡?」時,給出了不合常理的回答。這揭示了語言流暢性與真正的物理世界理解之間,至今仍存在巨大的鴻溝。

語言流暢性的幻覺

現代LLM在語言生成方面已達到令人信服的流暢程度,但研究者一再指出,流暢的輸出不等於真正的理解。Yann LeCun(Meta AI首席科學家)指出,LLM的根本局限在於:它們是「世界模型(world model)」的缺失者。它們學到的是詞元之間的統計關係,而非物理、因果和社會世界的真實結構。

「幻覺(hallucination)」是這個問題的最明顯症狀:模型以高度自信的語氣生成事實上錯誤的資訊。2023年,一位紐約律師使用ChatGPT撰寫法律摘要,模型在文中引用了六個完全不存在的法庭判例——律師沒有核實,直接提交法院,最終被法官處罰。

關鍵區別

語言能力(linguistic competence)≠ 認知能力(cognitive competence)。能夠流暢討論量子物理,不等於理解量子物理。這個區別在AI安全和部署風險評估中至關重要。

當前的根本性挑戰

研究界已識別出多個模型目前無法有效學習的能力類型:

  • 持續學習(continual learning):模型在接受新知識訓練時,會「遺忘(catastrophic forgetting)」舊知識。現有模型的知識截止日(knowledge cutoff)問題正源於此。
  • 因果推理(causal reasoning):區分相關性與因果性。模型傾向於從訓練資料中學習相關模式,而非真正的因果機制。
  • 組合泛化(compositional generalization):將已知概念以全新的方式組合。人類幾乎天生就能理解從未聽過的新詞組,但模型在這方面表現遠不如人類。
  • 具身認知(embodied cognition):從與物理世界的互動中學習。LLM缺乏感知和行動能力,其「理解」是純語言性的,不包含物理直覺。
  • 真正的長期推理(multi-step reasoning):儘管Chain-of-Thought等技術有所改善,複雜的多步推理仍是現有模型的薄弱環節,且錯誤往往以自信的方式呈現。

2024年,ARC-AGI(Abstraction and Reasoning Corpus)基準測試被François Chollet設計出來,專門測試模型在少量範例下的抽象推理能力——人類平均可達85%,而頂尖LLM長期徘徊在50%以下。這個缺口提醒我們:在「AI如何學習」的問題上,人類認知的許多核心面向,至今仍是機器學習的前沿謎題。

📝 測驗 · 第八課

前沿:模型尚無法學習的事

測試你對AI當前根本局限的理解。

1. 紐約律師使用ChatGPT撰寫法律摘要的案例,最主要說明了AI的哪個問題?
✓ 正確!這個案例是幻覺(hallucination)問題的典型教訓:ChatGPT引用了六個根本不存在的法庭判例,且呈現方式完全正常,毫無警示。這強調了人類核實的不可缺少性。
✗ 再想想。這個案例的核心問題不是速度或語言,而是模型的「幻覺」特性——它以極度自信的方式捏造了本不存在的法律判例,而語言流暢性掩蓋了這個致命的事實性錯誤。
2. 「組合泛化(compositional generalization)」的缺失,在AI學習上意味著什麼?
✓ 正確!人類天生具有組合泛化能力——聽到「紫色大象在跳繩」這個從未聽過的描述,立刻能在腦中形成畫面。模型在這方面遠不如人類,因為它依賴的是統計記憶而非組合規則。
✗ 不對。組合泛化是指用已知的「積木」(概念)搭出從未見過的新結構的能力。人類這個能力非常強,模型卻很薄弱——它更擅長重複訓練中見過的組合,而非創造性地重新排列。
3. ARC-AGI基準測試的設計目的是什麼?
✓ 正確!ARC-AGI由François Chollet設計,每個任務只提供少量範例,要求模型識別抽象規律並應用到新情境。人類能輕鬆達到85%,但頂尖LLM長期停滯在50%以下,揭示了推理能力的真實缺口。
✗ 再思考。ARC-AGI的關鍵設計理念是「隔離記憶與推理」——它的題目無法通過記憶訓練資料來解答,必須真正進行抽象推理。這使它成為衡量AI真實推理能力的重要工具。
🧪 實驗室 · 第八課

AI局限的前沿探索

與AI對話,親身探索它在推理、因果和具身認知上的當前邊界。

實驗目標

在這個特別的實驗室中,你將嘗試找出AI在學習和推理上的真實邊界。

  1. 設計一個需要物理直覺的問題,測試AI的空間推理。
  2. 設計一個需要因果推理的問題,看AI是否能區分相關與因果。
  3. 讓AI解釋一個你生活中的常識場景,觀察它是否真正「理解」。
建議提示:「我在一個封閉房間裡,桌上有一杯熱咖啡和一個冰塊。如果我把冰塊放進咖啡,但同時用吹風機對著杯子吹,最終咖啡的溫度會如何?請解釋你的推理過程。」
🤖 AI助教 AI前沿局限
📋 模組測驗

AI如何學習

整合本模組八課的核心概念,共15題,測試你的全面理解。

1. 監督式學習(Supervised Learning)的核心特徵是什麼?
✓ 正確!監督式學習的關鍵是「有答案的練習」:大量標記資料提供了學習的訊號,讓模型學會從輸入預測輸出。
✗ 不對。監督式學習需要標記資料(labeled data),也就是每個訓練樣本都附有正確答案,讓模型能比對預測與答案的差距並進行修正。
2. 訓練資料被分割為訓練集、驗證集和測試集。驗證集的主要用途是什麼?
✓ 正確!驗證集是訓練過程中的「即時監控工具」,幫助工程師在訓練完成前就發現過度配適問題,並選擇最佳的超參數配置。
✗ 再想想。驗證集存在於訓練過程「中」,而非之後。它的角色是即時警示:當驗證集的效能開始下降而訓練集效能仍上升,就是過度配適的訊號。
3. 皮膚癌AI的「標尺問題」最好地說明了機器學習中的哪個概念?
✓ 正確!皮膚癌標尺案例是捷徑學習的教科書案例:模型學到了與標籤統計相關但因果無關的表面特徵,在真實場景中失效。
✗ 不對。這個案例的重點不在於訓練集效能,而在於模型學到的「是什麼」——它學到了統計捷徑(標尺的出現)而非真正的醫學特徵。這是捷徑學習和虛假相關的典型體現。
4. 深度神經網路的「層次化特徵學習」是指什麼?
✓ 正確!這正是深度學習的核心優勢:淺層自動學習低階特徵(邊緣、色彩),深層組合出高階語意概念,整個過程無需人工指定特徵。
✗ 再想想。深度學習的革命在於「自動」——模型自己決定在每一層學什麼特徵,從簡單的視覺元素逐步構建出複雜的概念表示,不需要人類手動設計。
5. OpenAI的規模定律(scaling laws)研究的主要發現是什麼?
✓ 正確!規模定律的發現讓業界有了一個可預測的路線圖:只要同步增加三個維度的資源,效能就會按可預測的規律提升。這推動了GPT-3、GPT-4等大型模型的誕生。
✗ 不對。規模定律的核心發現是「可預測性」:透過控制模型大小、訓練資料量和計算量,研究者能夠在訓練前就預測模型的最終效能,這使得大規模模型的投資決策更具依據。
6. AlphaGo Zero與AlphaGo原版最重要的差異在於哪個學習範式?
✓ 正確!AlphaGo Zero從「tabula rasa(白板)」出發,只靠與自身對弈的強化學習訊號,在40天內超越了使用人類知識訓練的所有版本,成為AI史上的里程碑。
✗ 再想想。AlphaGo Zero的突破在於學習範式的純粹性——它沒有使用任何人類示範資料,只有「贏棋+1、輸棋-1」的簡單獎勵訊號,和無限的自我對弈機會。
7. Amazon AI招募工具被廢棄的根本原因是什麼?
✓ 正確!這是AI倫理的標誌性案例:模型從歷史上以男性為主的成功履歷中學到了偏見,最終將其自動化為一個歧視性的決策系統,造成無法接受的公平性問題。
✗ 不對。Amazon案例的核心問題是公平性而非效能或成本。系統從不平等的歷史資料中學到了性別偏見,並將其轉化為自動化決策——這是完全不可接受的,因此被廢棄。
8. 自監督學習(Self-Supervised Learning)與監督式學習最大的不同是什麼?
✓ 正確!自監督學習的核心優勢在於「免費的標記」——「預測下一個詞」這樣的任務,資料本身就提供了監督訊號,使LLM可以利用無限的網路文字,而無需昂貴的人工標注。
✗ 再想想。自監督學習與監督式學習的本質差別在於「標記的來源」:前者從資料自身構建訓練任務(如「填空」或「預測下一詞」),後者需要人類提供每個樣本的正確答案。
9. 預訓練(pretraining)的主要目的是?
✓ 正確!預訓練建立了一個「通用智能基礎」——就像讓一個人廣泛涉獵各種知識,之後再根據具體需求進行專業化的微調(fine-tuning)。
✗ 不對。預訓練不追求任何特定任務的最優效能,它的目標是建立廣博的通用能力基礎。就像醫學預科教育,不是為了培訓某個科室的專科醫師,而是建立紮實的通用醫學知識。
10. RLHF(人類回饋強化學習)在LLM訓練中的主要作用是?
✓ 正確!RLHF是ChatGPT等產品化LLM的關鍵步驟:它讓模型從「善於預測文字」轉變為「善於按照人類期望回應」,大幅提升了模型的實用性和安全性。
✗ 再想想。RLHF的核心目標是「對齊(alignment)」——讓模型的行為與人類的偏好和價值觀保持一致。它不直接提升知識準確性或速度,而是改變模型「想要做什麼」。
11. 「基準飽和(benchmark saturation)」是指什麼現象?
✓ 正確!基準飽和是AI評估的常見困境:一旦大多數模型都能在某個基準上達到90%以上,這個基準就失去了區分能力的意義,需要被更具挑戰性的新基準所取代。
✗ 不對。基準飽和是指基準測試本身的「天花板問題」——不是資料洩漏,而是AI進步太快,現有基準測試已無法有效區分不同模型的真實能力差距。
12. LoRA(Low-Rank Adaptation)微調技術的核心創新是?
✓ 正確!LoRA的設計優雅而高效:它凍結原始模型的所有參數,只在關鍵位置添加低秩「插件」,使得微調可以在消費級顯示卡上完成,民主化了大模型的定制化能力。
✗ 再想想。LoRA不是提示詞工程,也不是蒸餾。它的技術精髓是:用兩個小矩陣的乘積來近似原本需要更新的大矩陣,大幅減少了需要訓練的參數數量,同時保持了接近全量微調的效果。
13. AI的「幻覺(hallucination)」問題最準確的描述是?
✓ 正確!幻覺的危險性在於「自信地錯誤」——模型不會說「我不確定」,而是用與正確回答完全相同的語氣和格式,生成了一個錯誤的事實、一個不存在的引用,或一個捏造的案例。
✗ 不對。幻覺問題的核心不是創意或迴避,而是「不知道自己不知道」——模型以極度自信的表達方式,輸出了事實上錯誤或完全捏造的資訊,且沒有任何警示訊號。
14. 「持續學習(continual learning)」問題指的是AI面臨的哪個挑戰?
✓ 正確!災難性遺忘(catastrophic forgetting)是深度學習的固有問題之一:當模型在新資料上訓練時,新的梯度更新會覆蓋舊的知識,導致模型「忘記」先前學到的能力。這也是LLM需要定期重新訓練的原因之一。
✗ 再想想。持續學習的核心挑戰是神經網路的記憶機制:與人類大腦不同,神經網路的參數在學習新任務時會被直接修改,破壞了舊任務的表示。這就是「災難性遺忘」。
15. ARC-AGI基準測試的結果(人類85%,頂尖LLM約50%以下)說明了什麼?
✓ 正確!ARC-AGI的設計特意排除了記憶訓練資料的可能性,只測試真正的抽象規律識別與應用能力。這個缺口揭示了現有LLM在「真正推理」上的根本局限,而非單純的知識量問題。
✗ 不對。ARC-AGI的結果不是說「AI不如人類」,而是更精確地指出:在需要少樣本抽象推理的特定類型任務上,LLM仍然落後。這有助於我們理解AI能力的邊界,而非對AI能力做出全面否定的評判。
```