用範例教學
監督式學習(Supervised Learning)的核心概念:標記資料如何塑造AI的判斷能力。
機器能否只靠看範例,就學會辨別貓和狗?
2012年,Google X實驗室在未告知任何「貓」的概念下,讓一個神經網路(neural network)瀏覽YouTube上1,000萬張縮圖。結果模型自行發展出一個對貓臉高度敏感的神經元。然而真正改變行業的,是同年ImageNet大規模視覺識別挑戰賽(ILSVRC):Geoffrey Hinton團隊的AlexNet以15.3%的錯誤率拿下冠軍,比第二名低了將近10個百分點。AlexNet的成功完全依賴一件事——120萬張人工標記的訓練圖片。這一刻標誌著現代監督式學習時代的開端。
監督式學習的本質
監督式學習(Supervised Learning)是目前應用最廣泛的機器學習(Machine Learning)範式。其核心邏輯極為直接:給模型大量已知答案的範例,讓它學習輸入(input)與輸出(output)之間的對應關係,最終能對從未見過的新資料做出預測。
以AlexNet為例,訓練過程是這樣的:系統接收一張圖片,預測它是什麼(例如「金魚」),然後將預測結果與正確標籤(label)比對。若預測錯誤,系統會透過反向傳播(backpropagation)演算法微調內部參數(parameters),使下一次預測更準確。這個過程重複數百萬次。
監督式學習需要三個要素:大量標記資料(labeled data)、能夠衡量預測誤差的損失函數(loss function),以及一個反覆修正參數的最佳化演算法(optimization algorithm)。
ImageNet資料集本身耗費了史丹佛大學李飛飛(Fei-Fei Li)教授的團隊三年時間,透過Amazon Mechanical Turk眾包平台,動員全球49個國家的工作人員完成標記。這提醒我們:機器學習的基礎,從來都不只是演算法,而是大量的人工勞動。
訓練、驗證與測試的分工
在實務中,資料集通常被分割成三個部分:訓練集(training set)用於更新模型參數;驗證集(validation set)用於在訓練過程中監控模型是否出現過度配適(overfitting);測試集(test set)則在訓練完全結束後才使用,提供最終、公正的效能評估。
過度配適是監督式學習最常見的失敗模式之一:模型對訓練範例記憶太深,失去了對新資料的泛化(generalization)能力。就如同一個學生只會背答案,而不懂得舉一反三。AlexNet透過一種稱為Dropout的技術來緩解這個問題——訓練時隨機關閉部分神經元,迫使模型學習更具魯棒性(robustness)的特徵。
- 訓練集:模型用來學習規律的資料,佔全部資料約60–80%。
- 驗證集:用來調整超參數(hyperparameters)並監控過度配適,約10–20%。
- 測試集:最終評估,只用一次,以確保評估的客觀性,約10–20%。
用範例教學
檢驗你對監督式學習核心概念的理解。
監督式學習探究
與AI助教對話,深化你對標記資料與訓練過程的理解。
實驗目標
在這個實驗室中,你將透過與AI對話來探索監督式學習的實際運作方式。思考以下問題作為起點:
- 標記資料的品質如何影響模型的最終效能?
- Dropout技術為何能減少過度配適?
- 如果訓練集與測試集的資料分布不同,會發生什麼?
無處不在的規律
機器學習如何從複雜的原始資料中萃取出有意義的特徵與規律。
AI看到的「規律」,和人類眼中的規律是同一回事嗎?
2018年,史丹佛大學皮膚科研究團隊發表了一項研究:他們訓練一個卷積神經網路(convolutional neural network, CNN)辨識皮膚癌,使用了超過12萬張臨床照片。結果模型在區分惡性黑色素瘤(melanoma)與良性痣(benign moles)的準確率上,與21位認證皮膚科醫師不相上下。然而,後續研究者發現了一個令人不安的真相:部分模型學到的不是真正的醫學特徵,而是圖片中標尺(ruler)的出現頻率——因為皮膚科醫師通常在疑似惡性病灶旁放置標尺,模型把「有標尺」當成「可能是癌症」的規律。
特徵與表示學習
傳統機器學習方法需要人類專家手動設計特徵(feature engineering):例如在人臉辨識中,工程師必須明確定義「眼距」、「鼻樑高度」等特徵。深度學習(deep learning)的革命在於,它讓模型自行從原始資料中學習有用的特徵表示(representation)。
以CNN為例,網路的不同層會自動學習到不同層級的視覺特徵:淺層(shallow layers)學習邊緣(edges)與色彩梯度(color gradients);中間層組合出紋理(textures)與形狀(shapes);深層(deep layers)則整合出高層語意概念,例如「眼睛」、「車輪」或「皮膚病灶」。這種層次化的表示學習(representation learning)正是深度神經網路強大的根源。
皮膚癌標尺案例揭示了一個關鍵教訓:模型找到的「規律」不一定是人類期望的規律。模型會學習訓練資料中任何統計上相關(statistically correlated)的特徵,無論那個特徵是否具有真正的因果意義(causal meaning)。
捷徑學習與虛假相關
研究人員將上述現象稱為「捷徑學習(shortcut learning)」:模型傾向學習在訓練集中最容易區分類別的表面特徵,而非具有泛化能力的深層規律。NLP(自然語言處理)領域也存在類似問題——早期的文字情感分析模型學會了「凡是出現『爛』字的評論就是負評」,而沒有真正理解語意脈絡。
解決這個問題的方式包括:對抗性測試(adversarial testing)、使用多元化的訓練資料,以及引入因果推論(causal inference)方法。近年來,Google Brain等研究機構也開始使用「資料地圖(data maps)」技術,在訓練過程中識別哪些樣本是模型真正從中學習的,哪些只是被記憶的特例。
- 捷徑學習:模型依賴訓練資料中的虛假相關(spurious correlations)進行預測。
- 對抗性樣本(adversarial examples):對輸入做微小擾動,就能讓模型產生錯誤預測。
- 分布偏移(distribution shift):測試環境的資料分布與訓練環境不同,導致效能下降。
無處不在的規律
檢驗你對特徵學習與捷徑學習的理解。
規律與陷阱探究
探索捷徑學習在現實案例中的影響,思考如何設計更可靠的訓練資料。
實驗目標
本實驗室聚焦於AI如何學習規律,以及這些規律可能出現的問題。思考以下探索方向:
- 除了皮膚癌標尺案例,還有哪些領域容易出現捷徑學習?
- 對抗性測試如何幫助工程師發現模型的弱點?
- 如何設計訓練資料集,以減少虛假相關的出現?
什麼是模型?
從數學函數到神經網路:理解模型的本質、參數與泛化能力。
「模型」究竟是什麼?它只是一堆數字嗎?
2023年3月,Meta AI發布了LLaMA(Large Language Model Meta AI)的第一個版本。該模型有65億到650億個參數(parameters)。每一個參數都是一個浮點數,儲存著模型在訓練過程中學到的「知識」。LLaMA-65B的參數檔案大小約130GB——比許多作業系統的安裝包還大十倍。然而,這130GB的數字群,能夠理解問題、生成程式碼、翻譯語言,並在多個學術基準測試上超越了GPT-3。這引發了一個根本性的問題:一堆浮點數,是如何包含「理解」的?
模型作為函數
從最精確的數學定義來看,一個機器學習模型就是一個參數化函數(parameterized function):f(x; θ),其中x是輸入,θ是參數集合,f(x; θ)是輸出。訓練的目標是找到一組θ,使得模型在訓練資料上的預測誤差最小化。
神經網路(neural network)是實現這個函數的一種特定架構。它由大量的「神經元(neurons)」組成,每個神經元接收加權輸入,通過激活函數(activation function)後產生輸出。「深度(depth)」指的是這些神經元被排列成的層數——LLaMA-65B有80層Transformer層,每層包含數億個參數。
模型的「智能」並非存在於某個特定參數中,而是分散式地編碼在所有參數的相互關係裡。這就是為什麼我們無法指著某個數字說「這就是它理解中文的地方」。
模型容量與泛化
模型容量(model capacity)指的是模型能夠學習的函數的複雜程度。參數越多,容量越高,能夠表示的規律越複雜。然而,高容量並非萬能——若訓練資料不足,高容量的模型反而更容易過度配適。
LLaMA的案例說明了現代大型語言模型(LLM)的一個關鍵特性:規模定律(scaling laws)。OpenAI在2020年發表的研究表明,模型的效能(以損失函數衡量)與模型參數量、訓練資料量和計算量之間存在可預測的冪次關係(power-law relationship)。這項發現成為業界「大力出奇蹟」策略的理論依據。
- 參數(parameters):模型中可學習的數值,是「知識」的載體。
- 超參數(hyperparameters):訓練前需手動設定的配置,例如學習率(learning rate)與層數。
- 規模定律(scaling laws):模型效能隨參數量、資料量、算力的增加而可預測地提升。
- 湧現能力(emergent abilities):模型在達到某個規模後突然具備的新能力,例如多步推理。
什麼是模型?
測試你對模型本質、參數與規模定律的理解。
模型內部探究
深入理解模型的參數、架構與規模定律的實際含義。
實驗目標
在這個實驗室中,你將探討模型的本質與規模定律的意涵。以下方向供你參考:
- 如果模型參數量增加10倍,效能會如何變化?
- 「湧現能力」意味著什麼?能舉一個具體案例嗎?
- 高容量模型一定優於低容量模型嗎?
非監督式與強化學習
當沒有標記答案時,AI如何自行發現結構?當有獎懲訊號時,AI如何學習策略?
沒有人告訴它對錯,AI還能學習嗎?
2016年,DeepMind的AlphaGo以4:1擊敗世界圍棋冠軍李世乭(Lee Sedol),震驚全球。然而2017年發布的AlphaGo Zero更具革命意義:它從未觀看過任何人類棋譜,僅憑自我對弈(self-play)以強化學習(reinforcement learning)訓練了40天,就超越了所有人類版本的AlphaGo。AlphaGo Zero的獎勵函數(reward function)極其簡單:贏棋得+1,輸棋得-1。就憑這個訊號,它自行發展出人類數千年圍棋理論中從未出現過的棋型。
非監督式學習
非監督式學習(Unsupervised Learning)處理的是沒有標記的原始資料。它的目標不是預測一個已知答案,而是發現資料本身的內在結構(intrinsic structure)。常見的非監督式學習任務包括:
- 聚類(Clustering):將相似的資料點分組,例如客戶分群。k-means和DBSCAN是常見演算法。
- 降維(Dimensionality Reduction):將高維資料壓縮到低維空間,同時保留關鍵結構,例如PCA和t-SNE。
- 生成模型(Generative Models):學習資料的分布,然後生成新的樣本,例如VAE和GAN。
- 自監督學習(Self-Supervised Learning):從資料自身構建監督訊號,例如預測下一個詞(語言模型的預訓練方式)。
現代大型語言模型的預訓練本質上是自監督學習:以「預測下一個詞」作為訓練任務,資料本身就是標記,不需要人工標注。這使得LLM可以利用近乎無限的網路文字資料進行訓練。
強化學習的架構
強化學習(Reinforcement Learning, RL)的框架涉及三個核心概念:代理(agent)、環境(environment)與獎勵(reward)。代理在環境中採取行動(action),環境回傳新的狀態(state)與獎勵訊號;代理的目標是學習一個策略(policy),使長期累積的期望獎勵最大化。
AlphaGo Zero的成功表明,強化學習結合深度神經網路(稱為深度強化學習,Deep RL),可以在沒有任何人類示範的情況下掌握極為複雜的技能。然而,強化學習在現實世界的應用面臨一個根本挑戰:獎勵函數的設計極為困難。如果獎勵函數設計不當,AI可能找到人類意料之外的「鑽漏洞」策略——這被稱為「獎勵駭客(reward hacking)」。
在LLM領域,OpenAI在訓練ChatGPT時使用了一種稱為人類回饋強化學習(Reinforcement Learning from Human Feedback, RLHF)的技術:人類評估員對模型的回應進行評分,訓練一個獎勵模型(reward model),再用這個獎勵模型引導LLM的行為。
非監督式與強化學習
測試你對不同學習範式的掌握程度。
強化學習策略探究
探索強化學習的設計邏輯,以及RLHF如何影響LLM的行為。
實驗目標
本實驗室聚焦於強化學習的設計挑戰。思考以下問題:
- 如果要訓練一個AI幫助學生學習,獎勵函數應該如何設計?
- RLHF訓練過程中,如果人類評估員的偏好互相矛盾,會發生什麼?
- AlphaGo Zero發現了哪些人類從未想到的圍棋招式?
資料的問題
偏差、品質與規模——訓練資料的特性如何決定AI系統的命運。
如果訓練資料本身有偏見,AI會學到什麼?
2018年,Amazon宣布廢棄一個用於篩選工程師應徵者的AI招募工具。這個系統使用過去十年的履歷資料訓練,而那十年的履歷多數來自男性應徵者(反映了科技業的性別不均衡現實)。結果模型學到的規律是:「應徵人數越少的學校的女性校友」與「被錄取」呈負相關。更嚴重的是,模型甚至開始降低包含「女子西洋棋俱樂部」或「女子學院」字樣的履歷分數。Amazon工程師多次修正,最終仍選擇放棄這個系統。
資料偏差的根源
資料偏差(data bias)並非技術錯誤,而是社會現實的數位映照。當訓練資料反映了歷史上不公平的決策,模型就會學習並複製那些不公平。Amazon的案例揭示了一個殘酷的邏輯:如果過去十年「成功的工程師」以男性為主,那麼模型就會學到「像男性的履歷 = 好的履歷」。
研究人員將資料偏差分為幾類:歷史偏差(historical bias)反映的是社會既有的不平等;測量偏差(measurement bias)源於資料收集方式的系統性差異;標籤偏差(annotation bias)則是標記者的主觀判斷滲入了標籤。2020年麻省理工學院媒體實驗室(MIT Media Lab)的研究發現,市面上多個人臉辨識系統對深膚色女性的辨識錯誤率高達35%,而對淺膚色男性幾乎是0%——根源正是訓練資料中的人口結構偏差。
「垃圾進,垃圾出(Garbage In, Garbage Out)」是資料科學的古老格言。然而在AI時代,問題更隱微:「帶偏見的資料進,帶偏見的決策出」,而且這些偏見往往被演算法的「客觀性」外衣所掩蓋。
規模問題與資料治理
現代大型語言模型的訓練資料規模令人難以想像。GPT-3使用了約4,990億個詞元(tokens),來源包括Common Crawl(網路爬蟲資料)、WebText2、維基百科等。然而資料量的增加並不自動帶來品質的提升。
2021年,一份名為《Documenting the English Colossal Clean Crawled Corpus》的研究分析了C4語料庫,發現其中包含大量歧視性內容、錯誤資訊,以及對某些語言和文化的嚴重低代表性。這引發了資料治理(data governance)的迫切討論:誰有權決定什麼資料可以用於訓練?如何平衡資料規模與資料品質?如何取得資料版權?
- 資料多樣性(data diversity):確保不同人口群體、語言和文化都有充分代表性。
- 資料清洗(data cleaning):過濾有害內容、重複資料和低品質資料,但清洗標準本身也可能帶入偏見。
- 資料卡(data cards):Google提出的文件標準,要求說明資料集的來源、限制和潛在偏差。
- 版權爭議:New York Times於2023年起訴OpenAI,指控其未經授權使用版權文章進行訓練。
資料的問題
測試你對資料偏差與資料治理的理解。
資料偏差審查
分析真實案例中的資料問題,思考如何建立更公平的AI訓練資料集。
實驗目標
在這個實驗室中,你將扮演一位AI倫理審查員,思考資料偏差的識別與緩解。
- 如何設計一個偵測訓練資料偏差的審查流程?
- 台灣的司法判決資料庫若用於訓練AI法官,可能存在哪些偏差?
- 資料清洗本身如何可能引入新的偏見?
預訓練與微調
理解現代AI的兩階段訓練策略,以及遷移學習如何改變了AI開發的經濟學。
為什麼不從零開始訓練,而要先「預訓練」再「微調」?
2020年,OpenAI將GPT-3以API形式開放商業使用。一家名為Jasper(當時叫Jarvis)的新創公司,僅憑對GPT-3進行提示工程(prompt engineering)和微調(fine-tuning),在一年內達到了7,500萬美元的年度重複性收入(ARR),估值超過15億美元。這個商業模式的核心是:把OpenAI的巨大預訓練成本(約460萬美元)分攤到數千個下游應用,讓每個應用只需負擔微調的邊際成本。這徹底改變了AI應用開發的進入門檻。
預訓練:建立通用能力
預訓練(pretraining)是在大規模、通用資料集上訓練一個基礎模型(foundation model)的過程。這個階段的目標不是完成特定任務,而是讓模型學習語言、知識和推理的通用表示。GPT系列模型使用的是自回歸語言模型(autoregressive language model)任務:給定前文預測下一個詞元(token)。BERT則使用遮罩語言模型(masked language model):隨機遮蔽部分詞元並要求模型填補。
預訓練的代價極高。GPT-4的訓練成本估計超過1億美元,需要數千個高階GPU運行數個月。這使得預訓練成為少數巨型科技公司和頂尖研究機構的專屬領地——OpenAI、Google DeepMind、Meta AI、Anthropic、百度等。
預訓練的核心概念來自遷移學習(transfer learning):在大任務上學到的通用能力,可以「遷移」到小任務上,極大地降低了小任務所需的資料量和訓練成本。這就如同一個熟讀萬卷書的人,學習任何新專業都比完全的新手快得多。
微調:針對特定任務調整
微調(fine-tuning)是在預訓練模型的基礎上,使用特定領域的資料進一步訓練,使模型的行為更符合特定任務或價值觀的過程。微調可以分為幾個層次:
- 全量微調(Full Fine-Tuning):更新所有模型參數,效果最好但成本最高。
- 參數高效微調(PEFT):只更新一小部分參數,例如LoRA(Low-Rank Adaptation),可以用消費級GPU完成。
- 指令微調(Instruction Tuning):用「指令—回應」格式的資料訓練,使模型更善於遵循指令。GPT-3到InstructGPT的關鍵改進之一。
- RLHF微調:結合人類回饋,使模型輸出更符合人類偏好,是ChatGPT的核心訓練步驟之一。
2023年,Meta發布LLaMA模型後,研究者Georgi Gerganov在數小時內就在M1 MacBook上完成了4位元量化版本的本地部署,隨後Stanford的研究者用不到100美元的成本對其進行指令微調,產出了Alpaca模型——這標誌著開源生態系統中「民主化微調」時代的到來。
預訓練與微調
測試你對兩階段訓練策略與遷移學習的理解。
微調策略設計
思考如何為不同的應用場景選擇最合適的微調策略。
實驗目標
在這個實驗室中,你將扮演一位AI工程師,為不同的實際場景設計微調方案。
- 如果要為台灣的法律顧問公司微調一個LLM,應該使用哪種微調策略?需要多少資料?
- 指令微調(instruction tuning)如何改變了模型與用戶的互動方式?
- 微調後的模型如何避免「遺忘(catastrophic forgetting)」預訓練學到的通用能力?
評估與基準測試
我們如何衡量AI的能力?從困惑度到MMLU——基準測試的意義與局限。
我們怎麼知道一個AI模型真的「更好」了?
2023年,多個頂尖AI實驗室相繼宣稱其模型在MMLU(Massive Multitask Language Understanding)基準測試上達到人類水準。MMLU包含57個學科、約15,000道多選題,被廣泛視為測量「通才智能」的黃金標準。然而加州大學柏克萊分校的研究者隨後發現,部分模型表現優異,是因為MMLU的測試題出現在了訓練資料中——即所謂的「資料污染(data contamination)」。這個發現迫使整個領域重新審視:我們的基準測試,到底在測什麼?
評估的基礎框架
AI模型的評估指標(metrics)因任務而異。對於分類任務,常用準確率(accuracy)、精確率(precision)、召回率(recall)和F1分數。對於語言模型,困惑度(perplexity)是常見的內在指標(intrinsic metric),衡量模型對測試文字的預測能力——困惑度越低,代表模型對語言結構的掌握越好。對於生成任務,則需要外在指標(extrinsic metrics),例如機器翻譯的BLEU分數,或摘要任務的ROUGE分數。
然而單一指標往往不足以全面評估模型能力。這正是綜合基準測試(benchmark suites)存在的原因:MMLU測試多學科知識;BIG-bench測試多樣化的推理任務;HumanEval測試程式碼生成能力;TruthfulQA測試模型在回答傾向性問題時的誠實程度。
「當一個指標成為目標,它就不再是好的指標。」——Charles Goodhart。AI研究領域正面臨這個困境:當所有實驗室都針對MMLU優化,MMLU就逐漸失去了區分真實能力的意義。
基準測試的危機與演進
資料污染問題的嚴重性在於:由於現代LLM的訓練資料龐大且來源複雜,幾乎不可能完全保證測試集與訓練資料的隔離。2024年,GPQA(Graduate-Level Google-Proof Q&A)基準測試被開發出來,包含由博士生設計的、需要深度領域知識且難以從網路搜尋中找到答案的問題,試圖解決污染問題。
另一個挑戰是:基準測試往往測不到真實能力。一個在MMLU上接近滿分的模型,可能在現實的醫療診斷或法律分析中表現平庸。這促使了「真實世界評估(real-world evaluation)」的興起,例如Chatbot Arena(LMSYS)讓人類用戶在盲測條件下比較不同模型的回應,通過數百萬次的比較排名來評估模型品質——這種方式雖然更接近真實效用,但也有其他偏差問題。
- 資料污染(data contamination):測試題出現在訓練資料中,導致評估結果虛高。
- 基準飽和(benchmark saturation):模型效能接近基準測試的上限,失去區分度。
- 能力幻覺(capability illusion):模型在測試中表現優異,但不代表真正理解任務。
- 動態基準(dynamic benchmarks):新一代基準設計,定期更新題目以避免污染。
評估與基準測試
測試你對AI評估方法與基準測試局限的理解。
基準測試設計挑戰
思考如何設計更有效、更抗污染的AI評估基準。
實驗目標
在這個實驗室中,你將扮演一位AI評估研究員,思考基準測試的設計挑戰。
- 如果你要設計一個專門評估AI理解台灣在地知識的基準測試,會包含哪些類型的問題?
- Chatbot Arena的人類盲測方式有哪些優點和偏差?
- 如何設計一個對資料污染有抵抗力的動態基準?
前沿:模型尚無法學習的事
現今最強大的AI系統仍然面臨哪些根本性的學習障礙?
AI能記住所有知識,但它能真正「理解」嗎?
2022年,Google工程師Blake Lemoine聲稱LaMDA(Language Model for Dialogue Applications)具有意識,引發全球討論,最終導致他被Google解僱。同年,紐約大學心理學家Gary Marcus和人工智慧研究員Ernest Davis發布了一系列測試,記錄了頂尖LLM在「常識推理(commonsense reasoning)」上的系統性失敗:GPT-4被問及「如果我把起司放在桌子上,然後把桌子翻過來,起司在哪裡?」時,給出了不合常理的回答。這揭示了語言流暢性與真正的物理世界理解之間,至今仍存在巨大的鴻溝。
語言流暢性的幻覺
現代LLM在語言生成方面已達到令人信服的流暢程度,但研究者一再指出,流暢的輸出不等於真正的理解。Yann LeCun(Meta AI首席科學家)指出,LLM的根本局限在於:它們是「世界模型(world model)」的缺失者。它們學到的是詞元之間的統計關係,而非物理、因果和社會世界的真實結構。
「幻覺(hallucination)」是這個問題的最明顯症狀:模型以高度自信的語氣生成事實上錯誤的資訊。2023年,一位紐約律師使用ChatGPT撰寫法律摘要,模型在文中引用了六個完全不存在的法庭判例——律師沒有核實,直接提交法院,最終被法官處罰。
語言能力(linguistic competence)≠ 認知能力(cognitive competence)。能夠流暢討論量子物理,不等於理解量子物理。這個區別在AI安全和部署風險評估中至關重要。
當前的根本性挑戰
研究界已識別出多個模型目前無法有效學習的能力類型:
- 持續學習(continual learning):模型在接受新知識訓練時,會「遺忘(catastrophic forgetting)」舊知識。現有模型的知識截止日(knowledge cutoff)問題正源於此。
- 因果推理(causal reasoning):區分相關性與因果性。模型傾向於從訓練資料中學習相關模式,而非真正的因果機制。
- 組合泛化(compositional generalization):將已知概念以全新的方式組合。人類幾乎天生就能理解從未聽過的新詞組,但模型在這方面表現遠不如人類。
- 具身認知(embodied cognition):從與物理世界的互動中學習。LLM缺乏感知和行動能力,其「理解」是純語言性的,不包含物理直覺。
- 真正的長期推理(multi-step reasoning):儘管Chain-of-Thought等技術有所改善,複雜的多步推理仍是現有模型的薄弱環節,且錯誤往往以自信的方式呈現。
2024年,ARC-AGI(Abstraction and Reasoning Corpus)基準測試被François Chollet設計出來,專門測試模型在少量範例下的抽象推理能力——人類平均可達85%,而頂尖LLM長期徘徊在50%以下。這個缺口提醒我們:在「AI如何學習」的問題上,人類認知的許多核心面向,至今仍是機器學習的前沿謎題。
前沿:模型尚無法學習的事
測試你對AI當前根本局限的理解。
AI局限的前沿探索
與AI對話,親身探索它在推理、因果和具身認知上的當前邊界。
實驗目標
在這個特別的實驗室中,你將嘗試找出AI在學習和推理上的真實邊界。
- 設計一個需要物理直覺的問題,測試AI的空間推理。
- 設計一個需要因果推理的問題,看AI是否能區分相關與因果。
- 讓AI解釋一個你生活中的常識場景,觀察它是否真正「理解」。
AI如何學習
整合本模組八課的核心概念,共15題,測試你的全面理解。