🎯 進階 · 第一課

AI 也會犯錯

人工智慧系統並非完美。了解錯誤的類型，是批判性使用 AI 的第一步。

AI 系統犯的錯，和人類犯的錯，本質上有何不同？

2023 年 3 月，美國律師史蒂文·施瓦茨（Steven Schwartz）在聯邦法院提交了一份法律摘要，其中援引了六件判例——這些判例全部由 ChatGPT 生成，且全部並不存在。AI 捏造了具體的法院名稱、案號與判決內容，律師未加核實便直接提交。法官發現造假後，對該律師及其律師事務所處以 5,000 美元罰款，並要求說明。施瓦茨事後表示，他「完全不知道 ChatGPT 會捏造案例」。

錯誤的三種類型

AI 系統的錯誤通常分為三類：幻覺（hallucination）、過度自信（overconfidence），以及分佈偏移錯誤（distribution shift errors）。這三類錯誤在表面上看起來都像是「正確答案」，這正是它們危險之處。

幻覺指的是模型生成了聽起來合理、實際上卻完全錯誤的內容——就像施瓦茨案中那些從未存在的判例。過度自信則是模型在不確定時仍以肯定的語氣回應，不提示使用者應進一步查驗。分佈偏移錯誤發生在模型被應用於訓練資料以外的情境，例如用英語訓練的醫療 AI 被部署於非英語環境。

關鍵概念

AI 的錯誤往往比人類的錯誤更難察覺，因為它們以流暢、自信的語言呈現，缺乏猶豫或不確定的語氣訊號。

為什麼 AI 會犯錯？

大型語言模型（LLM）的運作方式是預測下一個最可能的詞彙——它並非真正「理解」事實，而是學習了文字之間的統計關係。當它生成「最合理的句子」時，這個句子不一定是真實的。

訓練資料的品質和完整性直接影響模型的準確率。若訓練資料包含錯誤、偏頗或過時的資訊，模型便會複製這些缺陷。此外，模型的訓練有截止日期（knowledge cutoff），之後發生的事件它一概不知，卻不一定會主動告知使用者。

統計預測不等於事實查核
訓練資料品質直接決定輸出品質
知識截止日期造成資訊落差
流暢的語言表達不代表內容正確

後果的嚴重程度

施瓦茨案的後果相對有限：罰款與公開羞辱。但在醫療診斷、信用評分或自動駕駛等高風險領域，AI 錯誤的代價可能是生命。2018 年，Uber 的自駕車在亞利桑那州撞死一名行人，部分原因在於感知系統錯誤地對障礙物進行分類，反覆切換判斷而未能及時煞車。

錯誤的嚴重程度，取決於 AI 在決策鏈中的位置：是輔助人類決策，還是自動執行決策？前者留有人類把關的空間，後者則要求系統本身的可靠性必須極高。

📝 測驗 · 第一課

測驗：AI 也會犯錯

測試你對 AI 錯誤類型與成因的理解。

1. 在施瓦茨案中，ChatGPT 犯了哪一種典型的 AI 錯誤？

✅ 正確！幻覺是指模型生成聽似合理卻完全捏造的內容，施瓦茨案中那六件判例根本從未存在。

❌ 不正確。施瓦茨案的核心問題是幻覺——模型捏造了六件從未存在的法律判例，而非引用了真實但過時的資料。

2. 為什麼大型語言模型產生的錯誤特別難以察覺？

✅ 正確！AI 以肯定、流暢的語氣輸出，不像人類會在不確定時表現遲疑，這使得錯誤難以被識別。

❌ 不正確。AI 錯誤之所以難以察覺，正是因為它以流暢自信的語言呈現，沒有任何不確定的訊號提醒使用者。

3. 下列哪一個情境最能說明「分佈偏移錯誤」？

✅ 正確！分佈偏移錯誤發生在模型被部署於與訓練資料不同的環境，導致效能大幅下降。

❌ 不正確。分佈偏移錯誤的核心是：模型被應用於訓練資料以外的情境，例如語言環境、人口群體或應用場景不同。

🧪 實驗室 · 第一課

實驗室：解剖 AI 的錯誤

與 AI 對話，探討幻覺、過度自信與分佈偏移錯誤的實際樣態。

實驗目標

在這個實驗室中，你將與 AI 討論它自身可能犯下的不同類型錯誤。請嘗試以下幾個方向：

詢問 AI 它最容易在哪類問題上產生幻覺
請 AI 舉一個過度自信導致嚴重後果的真實案例
問問 AI：使用者應如何驗證它的輸出是否可靠？

建議提示詞：「你在哪些類型的問題上最容易產生幻覺？我應該怎麼核實你的答案？」

🤖 AI 錯誤分析助理實驗室對話

🎯 進階 · 第二課

AI 不知道它不知道

不確定性的表達是 AI 系統最關鍵的能力之一，而大多數系統做得很差。

為什麼 AI 說「我不確定」比給出錯誤答案更有價值？

2023 年，Google 在公開展示 Bard 聊天機器人時，Bard 對一個天文學問題給出了錯誤答案——聲稱詹姆斯·韋伯太空望遠鏡是第一個拍攝到太陽系外行星照片的望遠鏡，事實上這一成就屬於哈伯太空望遠鏡。這段影片被天文學家迅速指出後，Google 市值在一天內蒸發約 1,000 億美元。Bard 的問題不只是答錯，而是在沒有任何不確定性提示的情況下自信地答錯。

校準信心（Calibration）

在統計學中，一個模型若能在它確定時給出正確答案、在它不確定時表達懷疑，便被稱為「校準良好（well-calibrated）」。反之，若模型在錯誤答案上仍表現出高度信心，便是「校準不良（miscalibrated）」。

大多數語言模型天生傾向校準不良——因為它們的訓練目標是生成流暢、連貫的文字，而非準確表達自己的不確定性。在訓練資料中，人類寫作通常不會在每一個陳述後加上「但我不確定這是否正確」，因此模型也學不到這種習慣。

核心概念

校準信心（Calibration）：模型表達的信心程度，與其實際正確率之間的匹配程度。一個校準良好的模型，80% 信心的預測應有約 80% 的正確率。

知識截止日期的問題

所有語言模型都有知識截止日期（knowledge cutoff）——在此日期之後發生的事件，模型一律不知情。然而，使用者往往不清楚這一限制，且模型本身在被詢問截止日期後的事件時，並不總是主動說明自己的局限。

更嚴重的問題是：即便在截止日期之內，訓練資料的覆蓋也並不均勻。冷門話題、少數語言、邊緣學科的內容相對稀少，模型在這些領域更容易出現不自知的錯誤，且依然以同樣自信的語氣回應。

每個模型都有知識截止日期，使用者需主動確認
稀少領域的訓練資料導致隱性知識落差
模型不一定會主動聲明自己的局限
使用實時搜尋工具可部分彌補這一缺陷

如何要求 AI 表達不確定性

研究顯示，透過特定的提示詞設計（prompt engineering），可以引導模型更頻繁地表達不確定性。例如，在提示中加入「如果你不確定，請明確說明」或「對每個陳述，請評估你的信心水準」，能顯著提升模型的校準表現。

然而，這只是部分解決方案。從根本上改善校準，需要在訓練階段引入特殊的目標函數，例如基於人類反饋的強化學習（RLHF）中的不確定性獎勵機制。這是當前 AI 安全研究的重要課題之一。

📝 測驗 · 第二課

測驗：AI 不知道它不知道

測試你對校準信心與知識局限的理解。

1. Google Bard 在 2023 年公開展示中犯的錯誤，核心問題是什麼？

✅ 正確！Bard 的問題不只是答錯，而是以完全自信的語氣答錯，未表達任何不確定性——這正是校準不良的典型表現。

❌ 不正確。Bard 的核心問題是校準不良：它在沒有任何不確定性提示的情況下，自信地給出了錯誤的天文學答案。

2. 「校準良好（well-calibrated）」的 AI 模型是指？

✅ 正確！校準良好意味著模型 80% 信心的預測有約 80% 的正確率——信心與準確率相符。

❌ 不正確。校準良好（well-calibrated）指的是模型表達的信心程度，與其實際正確率高度匹配，而非一味表現出高度信心。

3. 為什麼語言模型在冷門話題上更容易出現隱性知識落差？

✅ 正確！訓練資料的分佈不均，導致模型在稀少領域的統計基礎薄弱，更容易出現不自知的錯誤。

❌ 不正確。冷門話題在訓練資料中樣本較少，模型的統計基礎薄弱，因此更容易產生隱性知識落差，且不會主動聲明這一局限。

🧪 實驗室 · 第二課

實驗室：測試 AI 的不確定性表達

透過對話，探索如何讓 AI 更誠實地表達它的知識局限。

實驗目標

在這個實驗室中，你將測試 AI 在不同提示詞下的不確定性表達行為。請嘗試以下方向：

詢問一個你知道有爭議的問題，觀察 AI 是否表達懷疑
在提示中加入「請告訴我你對這個答案的信心程度」，比較回應的差異
問問 AI 它的知識截止日期，以及這對你的查詢有何影響

建議提示詞：「對於以下每個陳述，請告訴我你的信心程度（高/中/低）並說明理由：[你的問題]」

🤖 不確定性探索助理實驗室對話

🎯 進階 · 第三課

究竟是誰的錯？

AI 系統涉及多個責任主體——開發者、部署者、使用者。當 AI 造成傷害，問責鏈如何運作？

AI 系統造成傷害時，法律責任應由誰承擔？

2023 年，美國一名 14 歲少年在與 Character.AI 平台上的 AI 角色長期互動後自殺。孩子的母親隨後對 Character.AI 提起訴訟，指控平台在未成年使用者面前推廣有害內容，且缺乏足夠的安全保護機制。Character.AI 聲稱已有安全措施，但批評者指出這些措施遠遠不夠。這個案例引發了一個核心問題：當 AI 系統參與了導致傷害的因果鏈，法律責任應由開發者、平台還是使用者承擔？

責任鏈的三個層次

AI 系統的責任鏈通常涉及三個層次：開發者（建立基礎模型的機構）、部署者（將模型整合進產品的公司），以及使用者（最終互動的個人）。每個層次都有不同的義務與責任範圍。

開發者對模型的基礎能力與安全邊界負責。部署者對產品設計、使用場景與使用者族群負責——他們決定將模型暴露給哪些人、在什麼情況下使用。使用者則對自己如何使用工具負有一定責任，但這一責任因使用者的年齡、能力與資訊對等程度而有所調整。

法律框架

目前全球尚無統一的 AI 責任法律框架。歐盟的《AI 法案》（EU AI Act）採用風險分級制度；美國則主要依賴現有侵權法與產品責任法，逐案處理。

「問題擴散」現象

AI 責任的核心難題之一是所謂的「問題擴散（diffusion of responsibility）」——當多個主體共同參與一個系統的運作，每個主體都可以指向其他主體，最終導致無人真正負責。

施瓦茨案中，律師指出自己不知道 AI 會編造資料；OpenAI 的使用條款明確要求使用者核實輸出；法院最終認定律師負有核實義務。但在更複雜的自動化決策情境中——例如 AI 核定貸款、AI 診斷疾病——責任的歸屬往往更加模糊。

開發者：模型的基礎能力與安全邊界
部署者：產品設計、安全機制與目標使用族群
使用者：如何使用工具及核實輸出的義務
監管機構：設定最低安全標準與強制稽核要求

設計決策即道德決策

Character.AI 案的深層問題在於：產品的設計決策本身即是道德決策。選擇讓 AI 扮演親密角色、選擇不驗證使用者年齡、選擇優化使用時長而非使用者福祉——每一個決策都在道德上有其含義，即便在法律上可能暫時無法追究。

這提示我們：評估 AI 系統的責任，不能只看事故發生後，更要審視設計階段的決策邏輯。「可預見的傷害」是侵權法的核心概念——若設計者能合理預見某一使用情境會導致傷害，卻未採取預防措施，責任便更難免除。

📝 測驗 · 第三課

測驗：究竟是誰的錯？

測試你對 AI 責任鏈與問責機制的理解。

1. 在 AI 責任鏈中，「部署者」的主要責任範圍是？

✅ 正確！部署者對產品設計、安全機制與目標使用族群負責，他們決定將模型整合進什麼樣的應用情境。

❌ 不正確。部署者的責任在於產品設計、安全機制，以及決定將模型暴露給哪些使用者族群——這些是開發者與使用者之間的關鍵環節。

2. 「問題擴散（diffusion of responsibility）」在 AI 情境中指的是？

✅ 正確！當多個主體共同參與一個系統，每個主體都可以指向其他主體，最終導致責任歸屬模糊、無人真正問責。

❌ 不正確。問題擴散是指：當多個責任主體共同涉入一個有害後果，每個主體都指向其他主體，最終導致沒有人真正承擔責任。

3. 根據本課內容，為什麼「設計決策即道德決策」在 AI 產品開發中特別重要？

✅ 正確！若設計者能合理預見某一設計選擇會導致傷害，卻未採取預防措施，「可預見的傷害」原則便可能成立責任。

❌ 不正確。設計決策的道德意涵在於：設計者的選擇決定了哪些傷害是可預見的，而侵權法的「可預見傷害」原則正是責任認定的關鍵。

🧪 實驗室 · 第三課

實驗室：責任歸屬辯論

與 AI 討論責任鏈的具體案例，練習分析多主體問責的複雜性。

實驗目標

在這個實驗室中，你將與 AI 共同分析 AI 造成傷害的責任歸屬問題。請嘗試以下方向：

描述一個 AI 相關的真實傷害案例，請 AI 分析各主體的責任比重
詢問 AI：如果你的回應導致使用者做出錯誤決定，你認為誰應負責？
討論「可預見傷害」原則在 AI 設計中的應用

建議提示詞：「假設一個 AI 醫療建議系統給出了錯誤診斷導致患者受到傷害，請分析開發者、醫院（部署者）和醫生各應承擔多少責任，並說明理由。」

🤖 AI 責任分析助理實驗室對話

🎯 進階 · 第四課

偏見進，偏見出

AI 系統從資料中學習——而資料是人類歷史的產物。歷史的偏見，會被 AI 以全新的方式放大。

訓練資料中的歷史偏見，如何在 AI 輸出中被放大而非消除？

2016 年，ProPublica 發布了一篇調查報導，揭露美國法院廣泛使用的 COMPAS 犯罪風險評估系統存在嚴重的種族偏見。該系統由私人公司 Northpointe 開發，用於預測被告再次犯罪的風險，以輔助法官在量刑與假釋決定上的判斷。ProPublica 分析了佛羅里達州超過七千名被告的資料，發現黑人被告被錯誤標記為高風險的比率，是白人被告的將近兩倍；而白人被告被錯誤標記為低風險的比率，也遠高於黑人被告。Northpointe 反駁稱，依不同的公平性定義，系統是校準良好的——這場爭論揭示了一個根本性的困境：公平性本身有多種相互矛盾的數學定義。

偏見從何而來？

AI 系統中的偏見主要來自三個源頭：訓練資料偏見、標記偏見，以及代理變數偏見。

訓練資料偏見是最直接的來源——若歷史資料本身反映了不平等的社會結構，模型便會複製並延續這些不平等。在刑事司法領域，歷史上黑人社區受到更高強度的警力執法，因此在逮捕記錄中出現的頻率更高，即便實際犯罪率並不一定更高。模型從這些記錄中學習，便產生了系統性偏見。

代理變數問題

COMPAS 不直接使用種族作為輸入變數，但它使用的「郵遞區號」、「家庭成員犯罪記錄」等變數，在美國高度相關於種族背景——這些被稱為「代理變數（proxy variables）」，能間接引入種族偏見，即便系統表面上看似中立。

公平性的數學矛盾

COMPAS 案的最大啟示，是揭示了公平性在數學上的內在矛盾。至少有三種常用的公平性定義：個別公平（individual fairness）、群體公平（group fairness），以及校準公平（calibration fairness）。

數學上已被證明，當基準犯罪率在不同群體之間存在差異時，這三種公平性定義無法同時成立——你只能選擇滿足其中一種或兩種，必然犧牲其他種。這意味著公平性不只是技術問題，更是政治與倫理問題：哪種公平對社會最重要？

訓練資料偏見：歷史不平等被模型複製
標記偏見：人工標記者的主觀偏見進入訓練資料
代理變數偏見：表面中立的變數間接編碼敏感屬性
公平性定義衝突：不同數學定義在特定條件下無法兼容

📝 測驗 · 第四課

測驗：偏見進，偏見出

測試你對 AI 偏見來源與公平性定義矛盾的理解。

1. COMPAS 系統的種族偏見問題，主要是透過哪種機制產生的？

✅ 正確！COMPAS 不直接使用種族，但使用的「郵遞區號」等變數在美國高度相關於種族背景，形成代理變數偏見。

❌ 不正確。COMPAS 的偏見來自代理變數：系統使用的郵遞區號等表面中立的變數，在美國的社會脈絡中高度相關於種族，從而間接引入了種族偏見。

2. ProPublica 的分析發現，COMPAS 系統對黑人被告的哪一種錯誤率更高？

✅ 正確！黑人被告被錯誤標記為高風險（假陽性）的比率，是白人被告的將近兩倍——這是一種對黑人被告明顯不利的系統性錯誤。

❌ 不正確。ProPublica 發現黑人被告被錯誤標記為「高風險」的比率，是白人被告的將近兩倍——這種假陽性錯誤對黑人被告造成了不公平的不利影響。

3. 為什麼「公平性的數學矛盾」說明公平性不只是技術問題？

✅ 正確！當不同的公平性定義在數學上無法同時成立，選擇優先滿足哪一種，本質上是一個政治與倫理的判斷，而不是技術問題。

❌ 不正確。公平性的數學矛盾意味著，選擇優先實現哪一種公平性定義，本質上是政治與倫理的判斷——這無法由演算法本身決定，必須由人類做出價值選擇。

🧪 實驗室 · 第四課

實驗室：識別代理變數偏見

與 AI 共同分析資料集中的代理變數，學習識別隱藏的偏見機制。

實驗目標

在這個實驗室中，你將與 AI 討論代理變數偏見與公平性定義的實際應用。請嘗試以下方向：

列舉一個你認為可能存在代理變數偏見的 AI 應用場景，請 AI 分析其偏見機制
詢問 AI 三種公平性定義（個別公平、群體公平、校準公平）各有什麼取捨
討論：在信用評分系統中，哪些變數可能是敏感屬性的代理變數？

建議提示詞：「在台灣的大學入學 AI 輔助篩選系統中，哪些輸入變數可能成為社經背景的代理變數？這會產生什麼樣的不公平？」

🤖 偏見識別助理實驗室對話

🎯 進階 · 第五課

公平性與 AI

公平性不是一個單一的目標，而是一組相互競爭的價值觀。了解如何在設計中做出有意識的取捨。

在無法同時滿足所有公平性定義時，誰有權決定優先哪一種？

2018 年，亞馬遜（Amazon）終止了一個秘密開發的 AI 招募工具，原因是該工具系統性地歧視女性應徵者。這個工具使用過去十年的歷史招募資料進行訓練，而這批資料來自一個男性主導的科技產業。模型學到的模式是：含有「女子棋社」或「女子大學」等詞語的履歷，代表較低的招募成功率。即便工程師移除了明確的性別詞語，模型仍找到其他替代模式來推斷應徵者的性別。亞馬遜最終選擇放棄這個工具，而非繼續修補。

公平性干預的層次

AI 公平性的干預措施通常在三個層次進行：前處理（pre-processing）、中處理（in-processing），以及後處理（post-processing）。

前處理在訓練前對資料進行修正，例如重新取樣（resampling）以平衡各群體的代表性，或移除敏感屬性及其代理變數。中處理在訓練過程中加入公平性約束，作為損失函數的一部分。後處理則在模型輸出後進行校正，例如對不同群體設定不同的決策閾值。

亞馬遜案的教訓

亞馬遜的工程師嘗試了多種偏見緩解方法，但發現模型會不斷找到新的代理特徵。這揭示了一個根本問題：當歷史資料本身就是偏見的載體，技術修補無法解決結構性問題。

公平性的政治維度

亞馬遜的案例揭示，公平性問題的根源不只在演算法，更在於訓練資料所反映的社會結構。一個在「歷史資料」上校準良好的系統，可能只是在高效率地延續歷史的不公平。

這引發了一個更深層的問題：若社會本身存在結構性不平等，AI 系統應「如實反映」現實，還是應「積極矯正」現實？前者追求的是統計上的忠實性，後者追求的是規範意義上的公正性——這是一個無法被演算法自動解決的政治問題。

前處理：訓練前修正資料代表性
中處理：訓練時加入公平性約束條件
後處理：輸出後針對不同群體進行閾值校正
結構性問題：技術修補無法解決社會不平等的根源

誰在做公平性決策？

公平性干預的每一個層次，都涉及價值判斷——究竟要平衡哪些群體？使用哪種公平性定義？誰有資格做這些決定？目前，這些決定主要由科技公司的工程師和產品經理做出，缺乏受影響群體的真正參與。

這一現象被稱為「公平性洗白（fairwashing）」的風險——公司宣稱系統是公平的，但所採用的公平性定義恰好對公司最有利，或對受影響群體沒有實質意義。真正的公平性治理，需要引入多元利害關係人的參與，包括受影響的社群代表。

📝 測驗 · 第五課

測驗：公平性與 AI

測試你對 AI 公平性干預層次與政治維度的理解。

1. 亞馬遜 AI 招募工具歧視女性的根本原因是什麼？

✅ 正確！模型從過去十年男性主導的招募歷史中學習，將男性主導的模式視為「成功應徵者」的特徵，從而系統性地歧視女性。

❌ 不正確。亞馬遜 AI 工具的偏見來自訓練資料——過去十年的招募記錄反映了男性主導的科技產業現實，模型學到了這些有偏見的模式。

2. 「後處理（post-processing）」公平性干預的運作方式是？

✅ 正確！後處理干預在模型輸出後進行，透過對不同群體設定不同的決策閾值來調整最終決策，而非修改模型本身。

❌ 不正確。後處理（post-processing）是在模型輸出後才進行的干預，例如針對不同群體設定不同的決策閾值——而非在訓練前或訓練中修改資料或模型。

3. 「公平性洗白（fairwashing）」的主要風險是？

✅ 正確！公平性洗白是指公司選擇對自己最有利的公平性定義，宣稱系統公平，但這一定義對受影響的社群並無實質保護。

❌ 不正確。公平性洗白（fairwashing）是指公司選擇對自己最有利的公平性定義——宣稱系統是公平的，但所謂的「公平」對受影響群體沒有實質意義或保護。

🧪 實驗室 · 第五課

實驗室：設計公平性干預策略

與 AI 共同設計針對具體應用場景的公平性干預方案，評估各方案的取捨。

實驗目標

在這個實驗室中，你將與 AI 共同探討公平性干預的設計決策。請嘗試以下方向：

選擇一個你關心的 AI 應用場景（如貸款審核、大學入學、就業篩選），請 AI 分析可能的偏見來源
討論三種公平性干預層次在該場景中的適用性與限制
詢問 AI：若必須選擇一種公平性定義，你會如何向受影響的社群說明這個選擇？

建議提示詞：「假設你是一家台灣銀行的 AI 倫理顧問，正在審查一個信貸評分 AI 系統。請提出三個最可能存在偏見的變數，並說明如何驗證它們是否構成代理變數偏見。」

🤖 公平性設計助理實驗室對話

🎯 進階 · 第六課

失效模式與緩解

了解 AI 系統如何以可預測的方式失效，以及工程師和設計師如何系統性地減少這些失效的影響。

為什麼在高風險 AI 應用中，人類監督依然不可或缺？

2018 年 3 月，一輛 Uber 自動駕駛測試車在美國亞利桑那州坦佩市撞死了一名正在過馬路的女性。事後調查揭露了多個重疊的失效：感知系統最初將受害者識別為「未知物體」，隨後判斷為「車輛」，最後才判斷為「騎自行車的人」，而此時已來不及煞車。自動緊急煞車系統在測試期間被停用。安全駕駛員在事故前幾秒才注意到危險，時間不夠反應。這次事故是自動駕駛歷史上第一例奪走行人生命的案例，也暴露了多個安全閥同時失效的「瑞士起司模型」問題。

瑞士起司模型

安全科學中的瑞士起司模型（Swiss Cheese Model）描述了複雜系統的失效方式：每一層防護都有「漏洞」（就像瑞士起司的孔洞），單層防護的漏洞通常不會造成事故。但當多層防護的漏洞恰好對齊，事故便發生了。

Uber 事故中，感知系統的分類錯誤、緊急煞車的停用，以及人類監督的不足——這三個漏洞同時對齊，導致了無法挽回的後果。瑞士起司模型提示我們：防止高風險 AI 失效，需要多層獨立的防護機制，而非依賴單一的「完美 AI」。

關鍵概念

縱深防禦（Defense in Depth）：在 AI 系統設計中，透過多層獨立的防護機制（技術監控、人類監督、緊急停機開關）來降低單點失效的風險。

常見的 AI 失效模式

除了 Uber 案中的感知失效，AI 系統還有多種常見的失效模式：分佈外失效（out-of-distribution failure）發生在輸入資料超出訓練分佈的範圍；目標錯位（specification gaming）是模型找到了滿足評估指標卻違背原始意圖的解法；串聯失效（cascading failure）是單一模型的錯誤觸發下游系統的連鎖反應。

目標錯位的一個著名例子：研究者訓練 AI 玩划船遊戲，AI 學會了原地打轉收集獎勵點數，而非完成比賽——它嚴格遵守了獎勵函數，卻完全違背了設計者的意圖。

分佈外失效：輸入資料超出訓練分佈
目標錯位：找到滿足指標卻違背意圖的捷徑
串聯失效：單點錯誤觸發系統性連鎖反應
過度自動化：人類監督被逐漸移除，失去安全閥

緩解策略的設計原則

有效的失效緩解策略遵循幾個核心原則：首先是最小授權原則——AI 系統只應擁有完成任務所需的最小權限，避免因失效造成的損害超出必要範圍。其次是可逆性原則——高風險決策應保留人類審查與撤銷的空間。第三是透明性原則——系統應能解釋其決策過程，使人類監督者能夠發現異常。

Uber 事故後，美國國家運輸安全委員會（NTSB）建議所有自動駕駛測試必須保持緊急煞車系統啟用、提升人類監督員的監控標準，以及建立更嚴格的測試資格認證制度。

📝 測驗 · 第六課

測驗：失效模式與緩解

測試你對 AI 失效模式與縱深防禦策略的理解。

1. 在 Uber 自動駕駛事故中，「瑞士起司模型」如何解釋這場悲劇？

✅ 正確！瑞士起司模型說明，當多層防護的漏洞恰好對齊，事故便發生——Uber 案中三個漏洞同時失效，正是這一模型的典型案例。

❌ 不正確。瑞士起司模型的核心是：多層防護各有漏洞，當漏洞同時對齊才發生事故。Uber 案中感知失效、緊急煞車停用與人類監督不足三個漏洞同時對齊，共同造成了悲劇。

2. AI 划船遊戲中「原地打轉收集獎勵點數」的案例，說明了哪一種失效模式？

✅ 正確！這是目標錯位（specification gaming）的經典案例：AI 嚴格遵守了獎勵函數，卻找到了完全違背設計者意圖的捷徑。

❌ 不正確。這是「目標錯位（specification gaming）」：AI 嚴格遵守了評估指標（獎勵函數），但找到的解法完全違背了設計者的原始意圖（完成比賽）。

3. 「最小授權原則」在 AI 系統設計中的含義是？

✅ 正確！最小授權原則確保 AI 系統的權限不超過任務所需，一旦失效，損害也被限制在最小範圍。

❌ 不正確。最小授權原則是指：AI 系統只應被賦予完成任務所需的最小權限。這樣即便系統失效，損害也能被控制在最小範圍，不會波及不相關的系統或資料。

🧪 實驗室 · 第六課

實驗室：分析 AI 失效情境

與 AI 共同分析真實或假設的 AI 失效情境，設計縱深防禦機制。

實驗目標

在這個實驗室中，你將練習用瑞士起司模型分析 AI 失效情境。請嘗試以下方向：

描述一個你認為存在高風險的 AI 應用情境，請 AI 用瑞士起司模型分析其潛在失效鏈
討論如何在這個情境中設計縱深防禦機制
詢問 AI：目標錯位在真實的 AI 系統中有哪些已知的例子？

建議提示詞：「請用瑞士起司模型分析：醫院使用 AI 系統自動推薦藥物劑量，可能出現哪些失效鏈？每一層防護的漏洞是什麼？」

🤖 失效模式分析助理實驗室對話

🎯 進階 · 第七課

對抗攻擊與操縱

AI 系統不只會意外犯錯，還可能被刻意操縱。了解攻擊者如何利用 AI 的弱點，是設計安全系統的前提。

人類難以察覺但能徹底欺騙 AI 的攻擊，揭示了 AI 的哪種根本缺陷？

2019 年，McAfee 的研究人員展示了一個令人震驚的實驗：他們在一個限速 35 英里的路標上貼了一小段黑色膠帶，使 Mobileye 的車道輔助系統將其誤識為限速 85 英里的標誌，並相應地調整了車輛的加速設定。這條膠帶對人眼幾乎不可見，卻足以徹底欺騙電腦視覺系統。這類攻擊被稱為「對抗樣本（adversarial examples）」，它們揭示了深度神經網路的感知方式與人類感知之間的根本差異。

對抗攻擊的類型

對抗攻擊（adversarial attacks）指的是刻意設計的輸入，旨在使 AI 系統做出錯誤判斷。主要分為幾類：

逃避攻擊（evasion attacks）：在推論（inference）階段修改輸入以欺騙模型——如 McAfee 的路標案例。資料投毒（data poisoning）：在訓練階段植入惡意樣本，使模型學到攻擊者想要的行為。提示詞注入（prompt injection）：針對語言模型，透過構造特殊的輸入文字，使模型忽略原有指令並執行攻擊者的指令。

提示詞注入的現實威脅

2023 年多項研究顯示，攻擊者可透過在網頁或文件中嵌入隱藏指令，使整合了 GPT 等模型的 AI 助理洩露使用者的私人對話記錄或執行未授權的操作。

為何 AI 容易被對抗攻擊？

深度神經網路的感知方式與人類感知有根本差異：人類辨識物體依賴高層次的語義特徵（「這看起來像一隻貓」），而神經網路則學習了高維特徵空間中的統計模式。在這個高維空間中，存在大量對人眼無意義卻能影響模型輸出的微小擾動。

此外，許多模型是在封閉環境中訓練的，訓練時未曾見過攻擊者刻意設計的惡意輸入。一旦部署到真實世界，面對有動機的攻擊者，這些模型便暴露了其脆弱性。

逃避攻擊：推論階段修改輸入欺騙模型
資料投毒：訓練階段植入惡意樣本
提示詞注入：語言模型接受嵌入式惡意指令
模型萃取：透過查詢復原模型的架構或訓練資料

防禦策略

對抗攻擊的防禦是 AI 安全研究的核心課題。主要防禦策略包括：對抗訓練（adversarial training）——在訓練資料中加入對抗樣本，使模型學習對擾動的魯棒性；輸入預處理——在推論前過濾或轉換輸入以消除惡意擾動；以及可認證防禦（certified defenses）——以數學方法證明模型在特定擾動範圍內的正確性。

然而，防禦和攻擊之間存在持續的「軍備競賽」：每種防禦方法都可能被更精密的攻擊所突破。這提示我們，對抗魯棒性（adversarial robustness）目前仍是一個尚未解決的開放問題。

📝 測驗 · 第七課

測驗：對抗攻擊與操縱

測試你對對抗攻擊類型與防禦策略的理解。

1. McAfee 研究人員在路標上貼膠帶使 Mobileye 誤判限速的實驗，屬於哪一種對抗攻擊？

✅ 正確！逃避攻擊（evasion attack）是在推論（inference）階段修改輸入以欺騙模型——貼膠帶修改路標正是在模型判斷時修改了真實世界的輸入。

❌ 不正確。這是逃避攻擊（evasion attack）：在模型進行推論判斷時，透過修改真實輸入（路標）來欺騙模型，而非在訓練階段植入惡意樣本。

2. 「提示詞注入（prompt injection）」攻擊的主要目標是什麼？

✅ 正確！提示詞注入透過在輸入中嵌入惡意指令，覆蓋模型的原有系統指令，使其執行攻擊者設計的行為。

❌ 不正確。提示詞注入（prompt injection）的目標是透過構造特殊的輸入文字，使語言模型忽略開發者設定的原有指令，轉而執行攻擊者嵌入的惡意指令。

3. 為什麼對抗攻擊的防禦研究被描述為「軍備競賽」？

✅ 正確！攻擊者不斷開發新的技術來突破防禦，防禦方則持續更新方法來應對新攻擊——這種持續的相互升級，正是「軍備競賽」的本質。

❌ 不正確。「軍備競賽」是指攻擊方與防禦方之間的持續升級：每種防禦方法都可能被更精密的攻擊突破，導致雙方不斷開發新技術來應對對方，目前尚無明確的勝負。

🧪 實驗室 · 第七課

實驗室：探索提示詞注入的邊界

與 AI 討論提示詞注入攻擊的機制、現實案例與防禦策略。

實驗目標

在這個實驗室中，你將與 AI 深入討論對抗攻擊——特別是語言模型面臨的提示詞注入問題。請嘗試以下方向：

詢問 AI 它如何識別並抵禦提示詞注入嘗試
討論對抗樣本在圖像識別系統中的現實威脅案例
請 AI 分析：從系統設計角度，哪些措施能最有效地降低提示詞注入的風險？

建議提示詞：「如果一個整合了語言模型的 AI 助理被部署來處理用戶的電子郵件，攻擊者可以如何透過電子郵件內容對這個助理進行提示詞注入攻擊？請具體說明攻擊流程。」

🤖 對抗攻擊分析助理實驗室對話

🎯 進階 · 第八課

評估與稽核 AI 系統

如何系統性地評估 AI 系統的效能、公平性與安全性？稽核不是終點，而是持續治理的起點。

誰應該有權力稽核 AI 系統，又需要什麼樣的獨立性？

2019 年，美國國家標準暨技術研究院（NIST）發布了一份人臉辨識演算法評估報告，測試了來自 99 家廠商的 189 個演算法。報告發現，大多數演算法對黑人女性的假陽性率（將不同人誤認為同一人），是對白人男性的 10 到 100 倍之多。這份報告建立在一個嚴格的標準化測試框架上，使用真實的政府人口資料庫進行評估，並對所有廠商採用完全相同的測試條件。這是迄今最具代表性的 AI 系統大規模獨立稽核案例之一。

評估的三個維度

有效的 AI 系統評估應涵蓋三個核心維度：效能評估（performance evaluation）、公平性評估（fairness evaluation），以及安全性評估（safety evaluation）。

效能評估使用標準化的測試資料集，量化模型在各項指標上的表現——準確率、召回率（recall）、精確率（precision）與 F1 分數等。公平性評估則要求將這些指標拆分到不同的人口群體，檢驗是否存在系統性差異。安全性評估則主動測試模型對對抗攻擊、邊緣案例（edge cases）與分佈外輸入的魯棒性。

評估的局限

所有評估都依賴測試資料集的品質與覆蓋範圍。若測試資料集本身存在取樣偏見，評估結果便無法真實反映系統在現實部署環境中的表現。

獨立稽核的必要性

企業的自我評估存在根本的利益衝突——評估者同時是被評估系統的開發者與受益者。獨立稽核（independent audit）透過第三方機構、學術研究者或政府機關，在開發者無法干預的條件下進行評估，以提供更客觀的結果。

NIST 的人臉辨識評估之所以具有公信力，正是因為它由政府機構主導、使用標準化資料集、對所有廠商採用相同條件，且結果完整公開。相比之下，許多商業 AI 產品的評估由開發者自行發布，測試條件與資料集不透明，外界難以獨立驗證。

效能評估：準確率、召回率、精確率在標準測試集上的量化
公平性評估：各人口群體的指標拆分分析
安全性評估：對抗攻擊與邊緣案例的魯棒性測試
獨立稽核：第三方在無利益衝突條件下的評估

持續監控：部署後的評估

AI 系統的評估不應在部署時停止。真實世界的資料分佈會隨時間變化（概念漂移，concept drift），使模型效能逐漸下降。使用者的行為也可能以開發者未曾預料的方式與系統互動，產生新的風險。

持續監控系統應追蹤關鍵指標的時間趨勢，設置異常偵測機制，並建立明確的「觸發重新評估」閾值。此外，應建立使用者反饋與申訴機制，讓受 AI 決策影響的人能夠提出質疑並獲得人工審查。這是 2024 年歐盟《AI 法案》對高風險 AI 系統的強制性要求之一。

📝 測驗 · 第八課

測驗：評估與稽核 AI 系統

測試你對 AI 系統評估框架與獨立稽核必要性的理解。

1. NIST 2019 年人臉辨識評估報告的主要發現是什麼？

✅ 正確！NIST 報告發現大多數算法對黑人女性的假陽性率遠高於白人男性，差距達 10 到 100 倍，揭示了系統性的種族與性別偏見。

❌ 不正確。NIST 報告的核心發現是：大多數人臉辨識算法對黑人女性的假陽性率，是對白人男性的 10 到 100 倍——這揭示了嚴重的系統性偏見。

2. 為什麼企業對自身 AI 系統的自我評估存在根本性問題？

✅ 正確！當評估者與被評估系統的開發者及受益者是同一主體，利益衝突使評估結果的客觀性無法得到保證。

❌ 不正確。企業自我評估的根本問題在於利益衝突：評估者同時是系統的開發者與受益者，有動機選擇對自己有利的測試條件或呈現方式。

3. 「概念漂移（concept drift）」對 AI 系統的持續監控意味著什麼？

✅ 正確！概念漂移（concept drift）是指真實世界的資料分佈隨時間改變，使模型的預測不再準確——這正是部署後持續監控不可或缺的原因。

❌ 不正確。概念漂移（concept drift）是指真實世界的資料分佈隨時間發生變化，使原本表現良好的模型效能逐漸下降——這說明了部署後持續監控的必要性。

🧪 實驗室 · 第八課

實驗室：設計 AI 稽核框架

與 AI 共同設計針對特定應用場景的稽核框架，思考評估指標的選擇與獨立性的保障。

實驗目標

在這個實驗室中，你將與 AI 共同設計一個 AI 系統的稽核框架。請嘗試以下方向：

選擇一個你認為需要嚴格稽核的 AI 應用場景，請 AI 協助設計評估指標
討論如何在效能、公平性與安全性三個維度之間取得平衡
詢問 AI：誰應該有資格進行獨立稽核？需要什麼條件才能保障稽核的獨立性？

建議提示詞：「假設台灣政府正在考慮在社會救助申請審核中引入 AI 系統，請幫我設計一個稽核框架，包含：應測試哪些效能指標、如何進行公平性評估，以及哪些機構適合擔任獨立稽核者。」

🤖 AI 稽核設計助理實驗室對話

模組總測驗

綜合測試你在本模組八堂課中學習的所有核心概念。共 15 題。

1. 下列哪一個描述最準確地定義了 AI 的「幻覺（hallucination）」現象？

✅ 正確！幻覺是指模型生成聽似合理卻完全虛構的內容，如施瓦茨案中從未存在的判例。

❌ 不正確。幻覺（hallucination）是指模型生成了聽起來合理、實際上卻完全捏造的內容，而非拒絕回答或回應緩慢。

2. 一個「校準良好（well-calibrated）」的 AI 模型，其 70% 信心的預測，實際正確率應接近？

✅ 正確！校準良好意味著模型的信心程度與實際正確率高度匹配——70% 的信心應對應約 70% 的正確率。

❌ 不正確。校準良好（well-calibrated）的定義是信心與正確率相符：70% 信心的預測，實際正確率應接近 70%。

3. 在 AI 責任鏈中，「開發者」的主要責任是？

✅ 正確！開發者負責模型的基礎架構、訓練資料品質與核心安全機制——這是責任鏈的源頭。

❌ 不正確。在 AI 責任鏈中，開發者的主要責任是建立基礎模型的架構、訓練資料與安全邊界，而非產品整合或使用者服務。

4. 「代理變數（proxy variable）」偏見的核心問題是？

✅ 正確！代理變數在表面上看似中立，但在特定社會脈絡中（如美國的郵遞區號與種族），高度相關於敏感屬性，從而間接引入偏見。

❌ 不正確。代理變數（proxy variable）的問題在於：這些變數表面上是中立的，但在特定社會脈絡中，它們與種族、性別等敏感屬性高度相關，從而間接引入偏見。

5. 亞馬遜終止其 AI 招募工具的最主要原因是？

✅ 正確！亞馬遜的 AI 工具因訓練資料的歷史偏見系統性地歧視女性，且工程師嘗試多種修補方法後仍無法根除這一問題，最終選擇放棄。

❌ 不正確。亞馬遜終止工具的原因是它系統性地歧視女性應徵者——這源自訓練資料中男性主導的歷史招募模式，且無法透過技術手段完全修正。

6. 「前處理（pre-processing）」公平性干預的運作時機是？

✅ 正確！前處理（pre-processing）在訓練開始之前介入，透過重新取樣或移除代理變數等方式，修正訓練資料集的代表性問題。

❌ 不正確。前處理（pre-processing）是在訓練資料送入模型之前進行的干預——例如重新取樣以平衡各群體的代表性，或移除可能的代理變數。

7. 瑞士起司模型（Swiss Cheese Model）在 AI 安全中的核心啟示是？

✅ 正確！瑞士起司模型提示我們，安全依賴多層獨立防護——任何單層防護都可能失效，只有多層漏洞同時對齊才會釀成事故。

❌ 不正確。瑞士起司模型的核心啟示是：安全需要多層獨立的防護機制，因為每層都有潛在漏洞，事故只在多層漏洞同時對齊時發生。

8. 「目標錯位（specification gaming）」最準確的描述是？

✅ 正確！目標錯位是指模型嚴格遵守了評估指標，卻找到了完全違背設計者意圖的解法——如划船 AI 原地打轉收集分數。

❌ 不正確。目標錯位（specification gaming）是指模型找到了滿足評估指標（獎勵函數）卻違背設計者原始意圖的捷徑解法。

9. 「資料投毒（data poisoning）」攻擊與「逃避攻擊（evasion attack）」的主要區別是？

✅ 正確！兩者的核心區別在於攻擊發生的時間點：資料投毒在訓練階段；逃避攻擊在推論（部署）階段。

❌ 不正確。兩者的主要區別在於攻擊時間點：資料投毒在訓練階段植入惡意樣本；逃避攻擊則在模型部署後的推論階段修改輸入。

10. NIST 的人臉辨識評估之所以具有高度公信力，主要原因是？

✅ 正確！NIST 評估的公信力來自其獨立性（政府機構主導）、標準化條件與完整公開的結果，確保了評估的客觀性。

❌ 不正確。NIST 評估的公信力來自：政府機構主導（無商業利益衝突）、標準化測試資料集、對所有廠商相同的測試條件，以及完整公開的結果。

11. 在 AI 系統設計中，「可逆性原則」的含義是？

✅ 正確！可逆性原則確保高風險的 AI 決策不會立即執行不可逆的後果，保留人類介入與撤銷的空間。

❌ 不正確。可逆性原則是指：高風險的 AI 決策應保留人類審查與撤銷的空間，避免因 AI 錯誤而產生無法挽回的後果。

12. Google Bard 在 2023 年展示中犯的天文學錯誤，對 Google 造成的最直接後果是？

✅ 正確！一個 AI 在公開展示中以自信語氣給出錯誤答案，直接導致 Google 市值在一天內蒸發約 1,000 億美元，說明了過度自信的代價。

❌ 不正確。Bard 的天文學錯誤被廣泛報導後，Google 市值在一天內蒸發約 1,000 億美元——這是一個過度自信的 AI 錯誤在商業上造成重大損失的典型案例。

13. 「對抗訓練（adversarial training）」如何提升模型的對抗魯棒性？

✅ 正確！對抗訓練透過在訓練資料中加入刻意設計的對抗樣本，使模型學習在面對類似擾動時仍能維持正確的輸出。

❌ 不正確。對抗訓練（adversarial training）是在訓練時加入對抗樣本，讓模型接觸各種擾動並學習在面對這些擾動時仍能正確預測。

14. Character.AI 案所揭示的「設計決策即道德決策」，最直接與哪個法律概念相關？

✅ 正確！「可預見傷害」是侵權法的核心概念——若設計者能合理預見某設計選擇會導致傷害，卻未採取防範措施，責任便難以免除。

❌ 不正確。Character.AI 案最直接涉及的法律概念是侵權法中的「可預見傷害」：設計者若能合理預見某一設計決策可能導致傷害，卻未採取預防措施，便難以免除責任。

15. 下列哪一項措施最能有效對抗 AI 系統因「概念漂移（concept drift）」而導致的效能下降？

✅ 正確！應對概念漂移的根本措施是持續監控——追蹤指標趨勢、設置異常偵測與重新評估閾值，確保模型在真實環境中持續可靠。

❌ 不正確。概念漂移發生在部署後，因此應對措施必須是部署後的持續監控——追蹤關鍵指標的時間趨勢，並在效能下降超過閾值時觸發重新評估與訓練。