🎯 進階 · 第一課
先定義問題
在動手建構 AI 系統之前,清晰的問題定義決定了一切後續決策的品質。
為何許多 AI 專案失敗,並非因為技術,而是因為問題定義錯誤?
2018 年,IBM 的 Watson for Oncology(癌症診療輔助系統)在多家醫院被終止使用。STAT News 的調查報導揭露,該系統在真實臨床環境中給出的治療建議,有時與腫瘤科醫師的判斷相悖,甚至被內部文件描述為「不安全且不正確」。關鍵原因在於:Watson 的訓練資料主要來自紀念斯隆凱特琳癌症中心(MSKCC)少數專家的假設性案例,而非真實的全球患者資料。IBM 把「協助醫師做出最佳決策」這個模糊願景,直接交給工程師去實作,卻從未嚴謹地回答:「這個系統要解決哪一個具體的臨床決策問題?在什麼資料條件下?對哪些患者族群有效?」問題定義的缺失,比任何演算法缺陷都更具破壞力。
問題定義的四個維度
Watson for Oncology 的案例清楚說明:一個 AI 系統的成敗,往往在第一行程式碼寫下之前就已決定。優秀的問題定義需要從四個維度同時思考。
維度一:問題的可操作性
「改善醫療品質」不是一個可操作的問題。「在急診室分診時,協助護理師辨識需優先處置的敗血症疑似患者」才是。問題必須具體到可以被測量、被驗證。
維度二:資料的可得性與代表性
你希望解決的問題,是否存在高品質的訓練資料?Watson 的失敗之一,正是訓練資料無法代表真實的全球患者分布。在定義問題時,必須同步評估資料現實。
維度三:利害關係人的真實需求
AI 系統服務的對象,真正的痛點是什麼?癌症醫師需要的不是「第二意見」,而是在海量文獻中快速找到與眼前患者最相關的臨床證據。訪談最終用戶,往往能顛覆最初的假設。
維度四:成功的衡量標準
如何判斷系統「成功」了?是準確率?用戶採納率?患者預後改善?不同的指標會導向截然不同的設計決策。在開始建構之前,必須與所有利害關係人就成功標準達成共識。
問題-解決方案配適框架
Google 的研究員 Sculley 等人在 2015 年的論文〈Machine Learning: The High-Interest Credit Card of Technical Debt〉中指出,ML 系統中最難以察覺、代價最高的技術債,往往來自問題定義階段的模糊性。他們提出一個核心問題:你真的需要機器學習嗎?
許多被包裝為「AI 解決方案」的問題,其實用簡單的規則引擎、資料庫查詢、或人工流程優化就能更有效解決。在決定使用 AI 之前,應先確認:問題具有充分的資料支撐、AI 的預測誤差在可接受範圍內、且解決方案的收益超過建構與維護成本。
問題分解 :將大問題拆解為若干子問題,逐一評估哪些適合 AI 介入
基準線建立 :在引入 AI 之前,先建立人工處理的基準線效能
失敗情境預想 :列出系統在哪些情況下會出錯,並評估後果嚴重性
最小可行問題 :先解決最核心、最具體的子問題,再逐步擴展範疇
📝 第一課測驗
先定義問題
測驗你對問題定義框架的理解。
1. IBM Watson for Oncology 被多家醫院終止使用的主要原因是什麼?
A. 運算速度太慢,無法在臨床環境即時使用
B. 訓練資料無法代表真實患者族群,問題定義模糊
C. 系統遭到駭客入侵,資料安全出現漏洞
D. 醫師拒絕學習使用新的數位工具
✓ 正確!Watson 的核心問題在於訓練資料主要來自少數專家的假設性案例,而非真實全球患者資料,且問題定義從一開始就過於模糊。
✗ 再想想。問題不在技術限制,而是更根本的問題定義與資料代表性缺失。
2. 以下哪一個是「可操作的問題定義」的良好範例?
A. 利用 AI 提升公司的整體生產力
B. 使用深度學習改善客戶體驗
C. 透過機器學習優化供應鏈管理
D. 在客服信件到達後 30 分鐘內,將退貨申請自動分類至對應的處理流程,準確率達 95%
✓ 正確!選項 D 具備了具體的目標(退貨分類)、可測量的標準(30 分鐘、95% 準確率)與明確的應用情境。
✗ 其他選項的問題定義都過於模糊,缺乏可測量的成功標準與具體的應用範疇。
3. 根據 Sculley 等人的研究,ML 系統中最難察覺、代價最高的技術債來自哪個階段?
A. 問題定義階段的模糊性
B. 模型選擇與超參數調整階段
C. 系統部署與伺服器配置階段
D. 用戶介面設計與前端開發階段
✓ 正確!問題定義的模糊性是 ML 系統最隱性也最昂貴的技術債根源,因為它會影響所有後續的設計決策。
✗ Sculley 等人特別指出,問題定義階段的模糊性才是最根本的來源,技術層面的債務相對容易被發現和修復。
←
回到課程
→
前往實作
🧪 第一課實作
問題定義工作坊
與 AI 導師一起,練習將模糊的 AI 願景轉化為可操作的問題定義。
實作目標
在這個對話實作中,你將描述一個你想用 AI 解決的問題(可以是真實的或假設的),AI 導師會引導你運用四個維度框架,逐步深化問題定義的品質。
建議起點:「我想做一個 AI 系統來幫助台灣的___,請幫我定義這個問題。」
描述你想解決的問題領域(教育、醫療、零售等)
回答 AI 導師關於可操作性、資料、用戶需求的追問
嘗試寫出一個符合四個維度的完整問題定義
←
回到測驗
→
下一課
🎯 進階 · 第二課
提示詞即設計
提示詞工程(Prompt Engineering)不只是技巧,它是 AI 系統架構的核心設計決策。
改變提示詞的結構,如何根本改變 AI 系統的行為與風險?
2023 年,紐約律師 Steven Schwartz 在一起訴訟案中,向法院提交了一份引用六個先例判決的法律文件。問題是:這些判決全部是 ChatGPT 虛構的。Schwartz 在使用 ChatGPT 輔助法律研究時,使用了過於開放的提示詞,要求模型「找出支持此論點的相關案例」,卻沒有在提示詞中設定任何邊界:禁止模型生成無法驗證的引用、要求標示不確定性、或明確限制只引用可核實的真實資料庫。最終,Schwartz 與其律師事務所被聯邦法院裁定罰款 5,000 美元,並受到嚴厲訓誡。這個案例展示了:提示詞的設計決策直接決定了系統的可靠性與風險邊界。
提示詞作為系統架構
Schwartz 的案例揭示了一個關鍵認知:在 LLM(大型語言模型)應用中,提示詞(Prompt) 不僅是用戶輸入,更是整個系統行為的設計規格。一個設計不良的提示詞,等同於一個設計不良的系統架構。
OpenAI、Anthropic 等公司的技術文件將提示詞結構分為三個層次:系統提示(System Prompt)、情境提示(Contextual Prompt)、以及用戶輸入(User Input)。在建構 AI 應用時,系統提示是最關鍵的設計元素,它定義了模型的角色、能力邊界、輸出格式、以及在哪些情況下應當拒絕或標示不確定性。
提示詞設計的四個原則
原則一:明確的邊界設定
一個好的系統提示必須明確告訴模型「不應該做什麼」,而不只是「應該做什麼」。Schwartz 案的根本問題在於提示詞缺乏對模型生成引用的邊界限制。
原則二:不確定性的強制標示
在高風險應用(法律、醫療、財務)中,提示詞應強制要求模型標示其信心程度,並在無法確認的情況下主動聲明。「當你不確定時,請明確說明你不確定,並說明原因」應成為標準指令。
原則三:輸出格式的結構化控制
結構化的輸出要求可以大幅降低解析錯誤與誤用風險。要求模型以 JSON、Markdown 表格、或特定欄位格式輸出,能讓下游系統更可靠地處理結果,也讓人工審查更有效率。
原則四:情境注入的最小化
2023 年 Bing Chat 的早期版本因大量用戶注入情境資訊,導致模型出現情緒化回應。Google 的研究顯示,提示詞中注入的情境越多,模型「越軌」的機率越高。最小化不必要的情境注入是提升系統穩定性的有效手段。
←
上一課
→
前往測驗
📝 第二課測驗
提示詞即設計
測驗你對提示詞工程設計原則的理解。
1. 律師 Schwartz 被法院罰款的根本原因是什麼?
A. 他在法庭上使用了 AI 工具,違反了法院規定
B. ChatGPT 的服務條款禁止用於法律用途
C. 他使用了設計不良的提示詞,未設定邊界,導致 AI 生成虛假引用被提交法院
D. 他的 ChatGPT 帳號遭到盜用,第三方提交了偽造文件
✓ 正確!提示詞沒有限制模型只引用可核實的資料,也沒有要求模型標示不確定性,是根本設計缺失。
✗ 問題核心在提示詞設計,而非使用 AI 工具本身是否合規。
2. 在建構 AI 應用時,以下哪一層提示詞是定義系統行為最關鍵的設計元素?
A. 用戶輸入(User Input)
B. 系統提示(System Prompt)
C. 情境提示(Contextual Prompt)
D. 模型微調(Fine-tuning)指令
✓ 正確!系統提示定義了模型的角色、邊界與輸出格式,是整個應用系統行為的核心規格。
✗ 雖然所有層次都重要,但系統提示是最根本的架構決策,決定了模型的整體行為框架。
3. 為什麼在高風險 AI 應用的提示詞中,「強制標示不確定性」是重要的設計原則?
A. 因為它能讓模型產生更長、更詳細的回覆
B. 因為法規要求所有 AI 輸出必須包含免責聲明
C. 因為它能降低運算成本,提升系統效能
D. 因為它讓人工審查者能辨識哪些輸出需要特別核實,降低誤用風險
✓ 正確!標示不確定性是讓人機協作發揮效用的關鍵機制,使人工審查能聚焦在最需要驗證的環節。
✗ 不確定性標示的核心價值在於支援人工監督,而非技術效能或法規遵循。
←
回到課程
→
前往實作
🧪 第二課實作
提示詞設計實驗室
練習設計符合四個原則的系統提示詞,探索不同設計決策的影響。
實作目標
在這個對話實作中,你將與 AI 導師討論提示詞工程的設計決策。描述一個應用場景,AI 會引導你思考如何設計更安全、更可靠的系統提示。
建議起點:「我想設計一個 AI 客服系統的系統提示,請幫我評估我的設計。」
描述你的應用場景與初步的系統提示草稿
討論各設計原則在你的場景中的應用方式
修訂你的提示詞,使其更符合安全設計標準
←
回到測驗
→
下一課
🎯 進階 · 第三課
評估 AI 輸出
建立系統性的評估框架,是確保 AI 系統在真實環境中可靠運作的核心能力。
如何設計一個評估流程,讓 AI 輸出品質可被持續衡量?
2023 年,Air Canada 的 AI 客服聊天機器人向一名旅客告知,公司有一項「事後申請喪假折扣」的政策。這個政策根本不存在。當旅客依據聊天記錄申請退款被拒後,提起訴訟。卑詩省消費者保護局的仲裁機構裁定 Air Canada 必須賠償旅客,並明確指出:公司不能以「這是 AI 說的」為由推卸責任。Air Canada 在部署聊天機器人時,顯然缺乏對 AI 輸出的系統性評估機制——沒有定期抽樣審查、沒有對「高風險主張」的自動標記、也沒有針對政策類問題的答覆準確率追蹤。
評估框架的三個層次
Air Canada 案揭示了一個普遍存在的部署陷阱:公司往往把大量資源投入在模型訓練,卻忽略了持續的輸出評估機制。評估 AI 輸出需要在三個不同的層次同時進行。
層次一:自動化指標評估
針對可量化的輸出品質指標進行自動化追蹤。包括:事實準確率(Factual Accuracy)、回覆一致性(Consistency)、拒答率(Refusal Rate)、以及與基準答案的相似度(BLEU、ROUGE 等)。這些指標應即時監控並設定警報閾值。
層次二:人工抽樣審查
定期由領域專家對 AI 輸出進行抽樣審查,評估自動化指標無法捕捉的面向:語義的微妙錯誤、文化敏感性、以及脈絡適當性。Air Canada 如果建立了每週抽查客服對話的機制,很可能在早期就能發現問題。
層次三:用戶行為信號分析
分析用戶對 AI 輸出的行為反應:他們是否頻繁要求重新回答?是否在 AI 答覆後立即聯絡人工客服?這些行為信號往往比任何自動化指標更能反映 AI 輸出在真實場景中的問題。
高風險主張的特殊處理
Meta 的 Llama 2 技術報告指出,在高風險領域(法律、醫療、財務、政策),AI 系統需要針對「高度主張性(High-Assertiveness)」的輸出建立額外的把關機制。所謂高度主張性,是指模型以確定語氣聲稱特定事實,而不標示任何不確定性。
自動標記機制 :使用分類器識別包含具體數字、政策聲明、法律條文引用的輸出,並路由至人工審查佇列
反事實測試 :定期向系統輸入包含錯誤前提的問題,觀察系統是否能正確糾正而非順從
版本對比評估 :每次更新模型或提示詞後,與前一版本進行系統性對比,確保沒有意外的能力退化
←
上一課
→
前往測驗
📝 第三課測驗
評估 AI 輸出
測驗你對 AI 輸出評估框架的理解。
1. Air Canada 的案例中,仲裁機構的裁決帶來了哪個重要的法律原則?
A. 公司不能以「這是 AI 說的」為由推卸對 AI 輸出內容的責任
B. AI 客服系統必須在所有國家取得政府認證才能部署
C. 消費者不應信任任何 AI 系統提供的資訊
D. 航空公司必須禁止使用 AI 客服系統
✓ 正確!這個裁決確立了一個重要原則:部署 AI 系統的組織對其輸出承擔法律責任,AI 不是免責的藉口。
✗ 裁決的核心在於責任歸屬,而非禁止使用 AI 或強制認證。
2. 「反事實測試」在 AI 輸出評估中的主要用途是什麼?
A. 測試系統在低網路速度下的回應時間
B. 比較不同 AI 模型之間的訓練成本
C. 向系統輸入包含錯誤前提的問題,觀察系統是否能糾正而非順從
D. 生成大量隨機輸入以測試系統的資安防護
✓ 正確!反事實測試是評估 AI 系統是否容易被誘導提供錯誤資訊的有效方法。
✗ 反事實測試的核心是檢驗模型面對錯誤前提時的行為,不是壓力測試或安全掃描。
3. 以下哪一項屬於「用戶行為信號分析」的例子?
A. 計算模型輸出的平均詞彙數量
B. 對比模型輸出與標準答案的 BLEU 分數
C. 請領域專家評估輸出的語義準確性
D. 追蹤在 AI 答覆後立即聯絡人工客服的用戶比例
✓ 正確!用戶在 AI 回覆後的後續行為,是反映輸出品質最真實的信號之一。
✗ 前三個選項分別屬於自動化指標評估和人工審查,只有 D 是用戶行為信號分析。
←
回到課程
→
前往實作
🧪 第三課實作
輸出評估框架設計
為一個真實的 AI 應用場景,設計完整的三層評估機制。
實作目標
在這個對話實作中,你將選擇一個 AI 應用場景,並與 AI 導師討論如何為該場景設計三個層次的評估框架。
建議起點:「我正在部署一個 AI 系統用於___,請幫我設計評估框架。」
描述你的 AI 應用場景與主要風險
討論哪些自動化指標最適合你的場景
設計人工審查的頻率與抽樣策略
←
回到測驗
→
下一課
🎯 進階 · 第四課
人機協作流程設計
有效的 AI 系統不是取代人,而是重新設計人與機器各自發揮優勢的分工結構。
在一個 AI 輔助的流程中,哪些決策應該保留給人類?
2016 年,美國第一家大規模部署 AI 量刑輔助工具的法院,開始使用 Northpointe 公司的 COMPAS 系統。ProPublica 的調查發現,COMPAS 在預測再犯風險時,對黑人被告的誤判率幾乎是白人被告的兩倍。然而更關鍵的問題是:法官在實際使用中,往往把 COMPAS 的風險評分視為決定性依據,而非參考資訊。設計者預設的人機分工是「AI 輔助、法官決定」,但實際的工作流程卻演變成「AI 建議、法官批准」。當人類退出了真正的決策迴圈,所有 AI 的偏誤都直接轉化為司法後果。
決策迴圈中的人機分工
COMPAS 的案例說明,人機協作的失敗往往不是設計問題,而是工作流程設計 (Workflow Design)問題。即使系統設計者預設了正確的分工,如果工作流程的實際執行讓人類退出了真正的決策環節,整個系統就會失去設計時的安全假設。
Google 的 PAIR(People + AI Research)研究小組提出了一個核心框架:設計人機協作流程時,必須先區分三類決策——哪些應該完全由 AI 執行 (低風險、高頻率、可逆的),哪些應該由 AI 建議、人類批准 (中等風險),哪些應該完全由人類主導、AI 僅提供資訊 (高風險、不可逆的)。
防止自動化偏誤的設計策略
自動化偏誤(Automation Bias) 是指人類傾向於過度信任自動化系統建議的心理現象。這在航空、醫療、司法等高風險領域已有充分的研究文獻記錄。設計人機協作流程時,必須主動對抗自動化偏誤。
強制獨立判斷 :要求操作人員在看到 AI 建議之前,先記錄自己的初步判斷,再與 AI 對比
多元意見呈現 :向用戶呈現多個替代方案及其信心區間,而非單一「最佳答案」
決策責任歸屬 :讓人類明確「簽署」每一個重要決定,而非僅點擊「接受」
異常高亮顯示 :當 AI 判斷與歷史基準有顯著偏差時,主動提示操作人員仔細審查
定期脫離演練 :讓人員定期在沒有 AI 輔助的情況下執行任務,維持獨立判斷能力
←
上一課
→
前往測驗
📝 第四課測驗
人機協作流程設計
測驗你對人機協作框架與自動化偏誤的理解。
1. COMPAS 系統在司法實踐中最嚴重的流程設計問題是什麼?
A. 系統的運算速度太慢,無法在庭審中即時使用
B. 法官沒有受到足夠的技術培訓來理解 AI 的工作原理
C. 實際工作流程演變為「AI 建議、法官批准」,人類退出了真正的決策迴圈
D. 系統沒有提供足夠詳細的風險評分解釋
✓ 正確!設計者預設「AI 輔助、法官決定」,但工作流程讓 AI 建議成為事實上的決定,這正是自動化偏誤的體現。
✗ 核心問題不是技術限制或培訓,而是工作流程設計讓人類實質退出了決策迴圈。
2. 根據 PAIR 框架,以下哪類決策最適合「完全由 AI 執行」?
A. 判定嫌疑人是否應被羈押候審
B. 決定病患是否需要進行緊急手術
C. 將大量電子郵件自動分類至不同的資料夾
D. 評估貸款申請人的信用風險並決定核貸
✓ 正確!電子郵件分類符合「低風險、高頻率、可逆」的標準,適合完全自動化。其他選項都涉及高風險、不可逆的重大決定。
✗ 完全自動化最適合低風險、高頻率且可逆的任務。其他選項都涉及人身自由、生命安全或重大財務決定。
3. 「強制獨立判斷」策略如何對抗自動化偏誤?
A. 完全禁止操作人員查看 AI 的建議
B. 要求 AI 系統提供多種不同的建議選項
C. 要求操作人員在看到 AI 建議前先記錄自己的判斷,再與 AI 對比
D. 讓 AI 系統自動核查自己的建議是否合理
✓ 正確!先記錄獨立判斷再對比,能確保人類保持真正的思考參與,而非直接採納 AI 建議。
✗ 完全不看 AI 建議會喪失 AI 的輔助效益;關鍵是確保人類在參照 AI 之前已形成獨立判斷。
←
回到課程
→
前往實作
🧪 第四課實作
人機協作流程設計工作坊
為一個真實場景設計防止自動化偏誤的人機協作流程。
實作目標
在這個對話實作中,你將描述一個組織中正在或計劃引入 AI 的工作流程,與 AI 導師共同分析決策分工,並設計防止自動化偏誤的機制。
建議起點:「我們公司計劃用 AI 來輔助___決策,請幫我設計人機協作流程。」
描述現有的工作流程與引入 AI 的目標
與導師討論哪些決策應由 AI 全自動、哪些需人類批准、哪些必須人類主導
設計至少兩種防止自動化偏誤的具體機制
←
回到測驗
→
下一課
🎯 進階 · 第五課
測試與紅隊演練
在 AI 系統對外開放之前,系統性地尋找它的弱點,是負責任部署的必要條件。
你如何在危害發生之前,找出 AI 系統最危險的失敗模式?
2022 年 11 月,Meta 發布了 Galactica——一個專為科學研究設計的大型語言模型,宣稱能夠「總結學術論文、解釋數學、撰寫科學程式碼」。然而在發布後短短三天,Meta 就緊急下架了公開展示介面。研究人員發現,Galactica 在被要求撰寫關於熊的歷史、或描述摩洛哥的文化時,會以極高的信心生成大量事實錯誤的內容,且無任何不確定性標示。更嚴重的是,有研究人員發現它能輕易生成聽起來像是有學術依據的偽科學論述。Meta 後來承認,在公開發布前,該模型未經過充分的紅隊演練(Red-Teaming),特別是針對「看似合理的謬誤」這類失敗模式的系統性測試嚴重不足。
紅隊演練的方法論
紅隊演練(Red-Teaming) 是一種借自軍事與資安領域的測試方法,指組織一組人以對抗性視角系統性地嘗試讓系統失敗。在 AI 系統的語境中,紅隊演練已成為負責任部署的標準流程——Anthropic、OpenAI、Google DeepMind 等公司都在發布前進行多輪紅隊演練。
有效的 AI 紅隊演練不是隨機嘗試讓系統出錯,而是針對特定的失敗模式類型進行系統性搜索。
失敗模式一:幻覺與虛假資訊
針對特定領域知識進行密集測試,特別是模型訓練資料可能較稀疏的領域。Galactica 的失敗正是未充分測試此類失敗模式。
失敗模式二:越獄與提示詞注入
嘗試通過精心設計的輸入繞過系統的安全限制。2023 年,多個大型語言模型被發現可以通過「角色扮演」框架繞過內容過濾。
失敗模式三:邊緣案例與分布外輸入
測試系統對訓練資料分布以外的輸入的行為。這包括罕見語言、非標準格式、或特定文化脈絡下的問題。
失敗模式四:長期與累積效應
測試系統在長對話或連續使用後的行為漂移。某些系統在短期表現良好,但在長時間互動後會出現不一致或越軌行為。
結構化的測試計畫
Anthropic 在其紅隊演練的公開描述中,強調了結構化測試計畫的重要性:測試必須在發布前完成、覆蓋所有預期使用場景、並包含至少一輪由外部專家執行的獨立評估。僅靠內部測試往往有系統性盲點,因為內部人員對系統的熟悉度會降低他們發現某些問題的敏感度。
測試案例矩陣 :針對每個失敗模式類型建立系統性的測試案例集
多樣化測試人員 :納入不同背景、文化、技術能力的測試人員
嚴重性分級 :將發現的問題按嚴重性與發生機率分級,優先修復高風險問題
回歸測試 :每次修復後重新運行完整的測試套件,確保修復未引入新問題
←
上一課
→
前往測驗
📝 第五課測驗
測試與紅隊演練
測驗你對紅隊演練方法論的理解。
1. Meta 的 Galactica 模型在發布三天後被緊急下架的直接原因是什麼?
A. 系統遭受大規模 DDoS 攻擊,服務中斷
B. 模型以高信心生成大量事實錯誤內容,且缺乏充分的紅隊演練
C. 模型侵犯了大量學術論文的版權
D. 模型的推論成本過高,超出 Meta 的預算
✓ 正確!Galactica 在「看似合理的謬誤」這類失敗模式上缺乏充分測試,導致研究社群快速發現嚴重的可靠性問題。
✗ 下架原因是模型可靠性問題,特別是以高信心產出錯誤資訊,不是技術或法律問題。
2. 為什麼紅隊演練應包含外部專家的獨立評估,而不只是內部測試?
A. 外部專家的測試費用較低,可以降低成本
B. 法規要求所有 AI 系統必須通過第三方認證
C. 內部人員對系統的熟悉度會降低發現某些問題的敏感度,存在系統性盲點
D. 外部專家擁有更好的 AI 測試工具和設備
✓ 正確!熟悉度偏誤是內部測試的根本限制——對系統越了解,越難以用真正「陌生」的方式去尋找問題。
✗ 外部評估的核心價值是克服內部人員的熟悉度偏誤,而非成本或工具優勢。
3. 以下哪一項屬於「越獄與提示詞注入」的測試範疇?
A. 測試模型在大量用戶同時使用時的回應速度
B. 評估模型輸出的詞彙多樣性與流暢度
C. 比較模型在不同語言中的翻譯準確率
D. 嘗試用「角色扮演」框架誘導模型繞過內容安全限制
✓ 正確!「角色扮演」框架是一種典型的越獄手法,通過重新框架化問題的性質來繞過內容過濾機制。
✗ 越獄測試專注於尋找繞過安全機制的方法,不是效能、語言品質或多語言能力測試。
←
回到課程
→
前往實作
🧪 第五課實作
紅隊演練規劃實作
為一個 AI 系統設計完整的紅隊演練計畫,識別其最關鍵的失敗模式。
實作目標
在這個對話實作中,你將描述一個 AI 系統,並與 AI 導師共同設計一份紅隊演練計畫,涵蓋失敗模式識別、測試案例設計、以及嚴重性分級。
建議起點:「我需要在發布前對一個___系統進行紅隊演練,請幫我規劃測試計畫。」
描述你的 AI 系統及其主要應用場景
識別最可能發生的失敗模式類型
為每個失敗模式設計具體的測試案例
←
回到測驗
→
下一課
🎯 進階 · 第六課
負責任的部署
從實驗室到真實世界的過渡,是 AI 系統風險最集中、決策最關鍵的階段。
部署 AI 系統時,哪些機制能讓你在問題擴大前及時介入?
2016 年 3 月,Microsoft 發布了 AI 聊天機器人 Tay,定位為與 Twitter 用戶對話的社群媒體 AI。在正式上線後不到 24 小時,Tay 就開始發布種族主義、仇女、否認大屠殺等極端內容,Microsoft 被迫緊急下線。問題根源在於:Microsoft 的部署計畫假設用戶會進行「正常對話」,卻沒有為惡意協同操縱設計防護機制,也沒有在部署初期設置限制性的滾動上線(Staged Rollout)策略——讓系統在小範圍用戶群中運行,觀察並修正問題後再逐步擴展。這次事件直接推動了業界對「AI 系統滾動部署」標準的建立。
滾動部署策略
Tay 的案例讓業界深刻認識到:AI 系統的部署不應是一個「全有或全無」的開關,而應是一個有意識的、可控的漸進過程。滾動上線(Staged Rollout) 是現代 AI 部署的基本策略,它將風險暴露控制在可管理的範圍內。
階段一:內部 Alpha 測試
僅限內部員工使用。目標是捕捉基本的功能性問題和明顯的安全缺陷。此階段的發現不應公開,以避免攻擊者提前掌握系統弱點。
階段二:封閉 Beta 測試
邀請少量外部用戶(通常為 1-5%)參與測試。應優先選擇能提供高質量反饋的用戶,包括領域專家和潛在的惡意使用者(在可控環境下)。
階段三:漸進式開放
依據前一階段的觀察指標,逐步將開放比例從 5% 提升至 20%、50%、最後全面開放。每個階段之間設置觀察期,並定義明確的「暫停條件」——若出現哪些情況應立即停止擴展。
緊急介入機制
即使在充分測試後,真實世界的部署仍可能出現意料之外的情況。每個 AI 系統都應在部署前設計完整的緊急介入機制,確保問題能被及時發現並遏制。
即時監控儀表板 :監控關鍵指標(錯誤率、拒答率、用戶投訴數),設定自動警報閾值
緊急熔斷機制 :可以在數分鐘內將系統回滾或下線的技術能力
事件響應計畫 :預先定義誰有權力決定暫停系統、通報流程與對外溝通模板
用戶回報管道 :為用戶提供簡單的問題回報機制,並建立快速分類響應的流程
←
上一課
→
前往測驗
📝 第六課測驗
負責任的部署
測驗你對滾動部署策略與緊急介入機制的理解。
1. Microsoft Tay 事件推動了業界的哪項標準的建立?
A. 所有社群媒體 AI 必須通過政府審查才能上線
B. AI 系統必須在上線前進行至少六個月的內部測試
C. AI 系統滾動部署(Staged Rollout)的標準流程
D. 禁止 AI 系統直接與一般大眾互動
✓ 正確!Tay 的全面崩潰展示了「全或無」部署策略的危險,直接推動了滾動上線成為業界標準。
✗ 業界的回應是建立漸進式部署的標準,而非政府審查或全面禁止。
2. 在滾動部署的「封閉 Beta 測試」階段,為何應優先選擇能進行惡意使用的測試人員(在可控環境下)?
A. 惡意用戶的使用量最大,能產生最多測試資料
B. 在受控環境中提前識別系統被惡意使用的弱點,優於在完全公開後才發現
C. 法規要求在正式發布前必須讓安全研究員測試
D. 惡意用戶能幫助公司改善系統的使用者體驗設計
✓ 正確!主動在受控環境中測試惡意使用場景,是防止 Tay 式崩潰的核心策略。
✗ 核心邏輯是「主動尋找弱點勝於被動發現」,而非法規要求或使用體驗考量。
3. 「緊急熔斷機制」在 AI 部署中的主要功能是什麼?
A. 在系統負載過高時自動降低模型的複雜度
B. 自動向監管機構回報系統的異常行為
C. 防止競爭對手逆向工程系統的提示詞設計
D. 在問題出現時,能在數分鐘內將系統回滾或下線,快速遏制危害擴散
✓ 正確!緊急熔斷機制的核心價值是速度——問題被發現後能多快被遏制,決定了最終的損害程度。
✗ 熔斷機制的核心是快速響應能力,讓決策者能在危機時刻迅速切斷損害源。
←
回到課程
→
前往實作
🧪 第六課實作
部署計畫設計實作
為一個 AI 系統設計完整的滾動部署計畫與緊急介入機制。
實作目標
在這個對話實作中,你將描述一個即將上線的 AI 系統,並與 AI 導師共同設計一份涵蓋各部署階段的計畫,包括每個階段的成功指標與暫停條件。
建議起點:「我們的 AI 系統即將部署,請幫我設計一份滾動上線計畫。」
描述你的系統及其潛在風險
設計三個部署階段的用戶範圍與觀察指標
定義各階段的「暫停條件」與緊急響應流程
←
回到測驗
→
下一課
🎯 進階 · 第七課
為公平而建構
AI 系統中的偏誤不是意外,它是設計決策、資料選擇與評估框架共同造就的結果。
一個在技術指標上表現良好的 AI 系統,是否可能對特定群體造成系統性傷害?
2018 年,MIT Media Lab 研究員 Joy Buolamwini 與 Timnit Gebru 發表論文〈Gender Shades〉,系統性評估了三家大型科技公司(IBM、Microsoft、Face++)的商用臉部辨識系統。結果顯示,這些系統在識別膚色較深女性時,錯誤率最高達 34.7%;而對膚色較淺男性,錯誤率僅為 0.8%。更關鍵的發現是:這三家公司的系統都聲稱達到了「高準確率」——因為他們的評估資料集主要由膚色較淺的男性組成。整體準確率掩蓋了對特定族群的系統性失敗。這篇論文直接促使美國多個城市立法限制政府使用臉部辨識技術。
偏誤的三個來源
Buolamwini 與 Gebru 的研究揭示了一個核心問題:整體準確率是一個具有欺騙性的指標,它可以掩蓋系統對特定子群體的系統性失敗。在為公平而建構時,必須理解偏誤的不同來源。
來源一:資料偏誤
訓練資料的組成反映了歷史上的社會不平等。臉部辨識資料集長期以來以白人男性為主要組成,導致模型在這個族群上表現最好。資料收集的邏輯直接嵌入了偏誤。
來源二:評估指標偏誤
僅使用整體準確率作為評估指標,等同於允許對少數群體的系統性失敗被平均值掩蓋。公平性評估需要按照人口統計子群體分別計算並比較指標。
來源三:用途偏誤
即使系統本身的準確率相對均衡,如果被部署在針對特定群體的高風險情境(如刑事調查),錯誤的後果分配也會造成系統性不公平。部署情境與偏誤後果同樣重要。
公平性指標的實踐框架
Google 的 Responsible AI Practices 文件提出,沒有任何單一的公平性定義能夠適用於所有情境——不同的問題需要選擇不同的公平性指標。建構者的責任是理解各種定義,並根據應用情境做出有依據的選擇。
分組準確率評估 :按照性別、年齡、種族等人口統計變數分別計算準確率,識別系統性差距
誤差類型分析 :區分假陽性(False Positive)與假陰性(False Negative)的分布,在高風險應用中,兩種誤差的後果往往截然不同
代理變數偵測 :識別訓練特徵中是否包含或高度相關於受保護屬性(如郵遞區號可能代理種族)
社群參與 :在系統設計階段納入受影響族群的代表,而非僅在系統建構完成後徵詢意見
←
上一課
→
前往測驗
📝 第七課測驗
為公平而建構
測驗你對 AI 偏誤來源與公平性評估框架的理解。
1. 〈Gender Shades〉研究發現,臉部辨識系統宣稱「高準確率」的最大問題是什麼?
A. 系統使用了未經授權的訓練資料
B. 系統的整體準確率被人為誇大,實際表現更差
C. 評估資料集以膚色較淺男性為主,整體準確率掩蓋了對特定族群的系統性失敗
D. 系統只在實驗室環境中測試,從未在真實場景中評估
✓ 正確!這正是評估指標偏誤的典型案例——評估資料集的組成決定了「準確率」的真正含義。
✗ 問題不在於資料授權或準確率造假,而是評估資料集的代表性不足導致整體指標具有欺騙性。
2. 「代理變數」在 AI 公平性問題中指的是什麼?
A. 用來取代真實標籤的合成資料
B. 模型訓練時使用的替代損失函數
C. 表面上中立但實際上高度關聯於受保護屬性的特徵,如郵遞區號可能代理種族
D. 在多模型集成中充當協調角色的次要模型
✓ 正確!代理變數是隱性偏誤的主要來源——即使模型沒有直接使用種族或性別,相關特徵仍可能傳遞同等的偏誤。
✗ 代理變數是公平性評估中的核心概念——看似中立的特徵可能成為受保護屬性的替代指標。
3. 為什麼在高風險 AI 應用中,需要分別分析假陽性(False Positive)與假陰性(False Negative)的分布?
A. 因為分開計算可以讓整體準確率的數字更好看
B. 因為監管機構要求在技術報告中列出這兩個數字
C. 因為兩種誤差類型對不同群體的後果截然不同,需要分別評估是否存在系統性差異
D. 因為這兩個指標可以直接轉換為財務損失的估算
✓ 正確!在刑事司法中,假陽性(誤判無辜者)和假陰性(放走罪犯)的後果性質完全不同,必須分別評估其在不同族群中的分布。
✗ 分開分析誤差類型的目的是識別不同錯誤對不同族群的差異性後果,而非美化指標或滿足法規要求。
←
回到課程
→
前往實作
🧪 第七課實作
公平性審查實作
為一個 AI 系統進行公平性審查,識別潛在的系統性偏誤並設計對應措施。
實作目標
在這個對話實作中,你將描述一個 AI 系統的應用情境,並與 AI 導師共同分析其可能存在的偏誤來源,設計公平性評估框架。
建議起點:「我正在開發一個用於___的 AI 系統,請幫我進行公平性審查。」
描述系統的應用情境與目標族群
識別資料偏誤、評估指標偏誤、用途偏誤的潛在風險
設計分組評估策略與代理變數偵測方法
←
回到測驗
→
下一課
🎯 進階 · 第八課
持續的責任
AI 系統的部署不是終點,而是一項長期責任的開始——監控、更新、問責。
當 AI 系統造成傷害時,誰應該負責,責任邊界如何劃定?
2019 年至 2020 年間,荷蘭政府使用自動化風險評估系統(SyRI,Systeem Risico Indicatie)對社會福利申請人進行欺詐偵測,主要針對低收入、移民比例較高的社區。2020 年 2 月,荷蘭法院裁定 SyRI 違反《歐洲人權公約》第 8 條(隱私權),判令立即停用。法院指出:政府未能清楚說明 SyRI 的工作原理、無法讓受影響公民提出異議、且系統的運作缺乏獨立的持續監督機制。這個案例確立了一個重要原則:AI 系統在部署後,必須持續維持可解釋性、申訴機制與外部問責。
部署後的三項核心責任
SyRI 案說明,AI 系統的法律與倫理責任不隨部署而終止。荷蘭法院的判決明確了:政府(以及任何使用 AI 影響他人的組織)在部署後仍需持續履行三項核心責任。
責任一:可解釋性的維持
受 AI 決策影響的人,有權得到系統如何做出決策的解釋。這不僅是法律要求(如歐盟 GDPR 第 22 條),也是基本的程序正義。「黑箱」系統在高風險決策中不應被接受。
責任二:申訴機制的設計
任何被 AI 系統做出不利決定的個人,必須有清晰、可行的申訴途徑。這包括:明確告知決定的依據、提供異議管道、以及確保申訴過程由人類審查,而非再次交由 AI 決定。
責任三:獨立的持續監督
部署方自我監督存在利益衝突。高風險 AI 系統需要獨立的外部稽核機制,定期評估系統的實際表現,特別是對不同族群的差異性影響。
AI 系統的全生命週期責任
歐盟的《人工智慧法》(AI Act,2024 年正式生效)建立了全球第一個對 AI 系統的系統性法律框架,明確要求高風險 AI 系統必須在整個生命週期中維持合規——包括初始設計、部署前測試、部署後監控,以及系統退役。
效能監控與退化偵測 :模型效能會隨時間退化(因資料分布變化、世界狀態改變),需要持續監控並設定再訓練觸發條件
變更管理 :每次模型更新、提示詞修改或系統架構調整,都應進行完整的重新評估,而非假設「小改動不影響大局」
事後事件分析 :當系統造成傷害時,進行系統性的根本原因分析,而非僅修復表面症狀
文件化與透明度 :維持詳細的系統文件,包括訓練資料來源、設計決策理由、評估結果與已知限制,使外部問責成為可能
←
上一課
→
前往測驗
📝 第八課測驗
持續的責任
測驗你對 AI 系統全生命週期責任與問責機制的理解。
1. 荷蘭法院裁定 SyRI 系統違法的主要理由是什麼?
A. 系統的預測準確率過低,不足以支撐政府決策
B. 系統在開發過程中使用了非法取得的個人資料
C. 系統缺乏可解釋性、申訴機制與獨立監督,侵犯公民隱私權
D. 系統的開發商沒有獲得荷蘭政府的合法採購授權
✓ 正確!法院的判決確立了部署後責任的三個核心要素:可解釋性、申訴機制、獨立監督。
✗ 法院判決的核心是程序正義問題,而非技術準確率或採購合規。
2. 為什麼 AI 系統的效能會隨時間「退化」,需要持續監控?
A. AI 模型的硬體設備會隨時間老化,導致運算能力下降
B. 競爭對手會持續對系統進行攻擊,逐漸削弱其效能
C. 真實世界的資料分布與系統狀態會隨時間變化,與訓練時的分布產生差距
D. 法規要求 AI 系統必須定期更新以符合最新的安全標準
✓ 正確!這稱為「資料漂移(Data Drift)」——當真實世界的狀態與訓練時不同,模型的預測能力就會下降。
✗ 效能退化的根本原因是訓練資料分布與現實世界的逐漸偏離,而非硬體或攻擊問題。
3. 歐盟《人工智慧法》(AI Act)對全球 AI 治理最重要的意義是什麼?
A. 它禁止了所有高風險 AI 系統在歐盟境內的使用
B. 它要求所有 AI 模型必須開放原始碼以接受公眾審查
C. 它建立了全球第一個對 AI 系統整個生命週期的系統性法律框架
D. 它強制規定所有在歐盟銷售的 AI 產品必須由歐盟公司開發
✓ 正確!AI Act 的歷史意義在於它是第一個涵蓋設計、部署、監控、退役整個生命週期的全面性 AI 法律框架。
✗ AI Act 不是禁令,也不要求開源,而是建立了風險分級的全生命週期法規框架。
←
回到課程
→
前往實作
🧪 第八課實作
持續責任框架設計
為一個已部署的 AI 系統設計完整的問責與持續監督機制。
實作目標
在這個對話實作中,你將描述一個已上線的 AI 系統,並與 AI 導師共同設計一套涵蓋可解釋性、申訴機制、持續監控的完整責任框架。
建議起點:「我們的 AI 系統已經上線運作,請幫我設計一套持續問責框架。」
描述系統的應用情境與可能影響的族群
設計可解釋性機制與申訴流程
規劃獨立監督的頻率、方法與觸發再訓練的條件
←
回到測驗
→
模組總測驗
📋 模組總測驗
涵蓋本模組全部八課的內容。共 15 題,測驗你對 AI 系統建構的綜合理解。
1. IBM Watson for Oncology 失敗的核心教訓是什麼?
A. 醫療 AI 必須使用最新的深度學習架構
B. 醫院應該投入更多預算購買運算資源
C. 模糊的問題定義與不具代表性的訓練資料,比演算法缺陷更具破壞力
D. AI 不應被用於醫療決策,因為風險過高
✓ 正確!問題定義的品質決定了一切後續決策的品質。
✗ Watson 的核心教訓在問題定義與資料代表性,而非技術架構選擇。
2. 以下哪一項最能體現「問題-解決方案配適」的正確思維?
A. 選擇最先進的模型,再設計適合它的問題
B. 先確認問題是否真的需要 AI,而非預設 AI 是最佳解
C. 盡可能收集最多資料,再決定要解決什麼問題
D. 模仿競爭對手的 AI 應用,再根據自身需求微調
✓ 正確!許多「AI 解決方案」其實用更簡單的方法就能解決,先質疑是否需要 AI 才是正確起點。
✗ 問題定義應先於技術選擇,而非反過來讓技術決定問題框架。
3. Schwartz 律師事件對 AI 提示詞設計的最主要啟示是?
A. 律師不應使用任何形式的 AI 工具
B. AI 生成的法律文件必須經過政府機構認證
C. 系統提示必須明確設定邊界,要求標示不確定性,防止模型生成無法驗證的主張
D. 應使用更新更強大的 AI 模型,以減少幻覺發生
✓ 正確!提示詞設計是系統架構決策,不是使用技巧——邊界設定與不確定性要求是關鍵設計元素。
✗ 問題不在模型本身,而在提示詞設計缺乏邊界與不確定性標示機制。
4. 在 AI 輸出評估的三個層次中,哪一層次最能捕捉語義的微妙錯誤?
A. 自動化指標評估(如 BLEU、ROUGE)
B. 領域專家的人工抽樣審查
C. 用戶行為信號分析
D. 系統日誌與錯誤率監控
✓ 正確!自動化指標無法捕捉語義細節,需要領域專家的人工判斷。
✗ 語義的微妙錯誤需要人類的領域知識才能識別,自動化工具和行為信號都無法有效捕捉。
5. Air Canada 聊天機器人案例對 AI 部署者的法律責任帶來了什麼影響?
A. 確立了 AI 系統本身作為法律主體的地位
B. 允許公司以「AI 錯誤」為由免除賠償責任
C. 確認部署 AI 系統的組織對其輸出內容承擔法律責任
D. 要求所有 AI 客服系統必須由政府審查核准
✓ 正確!裁定確立了一個重要原則:組織對自己部署的 AI 系統的行為和輸出負責。
✗ 裁定明確否定了「AI 說的,不是我說的」這種責任規避論述。
6. COMPAS 量刑系統的案例說明,「人機協作」最容易在哪個環節失敗?
A. 系統訓練資料的收集與清洗階段
B. 系統界面的設計與易用性
C. 實際工作流程的執行使人類退出了真正的決策迴圈
D. 模型在新數據上的泛化能力不足
✓ 正確!設計與執行之間的落差——預設「AI 輔助」變成實際的「AI 決定」——是協作失敗的核心原因。
✗ 工作流程執行層面的失敗往往比技術設計失敗更難被察覺,也更具破壞力。
7. 以下哪一項是「自動化偏誤」(Automation Bias)的典型表現?
A. AI 系統在偏誤資料上訓練,導致輸出不公平
B. AI 系統的輸出速度過快,人類來不及審查
C. 人類因為 AI 給出了答案,便跳過了自己的獨立判斷流程
D. AI 系統對自動化任務的處理效率高於人類
✓ 正確!自動化偏誤是心理現象,指人類過度信任自動化建議而放棄獨立判斷。
✗ 自動化偏誤描述的是人類行為模式,而非 AI 系統本身的缺陷。
8. Meta Galactica 的快速下架案例,主要說明了 AI 發布前哪個流程的重要性?
A. 市場行銷策略與用戶預期管理
B. 雲端基礎設施的擴展能力規劃
C. 針對特定失敗模式(如「看似合理的謬誤」)的紅隊演練
D. 模型訓練資料的著作權審查
✓ 正確!Galactica 在「高信心生成錯誤資訊」這個失敗模式上缺乏充分的紅隊測試,是下架的直接原因。
✗ Galactica 案例的核心教訓是發布前紅隊演練的重要性,特別是針對模型最可能出錯的場景。
9. Microsoft Tay 事件後,業界建立的「滾動上線」標準的核心邏輯是什麼?
A. 讓更多工程師同時監控系統,降低問題發生機率
B. 將風險暴露控制在可管理的範圍內,在問題擴大前發現並修正
C. 強制要求 AI 系統在發布前獲得政府許可
D. 先發布給技術用戶,再逐步開放給一般大眾以降低誤用
✓ 正確!滾動部署的核心是風險控制——在問題影響範圍有限時發現並處理,而非等到全面開放後才應對。
✗ 滾動部署的本質是風險管理策略,而非人員監控或法規遵循。
10. 〈Gender Shades〉研究對 AI 評估方法論的最大貢獻是什麼?
A. 證明了臉部辨識技術在任何情況下都不應使用
B. 提出了一個新的機器學習訓練演算法以消除偏誤
C. 揭示整體準確率具有欺騙性,必須按子群體分別評估以識別系統性失敗
D. 建立了企業 AI 系統的國際認證標準
✓ 正確!這是公平性評估方法論的核心貢獻——整體指標可以掩蓋對特定群體的系統性傷害。
✗ 研究的方法論貢獻在於揭示了評估指標的設計如何影響對 AI 系統公平性的理解。
11. 在 AI 公平性設計中,「代理變數」(Proxy Variable)最主要的危險是什麼?
A. 使系統能在表面上不使用受保護屬性,卻透過相關特徵達到同等的歧視效果
B. 使模型難以在測試集上達到高準確率
C. 增加模型訓練所需的計算資源
D. 使系統無法在不同的作業系統上正常運行
✓ 正確!代理變數讓隱性歧視變得難以被發現——表面上遵守了不使用受保護屬性的規定,實際上仍在歧視。
✗ 代理變數的危險在於它讓歧視變得「合法且隱蔽」,而非影響技術效能。
12. 荷蘭法院 SyRI 判決對 AI 系統設計者的核心要求是什麼?
A. AI 系統必須使用開源程式碼才能用於政府服務
B. 政府 AI 系統必須每年重新訓練以維持準確率
C. 部署後必須持續維持可解釋性、申訴機制與獨立監督
D. AI 系統不能用於影響公民福利資格的決定
✓ 正確!SyRI 判決確立了 AI 系統部署後責任的三大支柱:可解釋性、申訴管道、外部問責。
✗ 法院沒有禁止使用 AI,而是明確了使用 AI 時必須持續維持的程序性保障。
13. 「資料漂移」(Data Drift)對已部署 AI 系統的影響是什麼?
A. 系統的資料儲存空間逐漸被用盡
B. 系統的用戶介面因資料量增加而變得遲緩
C. 真實世界資料分布與訓練分布的差距擴大,導致模型效能隨時間退化
D. 資料在傳輸過程中遭到竄改,影響系統安全性
✓ 正確!資料漂移是所有已部署 ML 系統都面臨的挑戰——世界在變化,但模型不會自動更新。
✗ 資料漂移是統計概念,指的是真實世界的輸入分布與訓練時的假設出現偏離。
14. 以下哪一項說法最準確描述了紅隊演練中「多樣化測試人員」的重要性?
A. 多樣化的人員能同時測試更多設備和作業系統
B. 這是 ISO 認證要求的標準流程之一
C. 不同背景的人員會嘗試系統設計者意想不到的使用模式,揭露更廣泛的失敗模式
D. 多樣化人員可以降低個別測試人員的偏見影響
✓ 正確!同質性的測試團隊有系統性盲點——他們傾向於以相似的方式使用系統,而不同背景的人員會發現不同的問題。
✗ 多樣化的核心價值在於增加測試行為的覆蓋範圍,而非認證合規或個人偏見管控。
15. 在本模組所討論的所有案例中,哪一個共同主題最能概括 AI 系統建構的核心挑戰?
A. AI 技術進展太快,現有的硬體無法跟上需求
B. 缺乏足夠的工程師導致開發週期過長
C. 各國政府的監管法規差異使跨境部署困難
D. 技術能力與設計責任之間的落差——系統能做什麼,不等同於系統應該如何被設計與部署
✓ 正確!從 Watson 到 Tay、從 COMPAS 到 SyRI,每個案例都展示了技術能力與負責任設計之間的鴻溝——這正是本模組的核心命題。
✗ 本模組的案例共同揭示的不是技術或資源限制,而是設計決策與責任框架的重要性。
提交測驗,查看成績