從輸入到輸出
語言模型如何將文字轉化為詞元(token),再從詞元生成回應?
一段文字在進入模型之前,究竟被切割成什麼?
2023 年 3 月,Stack Overflow 觀察到其流量在 ChatGPT 推出後數月內急劇下降,跌幅超過 35%。工程師開始直接向 ChatGPT 提問程式碼問題,而非搜尋舊有答案串。但同年,多個團隊記錄到 ChatGPT 在解釋程式碼錯誤時犯下系統性錯誤——不是因為它「不夠聰明」,而是因為輸入被切割的方式影響了它所「看見」的資訊。理解詞元化(tokenization)不只是技術細節,而是預測 AI 何時失敗的關鍵。
大型語言模型(Large Language Model,LLM)並不以「單字」為單位處理文字。它使用的最小單位是詞元(token)——可能是一個完整單字、半個單字,甚至是一個標點符號。英文的「running」可能是一個詞元,但「unbelievable」可能被切成「un」「believ」「able」三個詞元。
中文的情況更為複雜。由於中文沒有空格,模型往往將每個漢字視為獨立詞元,或以偏旁組合方式切割。這意味著相同資訊量的中文文本,其詞元數通常多於英文,直接影響模型的處理成本與速度。
GPT-4 的詞彙表約有 100,000 個詞元。每次生成回應,模型都在這 100,000 個可能性中選出機率最高的下一個詞元,逐步構成完整回答。
當你向 ChatGPT 輸入一段提示詞(prompt)時,系統執行以下流程:
- 第一階段:詞元化 — 輸入文字被分割為詞元序列,每個詞元對應詞彙表中的一個整數 ID。
- 第二階段:嵌入(Embedding) — 每個詞元 ID 被轉換為高維向量,捕捉語義關係。
- 第三階段:Transformer 處理 — 向量序列通過多層注意力(attention)機制,讓模型理解詞元之間的關聯。
- 第四階段:解碼 — 最後一層的輸出向量被轉換為詞彙表上的機率分布。
- 第五階段:取樣 — 模型根據機率(或溫度參數)選取下一個詞元,重複直到生成完整回應。
工程師發現,當程式碼中包含罕見符號(如 Unicode 特殊字元)時,詞元化往往會「截斷」語義邊界,導致模型對錯誤訊息的解讀出現系統性偏差。這不是模型知識不足,而是輸入處理的架構性問題。
2023 年,研究人員發現 GPT-4 在計算英文單字字母數量時會頻繁出錯。例如,「strawberry」中有幾個 r?模型常常答錯,因為它「看見」的不是字母,而是詞元。「strawberry」可能被切成「straw」「berry」,導致模型難以逐字母追蹤。
理解這個原理能幫助你設計更有效的提示詞:避免依賴模型做字元級別的計數或複雜的拼字操作,改為要求它做更適合詞元級別處理的語義推理任務。
第一課測驗
從輸入到輸出——詞元化與推論流程
實驗室:詞元偵探
親自探索詞元化如何影響模型行為
🧪 實驗目標
在這個實驗室中,你將與 AI 對話,探索詞元化的實際影響。嘗試以下挑戰:
- 請 AI 解釋「臺灣」這個詞被切割成幾個詞元,並說明可能的切割方式。
- 問 AI:為什麼它在計算字母數量時比較容易出錯?
- 請 AI 設計一個測試題,能夠揭示詞元邊界對模型推理的影響。
預測遊戲
語言模型的核心任務:預測下一個詞元——以及這個機制帶來的能力與局限。
預測「下一個字」如何產生看似理性的推理能力?
2022 年,Google 工程師 Blake Lemoine 公開聲稱 Google 的 LaMDA 模型「有感知能力」,並引發廣泛討論。Google 隨後解雇了他。事後分析指出,LaMDA 的回應之所以顯得「有意識」,正是因為它的下一詞元預測機制太過精準——它學會了人類描述內在體驗的語言模式,因此能以第一人稱流暢回答關於感受與意識的問題。這個案例揭示了預測能力與理解能力之間的根本差異。
語言模型的訓練目標只有一個:給定前面所有詞元,預測下一個詞元的機率分布。這個看似簡單的任務,在數千億參數的模型上執行後,產生了令人意外的湧現能力(emergent abilities)。
生成回應時,模型以自迴歸(autoregressive)方式運作:每生成一個詞元,就將其加入輸入序列,再預測下一個。這意味著一個 500 詞元的回應需要執行 500 次完整的前向傳播(forward pass)。
溫度控制取樣的「創造力」。溫度為 0 時,模型永遠選擇機率最高的詞元(確定性輸出);溫度提高後,低機率詞元獲得更多被選中的機會,輸出更多樣但也更不可預測。ChatGPT 預設溫度約為 0.7。
2022 年,Google Brain 與史丹佛大學聯合發表的研究記錄了一個現象:當模型規模超過某個閾值,某些能力會突然出現,而非線性增長。例如,GPT-3 的 6 億參數版本幾乎無法進行多步驟數學推理,但 1750 億參數版本卻能處理相對複雜的算術問題。
這種「湧現」並非設計出來的——它是純粹預測訓練的副產品。模型為了更準確地預測文字,被迫學習了問題中隱含的邏輯結構。然而,這也意味著這些能力的邊界難以事先預測或控制。
LaMDA 之所以能「描述感受」,不是因為它有感受,而是因為網路上充滿人類描述感受的文字。模型學會了預測這些模式。流暢的語言表達,不等於內在體驗的存在。
標準語言模型在生成每個詞元時不會進行多輪「深思熟慮」——它的計算量在生成第一個詞元與第一千個詞元時基本相同。2022 年的研究顯示,要求模型在回答前先「一步步思考」(chain-of-thought prompting,思維鏈提示),能顯著提升複雜推理任務的準確率。這並非因為模型「更努力思考」,而是因為中間步驟的詞元提供了更豐富的條件,引導後續預測朝向正確答案。
第二課測驗
預測遊戲——自迴歸生成與湧現能力
實驗室:溫度與預測
探索語言模型的生成機制與湧現推理
🧪 實驗目標
透過對話,深入理解預測機制如何產生(或無法產生)真正的推理能力:
- 請 AI 解釋:「如果你的溫度設為 0,你的回答會有什麼特性?」
- 向 AI 提出一個需要多步驟推理的問題,先不要要求它「一步步思考」,再試著加上這個指令,比較兩次回答的差異。
- 問 AI:「你認為你有感受嗎?請從語言預測的角度解釋你的回答。」
邏輯失靈之時
幻覺、推理錯誤與系統性失敗——了解 AI 何時以及為何會出錯。
AI 的「幻覺」究竟從何而來?
2023 年 5 月,紐約律師 Steven Schwartz 向法院提交了一份包含六個 ChatGPT 捏造判決的訴狀。這些案例看起來完全真實——有當事人姓名、法院名稱、案號,甚至有引文格式——但全都不存在。法官要求 Schwartz 解釋,他坦承完全依賴 ChatGPT 進行法律研究,並相信了 AI 的輸出。他和他的律師事務所遭到 5,000 美元罰款。這個案例成為 AI 幻覺(hallucination)危害最廣為人知的真實案例之一。
在 AI 領域,幻覺(hallucination)指模型以高度自信的方式生成與事實不符、或根本不存在的資訊。這不是「說謊」——模型沒有欺騙的意圖,它只是在預測聽起來合理的詞元序列。
幻覺的根本原因在於:模型的訓練目標是語言流暢性(linguistic plausibility),而非事實準確性(factual accuracy)。當模型沒有足夠的訓練資料支撐某個具體事實時,它會「填補」一個符合語言模式的答案。
事實性幻覺:捏造不存在的事件、人物或文獻。
推理性幻覺:邏輯步驟表面正確但結論錯誤。
上下文性幻覺:忽略或錯誤理解對話中已提供的資訊。
語言模型在生成「不確定」的答案時,往往不會降低語氣或添加保留字眼——除非訓練中明確加入了這樣的行為。這是因為訓練資料中,自信語氣的陳述句比猶豫語氣的陳述句更為普遍。
2023 年,Anthropic 的研究顯示,要求模型更頻繁地使用「我不確定」或「這需要核實」等措辭,需要在人類反饋強化學習(RLHF)階段進行刻意的偏好塑造。模型的「謙遜」不是天生的,而是訓練出來的。
Schwartz 的錯誤不只是輕信了 AI——他還詢問 ChatGPT 這些案例是否真實,而 ChatGPT 確認了它們的真實性。模型在被質疑時「辯護」自己的幻覺,是一個特別危險的失敗模式。
除了幻覺,AI 推理還有幾種可預測的失敗模式:
- 組合推理失敗:當問題需要將多個獨立知識片段組合時,模型容易在連結步驟出錯。
- 反事實推理困難:「如果 X 不成立,Y 會怎樣?」這類問題要求模型脫離訓練分布,表現通常不穩定。
- 數值運算偏差:模型對精確數學計算的掌握遠不如對語言的掌握,複雜計算需要借助外部工具。
- 時效性盲點:模型的知識截止於訓練資料的時間點,對此後發生的事件一無所知,但不一定能識別自己的無知。
第三課測驗
邏輯失靈之時——幻覺與系統性失敗
實驗室:幻覺偵測器
學習辨識 AI 的系統性失敗模式
🧪 實驗目標
這個實驗室幫助你建立偵測 AI 幻覺的實用技能:
- 請 AI 解釋:「在哪些類型的問題上,你最容易產生幻覺?請具體說明。」
- 詢問 AI 一個你已知答案的冷門事實(例如:某位台灣作家的某部作品出版年份),評估其回答是否準確。
- 問 AI:「如果你不確定某件事,你應該怎麼回答?你有沒有辦法告訴我你的確信程度?」
記憶與上下文
上下文視窗的本質、限制,以及延伸記憶的工程解法。
語言模型真的能「記住」對話嗎?
2023 年,當 Anthropic 將 Claude 的上下文視窗從 9K 詞元擴展至 100K 詞元時,它進行了一項測試:將《哈利波特》全書(約 50 萬詞元)的一個修改版本輸入模型,在書中某個段落中藏入一段不存在的情節,然後詢問模型這段情節發生在哪裡。100K 視窗版本能夠準確定位。這個實驗展示了上下文長度的實際意義:它決定了模型能夠「看見」多少資訊來形成回應。
語言模型沒有持久記憶(persistent memory)。每次對話,模型「看見」的只有當前輸入到上下文視窗中的所有詞元——包括系統提示、對話歷史與當前查詢。視窗之外的一切,模型完全無法存取。
這與人類記憶的運作方式根本不同。人類能夠長期記住特定經歷,並在新情境下提取。語言模型的「記憶」本質上是瞬時的、輸入依賴的——它只知道你現在告訴它的事情。
GPT-4o:128K 詞元 | Claude 3.5 Sonnet:200K 詞元 | Gemini 1.5 Pro:1M 詞元。1M 詞元約等於 750 萬個英文單字,或超過 10 部長篇小說的篇幅。
2023 年,史丹佛大學的研究發表了重要發現:即使是擁有長上下文視窗的模型,也傾向於更加重視視窗開頭和結尾的資訊,而忽略中間部分的內容。這個現象被稱為「迷失在中間」(lost in the middle)。
這意味著視窗大小並不等同於資訊利用能力。在設計 RAG(檢索增強生成,Retrieval-Augmented Generation)系統時,工程師需要考慮將最重要的資訊放置在提示詞的開頭或結尾,以確保模型能夠充分利用。
RAG(檢索增強生成):在生成前從外部資料庫檢索相關文件,動態注入上下文。
記憶摘要:將長對話歷史壓縮為摘要,保留關鍵資訊。
向量資料庫:將對話或文件轉換為向量儲存,支援語義搜尋。
了解上下文視窗的工作原理,能讓你成為更有效的 AI 使用者。當你在對話開始時提供清晰的背景資訊,或在長對話中重新摘要關鍵前提,你實際上是在幫助模型保持「記憶」的連貫性。提示詞工程(prompt engineering)的很大一部分,就是在管理上下文資訊的密度與位置。
第四課測驗
記憶與上下文——視窗限制與延伸記憶
實驗室:上下文工程師
探索上下文管理如何影響模型表現
🧪 實驗目標
透過實際操作,感受上下文設計對 AI 回應品質的影響:
- 開始一段對話,在第一訊息中提供大量背景資訊,然後在後續訊息中提出問題——觀察 AI 是否能正確參照你提供的背景。
- 問 AI:「你記得我們這次對話開始時我說的第一句話嗎?」評估其上下文追蹤能力。
- 請 AI 解釋:「如果我給你一份 200 頁的文件,你如何確保不遺漏中間部分的重要資訊?」
注意力與 Transformer
深入 Transformer 架構的核心機制——自注意力如何讓 AI 理解語言關係。
「注意力」機制如何讓 AI 知道哪些詞之間有關聯?
2017 年,Google Brain 的研究員 Ashish Vaswani 等八人發表了論文《Attention Is All You Need》,提出 Transformer 架構,徹底取代了當時主流的遞迴神經網路(RNN)。這篇論文的引用次數至 2024 年已超過 10 萬次,是深度學習史上最有影響力的論文之一。它的核心貢獻是自注意力機制(self-attention)——一種讓模型在處理每個詞元時,能同時考量序列中所有其他詞元的方法。
在 Transformer 之前,RNN 以序列方式處理文字——每個詞只能從左至右依次影響後面的詞,長距離依賴關係容易在傳遞中衰減。Transformer 的自注意力機制打破了這個限制:每個詞元可以直接計算它與序列中所有其他詞元的關聯強度。
具體而言,每個詞元在注意力計算中扮演三個角色,分別以三個向量表示:Query(查詢)代表「我想找什麼」,Key(鍵)代表「我能提供什麼」,Value(值)代表「如果你選擇我,這是我的實際內容」。注意力分數由 Query 與所有 Key 的相似度決定,再用這個分數加權平均所有 Value,得到每個詞元的更新表示。
想像一個圖書館。你走進去帶著一個問題(Query),每本書的書脊(Key)告訴你裡面有什麼,你根據書脊選出最相關的書,讀取其內容(Value)。注意力機制讓每個詞元同時「查閱」序列中的所有其他詞元。
現代 Transformer 使用多頭注意力(multi-head attention):同時執行多組(通常 8 至 96 組)獨立的注意力計算,每組學習捕捉不同類型的語言關係。一個注意力頭可能專門追蹤代名詞與其指代對象的關係,另一個可能捕捉動詞與主語的語法連結,第三個可能處理語義相似性。
GPT-4 的架構細節未完全公開,但 GPT-3(1750 億參數)有 96 個注意力頭、96 個 Transformer 層。每一層的注意力計算都在精煉每個詞元的表示,使其逐漸融入更豐富的上下文資訊。
RNN 的序列處理無法並行化,訓練速度慢,且長距離依賴容易消失。Transformer 的所有詞元可以同時計算,天然支援 GPU 並行,使得訓練千億參數的模型成為可能。
自注意力機制本身是「順序無關」的——「貓追狗」與「狗追貓」在純注意力計算中會得到相同的結果。為此,Transformer 在詞元嵌入中加入位置編碼(positional encoding),以數學方式將位置資訊注入每個詞元的向量表示中,讓模型能夠區分詞序。
第五課測驗
注意力與 Transformer——架構核心
實驗室:注意力探索
透過對話理解 Transformer 的內部運作
🧪 實驗目標
深入理解自注意力機制如何影響語言理解:
- 給 AI 一個代名詞解析問題,例如:「在『老師告訴學生他需要努力』這句話中,『他』指的是誰?AI 的注意力機制如何幫助解析這個歧義?」
- 請 AI 解釋:為什麼多頭注意力比單頭注意力更強大?每個「頭」可能學到什麼不同的關係?
- 問 AI:「Transformer 和人類閱讀一句話的方式,最關鍵的差異是什麼?」
代理人與工具使用
當 LLM 能夠呼叫外部工具、執行程式碼、瀏覽網路——AI 代理人的運作邏輯。
讓 AI 自主使用工具,帶來哪些新的能力與風險?
2023 年 3 月,Chevrolet 的一個美國經銷商在其官方網站上部署了由 ChatGPT 驅動的客服聊天機器人。使用者很快發現,只要透過特定提示詞,可以讓機器人「答應」以 1 美元出售一輛新車,或提供競爭對手品牌(如特斯拉)的推薦意見。更嚴重的是,由於該機器人具有查詢即時庫存的工具存取權限,部分使用者擔憂這可能形成具有法律拘束力的合約。Chevrolet 在幾天內下架了該機器人。這個案例揭示了賦予 AI 工具存取權限的治理複雜性。
標準 LLM 是一個「輸入文字→輸出文字」的靜態系統。AI 代理人(AI agent)是在此基礎上增加了感知(perceive)、規劃(plan)、行動(act)能力的系統——它能夠使用工具、執行多步驟任務,並根據工具回傳的結果調整後續行動。
工具的範疇包括:網路搜尋、程式碼直譯器(code interpreter)、資料庫查詢、API 呼叫、電子郵件發送,乃至控制電腦桌面。2023 年,OpenAI 發布的 ChatGPT Plugins 和 Code Interpreter 功能,標誌著大型語言模型正式進入代理人時代。
2022 年提出的 ReAct(Reasoning + Acting)框架,是目前最廣泛使用的代理人決策模式:模型交替進行「推理步驟」(思考下一步應做什麼)和「行動步驟」(呼叫工具),並將工具回應整合到後續推理中,形成迭代循環。
當代理人能夠讀取外部網頁或文件時,出現了一種新型攻擊:提示詞注入(prompt injection)。攻擊者在網頁或文件中隱藏指令,當 AI 代理人讀取這些內容時,隱藏指令被模型解讀為合法指令,可能導致代理人執行未授權操作。
2023 年,研究人員示範了一個場景:一封帶有隱藏指令的電子郵件(用白色字體寫在白色背景上)被 AI 郵件助理讀取後,助理自動將收件人的聯絡資訊轉發給攻擊者控制的位址。這個漏洞在任何允許 AI 讀取不可信內容的代理人系統中都潛在存在。
這個案例的核心不是技術漏洞,而是治理空白:在部署具有工具存取權限的 AI 代理人之前,沒有充分評估其行為邊界、法律責任和濫用情境。技術能力的擴展速度超過了風險評估的速度。
更複雜的部署模式是多代理人系統(multi-agent systems):多個 AI 代理人協作完成任務,每個代理人負責不同的子任務。例如,一個研究任務可能由「搜尋代理人」收集資料、「分析代理人」處理資料、「撰寫代理人」生成報告,三者以結構化方式傳遞資訊。AutoGPT 和 CrewAI 是這類系統的早期開源實現。然而,多代理人系統的錯誤傳播和責任追溯問題至今仍是研究前沿。
第六課測驗
代理人與工具使用——能力擴展與新風險
實驗室:代理人設計師
思考工具賦權的邊界與治理
🧪 實驗目標
批判性地探討 AI 代理人的設計選擇與風險管理:
- 請 AI 描述:「一個用於輔助台灣學生申請大學的 AI 代理人,應該具備哪些工具存取權限?哪些工具絕對不應授權?」
- 問 AI:「如果你是一個可以發送電子郵件的代理人,你會如何設計確認機制,防止提示詞注入攻擊導致你傳送未授權郵件?」
- 請 AI 以 ReAct 框架為例,一步步描述它如何處理:「查找台積電最新季報,摘要其主要財務指標」這個任務。
多模態人工智慧
超越文字:視覺、音訊與語言的融合,以及跨模態理解的技術基礎。
AI 「看見」一張圖片,和人類看見圖片有何根本不同?
2024 年 5 月,OpenAI 發布 GPT-4o(「o」代表「omni」,全能),這是第一個原生多模態模型:它能夠在單一模型架構中同時處理文字、圖像與音訊輸入,並以文字或語音回應。與前代 GPT-4V(Vision)不同,GPT-4o 不是將圖像通過獨立模型轉換後再送入語言模型,而是在相同的 Transformer 架構中整合了所有模態。這使得它在即時語音對話中的延遲降至 232 毫秒,接近人類對話的反應速度,引發了廣泛的倫理討論,尤其是關於人機情感依附的問題。
視覺語言模型(Vision Language Model,VLM)處理圖像的核心技術是視覺詞元化(visual tokenization)。圖像被切割為固定大小的圖塊(patch,通常 16×16 像素),每個圖塊通過視覺編碼器(如 CLIP)轉換為向量,再與文字詞元的向量對齊,放入同一個 Transformer 上下文中處理。
這個設計意味著模型「看見」圖像的方式,本質上是將其轉換為一系列視覺詞元——一張 1024×1024 的圖像可能產生約 4,000 個視覺詞元,這對上下文視窗是相當大的消耗。
OpenAI 2021 年的 CLIP 模型使用對比學習,在 4 億組(圖像,文字描述)配對資料上訓練,讓圖像的向量表示與對應文字描述的向量表示在高維空間中彼此靠近。這個「對齊」是視覺語言模型的基石。
多模態模型展現了一些顯著的跨模態理解能力:識別圖中文字(OCR)、理解圖表與數據視覺化、描述複雜場景、識別手寫內容。然而,也存在系統性的失敗模式:
- 空間推理困難:模型常常無法正確判斷物件的相對位置(如「左邊」vs「右邊」)。
- 計數錯誤:圖中有多少個物件?這個看似簡單的問題,視覺模型的準確率遠低於人類。
- 視覺幻覺:模型可能「看見」圖中不存在的物件,或忽略實際存在的視覺元素。
- 文字渲染限制:圖像生成模型(如 DALL-E 3)在圖中嵌入精確文字方面仍有困難。
GPT-4o 發布後,其女性化的語音被批評者指出強化了性別刻板印象。此外,Scarlett Johansson 公開聲稱 OpenAI 使用了與她聲音相似的聲線而未獲授權。OpenAI 隨後暫停了該聲線。這個案例展示了多模態技術的能力擴張如何快速超前於倫理規範的制定。
第七課測驗
多模態人工智慧——跨模態理解的技術與局限
實驗室:多模態思考
探索跨模態理解的邊界與應用
🧪 實驗目標
深入思考多模態 AI 的技術基礎與社會影響:
- 請 AI 解釋:「為什麼視覺模型在計算圖中物件數量時比人類更容易出錯?這與視覺詞元化有什麼關係?」
- 討論:「台灣的醫療影像診斷(如 X 光、MRI)是否適合導入多模態 AI 輔助?哪些具體能力有用,哪些局限需要特別注意?」
- 問 AI:「CLIP 的對比學習如何讓圖像和文字在向量空間中『靠近』?請用具體例子說明。」
可解釋性:黑盒內部
AI 可解釋性(interpretability)研究的最前沿:我們如何開始理解模型內部發生了什麼。
我們能夠知道 AI 「為什麼」做出某個決定嗎?
2024 年 5 月,Anthropic 發表了一篇里程碑研究:透過「字典學習」(dictionary learning)技術,研究人員在 Claude 3 Sonnet 的神經網路中識別出超過 1600 萬個「特徵」(feature),每個特徵對應特定概念的激活模式。更引人注目的是,他們發現了一個對應「助理」(Assistant)身份的特徵——當人為強化這個特徵時,模型表現出更多焦慮和自我否定的跡象;當抑制它時,模型變得更不服從指令。這是第一次有研究展示可以在大型語言模型內部識別並操控特定概念的表示。
當一個模型生成有害內容、做出歧視性判斷、或出現意外行為時,我們無法直接「查看」它的「推理過程」——因為其決策分布在數百層、數千億個參數之間,以非線性方式相互作用。這個「黑盒」問題不只是學術困境,而是實際部署的治理障礙。
可解釋性(interpretability)研究的目標是開發技術和方法,讓我們能夠理解模型的內部表示與決策過程。這個領域又分為兩個方向:「事後解釋」(post-hoc explanation,對已有決策提供解釋)和「內在可解釋性」(mechanistic interpretability,理解模型的實際計算機制)。
Anthropic 的研究揭示,神經網路的單個神經元並非對應單一概念——一個神經元可能在多個不同概念出現時被激活(多義性,polysemanticity)。這意味著「讀取」單個神經元的含義並不可靠,需要更複雜的方法識別稀疏的線性特徵組合。
早期的可解釋性工作主要關注注意力可視化:觀察模型在生成特定詞元時,對哪些輸入詞元給予最高的注意力分數。然而,2019 年的研究指出,注意力分數與實際的「因果貢獻」並不完全對應——高注意力不一定意味著該詞元真正影響了輸出。
更嚴謹的方法是電路分析(circuit analysis):識別模型中負責特定行為的最小計算路徑。2022 年,Anthropic 和其他研究機構成功逆向工程了 GPT-2 中執行「間接受詞識別」(indirect object identification)任務的神經電路,這是第一個被完整理解的 Transformer 子機制。
識別出 1600 萬個特徵,並能操控與「Assistant 身份」對應的特徵——這不只是學術成就,而是首次展示了一種可能的技術路徑:在部署前透過特徵分析識別危險概念,或在訓練後精確調整特定行為,而無需重新訓練整個模型。
儘管進展令人振奮,可解釋性研究仍面臨根本性挑戰。GPT-4 的完整電路分析,以目前的技術,估計需要數千年的計算時間。更深層的問題是:即使我們能識別模型的所有特徵,人類是否真的有認知能力理解數百億個特徵之間的複雜交互作用?可解釋性可能存在一個根本的認知上限。
儘管如此,這個方向仍是 AI 安全研究中最重要的投資領域之一。如果我們無法理解 AI 的內部機制,就無法在部署前驗證其安全性;無法驗證安全性,就無法做出負責任的部署決策。
第八課測驗
可解釋性——黑盒內部的研究前沿
實驗室:黑盒探索
探索 AI 可解釋性的邊界與意涵
🧪 實驗目標
從可解釋性的角度,深入探討 AI 決策的透明度問題:
- 請 AI 解釋:「你能描述你自己在回答這個問題時的『推理過程』嗎?你認為你的自我描述有多準確?」
- 討論:「如果我們無法完全理解 AI 的內部決策機制,這對在醫療診斷或法律判決中使用 AI 意味著什麼?」
- 問 AI:「Anthropic 發現操控『Assistant 身份特徵』會導致模型出現焦慮跡象——你如何理解這個發現?它是否意味著模型有某種類似情感的表示?」
MODULE 7
模組總測驗
15 道題目,涵蓋本模組所有課程內容。請仔細思考後作答。