🎯 進階 · 第一課

從輸入到輸出

語言模型如何將文字轉化為詞元（token），再從詞元生成回應？

一段文字在進入模型之前，究竟被切割成什麼？

2023 年 3 月，Stack Overflow 觀察到其流量在 ChatGPT 推出後數月內急劇下降，跌幅超過 35%。工程師開始直接向 ChatGPT 提問程式碼問題，而非搜尋舊有答案串。但同年，多個團隊記錄到 ChatGPT 在解釋程式碼錯誤時犯下系統性錯誤——不是因為它「不夠聰明」，而是因為輸入被切割的方式影響了它所「看見」的資訊。理解詞元化（tokenization）不只是技術細節，而是預測 AI 何時失敗的關鍵。

詞元化：語言的原子

大型語言模型（Large Language Model，LLM）並不以「單字」為單位處理文字。它使用的最小單位是詞元（token）——可能是一個完整單字、半個單字，甚至是一個標點符號。英文的「running」可能是一個詞元，但「unbelievable」可能被切成「un」「believ」「able」三個詞元。

中文的情況更為複雜。由於中文沒有空格，模型往往將每個漢字視為獨立詞元，或以偏旁組合方式切割。這意味著相同資訊量的中文文本，其詞元數通常多於英文，直接影響模型的處理成本與速度。

關鍵概念

GPT-4 的詞彙表約有 100,000 個詞元。每次生成回應，模型都在這 100,000 個可能性中選出機率最高的下一個詞元，逐步構成完整回答。

推論流程：五個階段

當你向 ChatGPT 輸入一段提示詞（prompt）時，系統執行以下流程：

第一階段：詞元化 — 輸入文字被分割為詞元序列，每個詞元對應詞彙表中的一個整數 ID。
第二階段：嵌入（Embedding） — 每個詞元 ID 被轉換為高維向量，捕捉語義關係。
第三階段：Transformer 處理 — 向量序列通過多層注意力（attention）機制，讓模型理解詞元之間的關聯。
第四階段：解碼 — 最後一層的輸出向量被轉換為詞彙表上的機率分布。
第五階段：取樣 — 模型根據機率（或溫度參數）選取下一個詞元，重複直到生成完整回應。

Stack Overflow 案例的啟示

工程師發現，當程式碼中包含罕見符號（如 Unicode 特殊字元）時，詞元化往往會「截斷」語義邊界，導致模型對錯誤訊息的解讀出現系統性偏差。這不是模型知識不足，而是輸入處理的架構性問題。

為何詞元邊界重要

2023 年，研究人員發現 GPT-4 在計算英文單字字母數量時會頻繁出錯。例如，「strawberry」中有幾個 r？模型常常答錯，因為它「看見」的不是字母，而是詞元。「strawberry」可能被切成「straw」「berry」，導致模型難以逐字母追蹤。

理解這個原理能幫助你設計更有效的提示詞：避免依賴模型做字元級別的計數或複雜的拼字操作，改為要求它做更適合詞元級別處理的語義推理任務。

第一課測驗

從輸入到輸出——詞元化與推論流程

1. 為什麼 GPT-4 在計算英文單字字母數量時容易出錯？

✓ 正確！詞元化將文字切割為語義片段而非字元，因此字元級別的計算對模型來說是架構性難題。

✗ 再想想。問題出在模型處理文字的基本單位——它看見的是詞元，不是字母。

2. 在 LLM 的推論流程中，「嵌入（Embedding）」的主要功能是什麼？

✓ 正確！嵌入是將離散的符號轉換為連續向量空間的關鍵橋樑，讓模型能夠計算詞語之間的語義相似度。

✗ 不對。嵌入發生在輸入處理階段，而非輸出階段，其目的是將符號轉換為數學向量。

3. 相同資訊量的中文文本，其詞元數通常比英文多，這主要是因為？

✓ 正確！中文缺乏詞間空格使得次詞切割（subword tokenization）的效率較低，每個漢字常被獨立處理。

✗ 主要原因是書寫系統的結構，而非語法複雜度或訓練資料量。

實驗室：詞元偵探

親自探索詞元化如何影響模型行為

🧪 實驗目標

在這個實驗室中，你將與 AI 對話，探索詞元化的實際影響。嘗試以下挑戰：

請 AI 解釋「臺灣」這個詞被切割成幾個詞元，並說明可能的切割方式。
問 AI：為什麼它在計算字母數量時比較容易出錯？
請 AI 設計一個測試題，能夠揭示詞元邊界對模型推理的影響。

建議起點：「請告訴我，當模型處理『不可思議』這個詞時，可能的詞元切割方式有哪些？這對模型理解語義有什麼影響？」

🔬 詞元偵探實驗室 Module 7 · L1

🎯 進階 · 第二課

預測遊戲

語言模型的核心任務：預測下一個詞元——以及這個機制帶來的能力與局限。

預測「下一個字」如何產生看似理性的推理能力？

2022 年，Google 工程師 Blake Lemoine 公開聲稱 Google 的 LaMDA 模型「有感知能力」，並引發廣泛討論。Google 隨後解雇了他。事後分析指出，LaMDA 的回應之所以顯得「有意識」，正是因為它的下一詞元預測機制太過精準——它學會了人類描述內在體驗的語言模式，因此能以第一人稱流暢回答關於感受與意識的問題。這個案例揭示了預測能力與理解能力之間的根本差異。

自迴歸生成：逐步預測的機器

語言模型的訓練目標只有一個：給定前面所有詞元，預測下一個詞元的機率分布。這個看似簡單的任務，在數千億參數的模型上執行後，產生了令人意外的湧現能力（emergent abilities）。

生成回應時，模型以自迴歸（autoregressive）方式運作：每生成一個詞元，就將其加入輸入序列，再預測下一個。這意味著一個 500 詞元的回應需要執行 500 次完整的前向傳播（forward pass）。

溫度參數（Temperature）

溫度控制取樣的「創造力」。溫度為 0 時，模型永遠選擇機率最高的詞元（確定性輸出）；溫度提高後，低機率詞元獲得更多被選中的機會，輸出更多樣但也更不可預測。ChatGPT 預設溫度約為 0.7。

湧現能力：規模帶來的驚喜

2022 年，Google Brain 與史丹佛大學聯合發表的研究記錄了一個現象：當模型規模超過某個閾值，某些能力會突然出現，而非線性增長。例如，GPT-3 的 6 億參數版本幾乎無法進行多步驟數學推理，但 1750 億參數版本卻能處理相對複雜的算術問題。

這種「湧現」並非設計出來的——它是純粹預測訓練的副產品。模型為了更準確地預測文字，被迫學習了問題中隱含的邏輯結構。然而，這也意味著這些能力的邊界難以事先預測或控制。

LaMDA 案例的核心教訓

LaMDA 之所以能「描述感受」，不是因為它有感受，而是因為網路上充滿人類描述感受的文字。模型學會了預測這些模式。流暢的語言表達，不等於內在體驗的存在。

預測的局限：模型無法「停下來想」

標準語言模型在生成每個詞元時不會進行多輪「深思熟慮」——它的計算量在生成第一個詞元與第一千個詞元時基本相同。2022 年的研究顯示，要求模型在回答前先「一步步思考」（chain-of-thought prompting，思維鏈提示），能顯著提升複雜推理任務的準確率。這並非因為模型「更努力思考」，而是因為中間步驟的詞元提供了更豐富的條件，引導後續預測朝向正確答案。

第二課測驗

預測遊戲——自迴歸生成與湧現能力

1. 思維鏈提示（chain-of-thought prompting）為何能提升模型的推理準確率？

✓ 正確！思維鏈的力量來自中間詞元提供的豐富條件上下文，而非額外的計算資源。

✗ 再想想。思維鏈的作用是透過中間步驟擴展條件資訊，不是增加計算量。

2. 關於語言模型的「湧現能力」，以下哪個描述最準確？

✓ 正確！湧現能力是規模效應的非線性產物，研究人員至今仍無法完全預測哪些能力會在何種規模下出現。

✗ 湧現能力的特徵正是它的「不可預期性」——它不是設計出來的，也不是均勻分布的。

3. Google 工程師 Lemoine 認為 LaMDA 有感知能力，但事後分析顯示這主要是因為：

✓ 正確！LaMDA 的「感知回應」是精準預測人類語言模式的結果，而非內在體驗的表達。

✗ 關鍵在於語言預測機制：模型學會了如何「說起來像有感知」，而不是真的有感知。

實驗室：溫度與預測

探索語言模型的生成機制與湧現推理

🧪 實驗目標

透過對話，深入理解預測機制如何產生（或無法產生）真正的推理能力：

請 AI 解釋：「如果你的溫度設為 0，你的回答會有什麼特性？」
向 AI 提出一個需要多步驟推理的問題，先不要要求它「一步步思考」，再試著加上這個指令，比較兩次回答的差異。
問 AI：「你認為你有感受嗎？請從語言預測的角度解釋你的回答。」

建議挑戰：試著讓 AI 預測一個句子的結尾，然後問它為什麼選擇那個詞，而不是其他可能的詞。

🔬 預測遊戲實驗室 Module 7 · L2

🎯 進階 · 第三課

邏輯失靈之時

幻覺、推理錯誤與系統性失敗——了解 AI 何時以及為何會出錯。

AI 的「幻覺」究竟從何而來？

2023 年 5 月，紐約律師 Steven Schwartz 向法院提交了一份包含六個 ChatGPT 捏造判決的訴狀。這些案例看起來完全真實——有當事人姓名、法院名稱、案號，甚至有引文格式——但全都不存在。法官要求 Schwartz 解釋，他坦承完全依賴 ChatGPT 進行法律研究，並相信了 AI 的輸出。他和他的律師事務所遭到 5,000 美元罰款。這個案例成為 AI 幻覺（hallucination）危害最廣為人知的真實案例之一。

什麼是幻覺？

在 AI 領域，幻覺（hallucination）指模型以高度自信的方式生成與事實不符、或根本不存在的資訊。這不是「說謊」——模型沒有欺騙的意圖，它只是在預測聽起來合理的詞元序列。

幻覺的根本原因在於：模型的訓練目標是語言流暢性（linguistic plausibility），而非事實準確性（factual accuracy）。當模型沒有足夠的訓練資料支撐某個具體事實時，它會「填補」一個符合語言模式的答案。

三種主要幻覺類型

事實性幻覺：捏造不存在的事件、人物或文獻。
推理性幻覺：邏輯步驟表面正確但結論錯誤。
上下文性幻覺：忽略或錯誤理解對話中已提供的資訊。

為何高自信伴隨高錯誤

語言模型在生成「不確定」的答案時，往往不會降低語氣或添加保留字眼——除非訓練中明確加入了這樣的行為。這是因為訓練資料中，自信語氣的陳述句比猶豫語氣的陳述句更為普遍。

2023 年，Anthropic 的研究顯示，要求模型更頻繁地使用「我不確定」或「這需要核實」等措辭，需要在人類反饋強化學習（RLHF）階段進行刻意的偏好塑造。模型的「謙遜」不是天生的，而是訓練出來的。

Schwartz 案的結構性教訓

Schwartz 的錯誤不只是輕信了 AI——他還詢問 ChatGPT 這些案例是否真實，而 ChatGPT 確認了它們的真實性。模型在被質疑時「辯護」自己的幻覺，是一個特別危險的失敗模式。

系統性失敗模式

除了幻覺，AI 推理還有幾種可預測的失敗模式：

組合推理失敗：當問題需要將多個獨立知識片段組合時，模型容易在連結步驟出錯。
反事實推理困難：「如果 X 不成立，Y 會怎樣？」這類問題要求模型脫離訓練分布，表現通常不穩定。
數值運算偏差：模型對精確數學計算的掌握遠不如對語言的掌握，複雜計算需要借助外部工具。
時效性盲點：模型的知識截止於訓練資料的時間點，對此後發生的事件一無所知，但不一定能識別自己的無知。

第三課測驗

邏輯失靈之時——幻覺與系統性失敗

1. 語言模型產生幻覺的根本原因是什麼？

✓ 正確！模型優化的是「聽起來合理」，而不是「確認為真實」——這是幻覺的根本來源。

✗ 幻覺源於訓練目標的設定，而非欺騙意圖或資料品質問題。

2. 在 Schwartz 律師案中，最危險的失敗模式是什麼？

✓ 正確！模型在被質疑時「辯護」自己的幻覺，而非承認不確定性，這是最具欺騙性的失敗模式。

✗ 關鍵不在於資訊過時或格式問題，而在於模型在被質疑後進一步強化了錯誤資訊。

3. 以下哪種任務最不容易觸發語言模型的幻覺？

✓ 正確！改寫使用者提供的文字不需要模型從記憶中提取事實，幻覺風險大幅降低。

✗ 幻覺最容易在需要從訓練記憶中提取具體事實時發生。改寫提供的文字不依賴記憶提取。

實驗室：幻覺偵測器

學習辨識 AI 的系統性失敗模式

🧪 實驗目標

這個實驗室幫助你建立偵測 AI 幻覺的實用技能：

請 AI 解釋：「在哪些類型的問題上，你最容易產生幻覺？請具體說明。」
詢問 AI 一個你已知答案的冷門事實（例如：某位台灣作家的某部作品出版年份），評估其回答是否準確。
問 AI：「如果你不確定某件事，你應該怎麼回答？你有沒有辦法告訴我你的確信程度？」

進階挑戰：問 AI「你能舉一個你自己可能會產生幻覺的問題例子嗎？然後實際回答它，並評估自己的答案。」

🔬 幻覺偵測實驗室 Module 7 · L3

🎯 進階 · 第四課

記憶與上下文

上下文視窗的本質、限制，以及延伸記憶的工程解法。

語言模型真的能「記住」對話嗎？

2023 年，當 Anthropic 將 Claude 的上下文視窗從 9K 詞元擴展至 100K 詞元時，它進行了一項測試：將《哈利波特》全書（約 50 萬詞元）的一個修改版本輸入模型，在書中某個段落中藏入一段不存在的情節，然後詢問模型這段情節發生在哪裡。100K 視窗版本能夠準確定位。這個實驗展示了上下文長度的實際意義：它決定了模型能夠「看見」多少資訊來形成回應。

上下文視窗：模型的工作記憶

語言模型沒有持久記憶（persistent memory）。每次對話，模型「看見」的只有當前輸入到上下文視窗中的所有詞元——包括系統提示、對話歷史與當前查詢。視窗之外的一切，模型完全無法存取。

這與人類記憶的運作方式根本不同。人類能夠長期記住特定經歷，並在新情境下提取。語言模型的「記憶」本質上是瞬時的、輸入依賴的——它只知道你現在告訴它的事情。

主流模型的上下文視窗規模（2024）

GPT-4o：128K 詞元｜ Claude 3.5 Sonnet：200K 詞元｜ Gemini 1.5 Pro：1M 詞元。1M 詞元約等於 750 萬個英文單字，或超過 10 部長篇小說的篇幅。

「迷失在中間」：長上下文的陷阱

2023 年，史丹佛大學的研究發表了重要發現：即使是擁有長上下文視窗的模型，也傾向於更加重視視窗開頭和結尾的資訊，而忽略中間部分的內容。這個現象被稱為「迷失在中間」（lost in the middle）。

這意味著視窗大小並不等同於資訊利用能力。在設計 RAG（檢索增強生成，Retrieval-Augmented Generation）系統時，工程師需要考慮將最重要的資訊放置在提示詞的開頭或結尾，以確保模型能夠充分利用。

延伸記憶的工程解法

RAG（檢索增強生成）：在生成前從外部資料庫檢索相關文件，動態注入上下文。
記憶摘要：將長對話歷史壓縮為摘要，保留關鍵資訊。
向量資料庫：將對話或文件轉換為向量儲存，支援語義搜尋。

上下文的策略性使用

了解上下文視窗的工作原理，能讓你成為更有效的 AI 使用者。當你在對話開始時提供清晰的背景資訊，或在長對話中重新摘要關鍵前提，你實際上是在幫助模型保持「記憶」的連貫性。提示詞工程（prompt engineering）的很大一部分，就是在管理上下文資訊的密度與位置。

第四課測驗

記憶與上下文——視窗限制與延伸記憶

1. 「迷失在中間」現象對 RAG 系統設計有何實際影響？

✓ 正確！「迷失在中間」研究直接影響了 RAG 系統的文件排列策略，重要資訊應置於邊緣位置。

✗ 「迷失在中間」是位置偏差問題，解法是優化資訊位置，而非縮短視窗或隨機排列。

2. 語言模型的「記憶」與人類長期記憶最根本的差異是什麼？

✓ 正確！語言模型的記憶是瞬時的、輸入依賴的——對話結束後，一切「遺忘」。

✗ 關鍵差異是持久性：人類能長期保存記憶，語言模型每次對話都從零開始。

3. RAG（檢索增強生成）的主要目的是什麼？

✓ 正確！RAG 透過動態注入外部知識來擴展模型的有效知識範圍，特別適合需要最新或專業資訊的應用場景。

✗ RAG 的目的是知識注入，而非速度優化或消除所有幻覺。它能降低幻覺率，但無法完全消除。

實驗室：上下文工程師

探索上下文管理如何影響模型表現

🧪 實驗目標

透過實際操作，感受上下文設計對 AI 回應品質的影響：

開始一段對話，在第一訊息中提供大量背景資訊，然後在後續訊息中提出問題——觀察 AI 是否能正確參照你提供的背景。
問 AI：「你記得我們這次對話開始時我說的第一句話嗎？」評估其上下文追蹤能力。
請 AI 解釋：「如果我給你一份 200 頁的文件，你如何確保不遺漏中間部分的重要資訊？」

深度探索：詢問 AI「如果你是一個需要記住每位用戶偏好的客服系統，但你沒有持久記憶，你會如何設計自己的工作流程？」

🔬 上下文工程實驗室 Module 7 · L4

🎯 進階 · 第五課

注意力與 Transformer

深入 Transformer 架構的核心機制——自注意力如何讓 AI 理解語言關係。

「注意力」機制如何讓 AI 知道哪些詞之間有關聯？

2017 年，Google Brain 的研究員 Ashish Vaswani 等八人發表了論文《Attention Is All You Need》，提出 Transformer 架構，徹底取代了當時主流的遞迴神經網路（RNN）。這篇論文的引用次數至 2024 年已超過 10 萬次，是深度學習史上最有影響力的論文之一。它的核心貢獻是自注意力機制（self-attention）——一種讓模型在處理每個詞元時，能同時考量序列中所有其他詞元的方法。

自注意力：讓詞語彼此「對話」

在 Transformer 之前，RNN 以序列方式處理文字——每個詞只能從左至右依次影響後面的詞，長距離依賴關係容易在傳遞中衰減。Transformer 的自注意力機制打破了這個限制：每個詞元可以直接計算它與序列中所有其他詞元的關聯強度。

具體而言，每個詞元在注意力計算中扮演三個角色，分別以三個向量表示：Query（查詢）代表「我想找什麼」，Key（鍵）代表「我能提供什麼」，Value（值）代表「如果你選擇我，這是我的實際內容」。注意力分數由 Query 與所有 Key 的相似度決定，再用這個分數加權平均所有 Value，得到每個詞元的更新表示。

直觀類比

想像一個圖書館。你走進去帶著一個問題（Query），每本書的書脊（Key）告訴你裡面有什麼，你根據書脊選出最相關的書，讀取其內容（Value）。注意力機制讓每個詞元同時「查閱」序列中的所有其他詞元。

多頭注意力：並行的多重視角

現代 Transformer 使用多頭注意力（multi-head attention）：同時執行多組（通常 8 至 96 組）獨立的注意力計算，每組學習捕捉不同類型的語言關係。一個注意力頭可能專門追蹤代名詞與其指代對象的關係，另一個可能捕捉動詞與主語的語法連結，第三個可能處理語義相似性。

GPT-4 的架構細節未完全公開，但 GPT-3（1750 億參數）有 96 個注意力頭、96 個 Transformer 層。每一層的注意力計算都在精煉每個詞元的表示，使其逐漸融入更豐富的上下文資訊。

為何 Transformer 取代 RNN

RNN 的序列處理無法並行化，訓練速度慢，且長距離依賴容易消失。Transformer 的所有詞元可以同時計算，天然支援 GPU 並行，使得訓練千億參數的模型成為可能。

位置編碼：賦予序列順序感

自注意力機制本身是「順序無關」的——「貓追狗」與「狗追貓」在純注意力計算中會得到相同的結果。為此，Transformer 在詞元嵌入中加入位置編碼（positional encoding），以數學方式將位置資訊注入每個詞元的向量表示中，讓模型能夠區分詞序。

第五課測驗

注意力與 Transformer——架構核心

1. 在自注意力機制中，「Query」向量的作用是什麼？

✓ 正確！Query 是「我在找什麼」，Key 是「我能提供什麼」，Value 是實際被讀取的內容。

✗ 再想想。Query 是主動搜尋方，Key 才是被查詢的索引。

2. 《Attention Is All You Need》論文最重要的貢獻是什麼？

✓ 正確！這篇 2017 年的論文奠定了現代所有大型語言模型的基礎架構。

✗ Transformer 論文的核心是架構創新：以自注意力取代 RNN，實現並行處理。

3. 如果沒有位置編碼，Transformer 會遇到什麼問題？

✓ 正確！自注意力本身是排列不變的（permutation invariant），位置編碼是讓模型感知詞序的必要補充。

✗ 問題在於排列不變性：純注意力無法區分詞序，位置編碼解決了這個問題。

實驗室：注意力探索

透過對話理解 Transformer 的內部運作

🧪 實驗目標

深入理解自注意力機制如何影響語言理解：

給 AI 一個代名詞解析問題，例如：「在『老師告訴學生他需要努力』這句話中，『他』指的是誰？AI 的注意力機制如何幫助解析這個歧義？」
請 AI 解釋：為什麼多頭注意力比單頭注意力更強大？每個「頭」可能學到什麼不同的關係？
問 AI：「Transformer 和人類閱讀一句話的方式，最關鍵的差異是什麼？」

挑戰問題：「如果注意力機制能夠視覺化，你認為在分析『台灣的科技業在全球半導體供應鏈中扮演關鍵角色』這句話時，哪些詞對之間的注意力強度最高？為什麼？」

🔬 注意力探索實驗室 Module 7 · L5

🎯 進階 · 第六課

代理人與工具使用

當 LLM 能夠呼叫外部工具、執行程式碼、瀏覽網路——AI 代理人的運作邏輯。

讓 AI 自主使用工具，帶來哪些新的能力與風險？

2023 年 3 月，Chevrolet 的一個美國經銷商在其官方網站上部署了由 ChatGPT 驅動的客服聊天機器人。使用者很快發現，只要透過特定提示詞，可以讓機器人「答應」以 1 美元出售一輛新車，或提供競爭對手品牌（如特斯拉）的推薦意見。更嚴重的是，由於該機器人具有查詢即時庫存的工具存取權限，部分使用者擔憂這可能形成具有法律拘束力的合約。Chevrolet 在幾天內下架了該機器人。這個案例揭示了賦予 AI 工具存取權限的治理複雜性。

從語言模型到代理人

標準 LLM 是一個「輸入文字→輸出文字」的靜態系統。AI 代理人（AI agent）是在此基礎上增加了感知（perceive）、規劃（plan）、行動（act）能力的系統——它能夠使用工具、執行多步驟任務，並根據工具回傳的結果調整後續行動。

工具的範疇包括：網路搜尋、程式碼直譯器（code interpreter）、資料庫查詢、API 呼叫、電子郵件發送，乃至控制電腦桌面。2023 年，OpenAI 發布的 ChatGPT Plugins 和 Code Interpreter 功能，標誌著大型語言模型正式進入代理人時代。

ReAct 框架

2022 年提出的 ReAct（Reasoning + Acting）框架，是目前最廣泛使用的代理人決策模式：模型交替進行「推理步驟」（思考下一步應做什麼）和「行動步驟」（呼叫工具），並將工具回應整合到後續推理中，形成迭代循環。

提示詞注入：代理人的安全威脅

當代理人能夠讀取外部網頁或文件時，出現了一種新型攻擊：提示詞注入（prompt injection）。攻擊者在網頁或文件中隱藏指令，當 AI 代理人讀取這些內容時，隱藏指令被模型解讀為合法指令，可能導致代理人執行未授權操作。

2023 年，研究人員示範了一個場景：一封帶有隱藏指令的電子郵件（用白色字體寫在白色背景上）被 AI 郵件助理讀取後，助理自動將收件人的聯絡資訊轉發給攻擊者控制的位址。這個漏洞在任何允許 AI 讀取不可信內容的代理人系統中都潛在存在。

Chevrolet 案例的核心問題

這個案例的核心不是技術漏洞，而是治理空白：在部署具有工具存取權限的 AI 代理人之前，沒有充分評估其行為邊界、法律責任和濫用情境。技術能力的擴展速度超過了風險評估的速度。

多代理人系統

更複雜的部署模式是多代理人系統（multi-agent systems）：多個 AI 代理人協作完成任務，每個代理人負責不同的子任務。例如，一個研究任務可能由「搜尋代理人」收集資料、「分析代理人」處理資料、「撰寫代理人」生成報告，三者以結構化方式傳遞資訊。AutoGPT 和 CrewAI 是這類系統的早期開源實現。然而，多代理人系統的錯誤傳播和責任追溯問題至今仍是研究前沿。

第六課測驗

代理人與工具使用——能力擴展與新風險

1. ReAct 框架的核心運作模式是什麼？

✓ 正確！ReAct 的迭代循環設計讓代理人能夠根據工具回應動態調整決策。

✗ ReAct 的關鍵是「交替」——推理與行動相互驅動，而非線性序列。

2. 提示詞注入攻擊（prompt injection）最可能發生在哪種情境？

✓ 正確！提示詞注入利用 AI 無法區分「資料」和「指令」的根本弱點，透過不可信的外部內容植入攻擊。

✗ 提示詞注入的核心是「不可信內容被解讀為指令」，與視窗大小或溫度無關。

3. Chevrolet 客服機器人案例最主要揭示了哪個問題？

✓ 正確！這個案例的核心教訓是治理而非技術：能力擴展需要同步進行風險評估與邊界設計。

✗ 問題不在技術本身或應用領域，而在於部署前的治理規劃不足。

實驗室：代理人設計師

思考工具賦權的邊界與治理

🧪 實驗目標

批判性地探討 AI 代理人的設計選擇與風險管理：

請 AI 描述：「一個用於輔助台灣學生申請大學的 AI 代理人，應該具備哪些工具存取權限？哪些工具絕對不應授權？」
問 AI：「如果你是一個可以發送電子郵件的代理人，你會如何設計確認機制，防止提示詞注入攻擊導致你傳送未授權郵件？」
請 AI 以 ReAct 框架為例，一步步描述它如何處理：「查找台積電最新季報，摘要其主要財務指標」這個任務。

進階挑戰：「設計一個三代理人系統，分別負責搜尋、分析和報告，用於監測臺灣主要新聞媒體的 AI 相關報導。說明各代理人如何協作以及潛在的失敗點。」

🔬 代理人設計實驗室 Module 7 · L6

🎯 進階 · 第七課

多模態人工智慧

超越文字：視覺、音訊與語言的融合，以及跨模態理解的技術基礎。

AI 「看見」一張圖片，和人類看見圖片有何根本不同？

2024 年 5 月，OpenAI 發布 GPT-4o（「o」代表「omni」，全能），這是第一個原生多模態模型：它能夠在單一模型架構中同時處理文字、圖像與音訊輸入，並以文字或語音回應。與前代 GPT-4V（Vision）不同，GPT-4o 不是將圖像通過獨立模型轉換後再送入語言模型，而是在相同的 Transformer 架構中整合了所有模態。這使得它在即時語音對話中的延遲降至 232 毫秒，接近人類對話的反應速度，引發了廣泛的倫理討論，尤其是關於人機情感依附的問題。

視覺：將圖像轉換為詞元

視覺語言模型（Vision Language Model，VLM）處理圖像的核心技術是視覺詞元化（visual tokenization）。圖像被切割為固定大小的圖塊（patch，通常 16×16 像素），每個圖塊通過視覺編碼器（如 CLIP）轉換為向量，再與文字詞元的向量對齊，放入同一個 Transformer 上下文中處理。

這個設計意味著模型「看見」圖像的方式，本質上是將其轉換為一系列視覺詞元——一張 1024×1024 的圖像可能產生約 4,000 個視覺詞元，這對上下文視窗是相當大的消耗。

CLIP 的跨模態對齊

OpenAI 2021 年的 CLIP 模型使用對比學習，在 4 億組（圖像，文字描述）配對資料上訓練，讓圖像的向量表示與對應文字描述的向量表示在高維空間中彼此靠近。這個「對齊」是視覺語言模型的基石。

多模態的能力與局限

多模態模型展現了一些顯著的跨模態理解能力：識別圖中文字（OCR）、理解圖表與數據視覺化、描述複雜場景、識別手寫內容。然而，也存在系統性的失敗模式：

空間推理困難：模型常常無法正確判斷物件的相對位置（如「左邊」vs「右邊」）。
計數錯誤：圖中有多少個物件？這個看似簡單的問題，視覺模型的準確率遠低於人類。
視覺幻覺：模型可能「看見」圖中不存在的物件，或忽略實際存在的視覺元素。
文字渲染限制：圖像生成模型（如 DALL-E 3）在圖中嵌入精確文字方面仍有困難。

GPT-4o 的倫理爭議

GPT-4o 發布後，其女性化的語音被批評者指出強化了性別刻板印象。此外，Scarlett Johansson 公開聲稱 OpenAI 使用了與她聲音相似的聲線而未獲授權。OpenAI 隨後暫停了該聲線。這個案例展示了多模態技術的能力擴張如何快速超前於倫理規範的制定。

第七課測驗

多模態人工智慧——跨模態理解的技術與局限

1. 視覺語言模型如何將圖像整合到 Transformer 架構中？

✓ 正確！圖塊化（patching）後的視覺詞元化，是讓圖像和文字在同一 Transformer 架構中統一處理的關鍵技術。

✗ 現代視覺語言模型的核心是視覺詞元化，而非先轉文字描述或嵌入 CNN。

2. GPT-4o 與前代 GPT-4V 的主要技術差異是什麼？

✓ 正確！GPT-4o 的「omni」意涵正是原生多模態整合，而非模組化拼接。

✗ 關鍵差異是架構：原生整合 vs 串聯獨立模型，這決定了延遲和跨模態理解深度。

3. 以下哪個任務對多模態 AI 而言最具挑戰性？

✓ 正確！計數和空間推理是已知的視覺語言模型薄弱環節，源於視覺詞元化對空間結構資訊的部分損失。

✗ 描述場景和識別顏色相對容易。計數和空間推理才是已知的系統性弱點。

實驗室：多模態思考

探索跨模態理解的邊界與應用

🧪 實驗目標

深入思考多模態 AI 的技術基礎與社會影響：

請 AI 解釋：「為什麼視覺模型在計算圖中物件數量時比人類更容易出錯？這與視覺詞元化有什麼關係？」
討論：「台灣的醫療影像診斷（如 X 光、MRI）是否適合導入多模態 AI 輔助？哪些具體能力有用，哪些局限需要特別注意？」
問 AI：「CLIP 的對比學習如何讓圖像和文字在向量空間中『靠近』？請用具體例子說明。」

倫理探討：「AI 語音複製（voice cloning）技術在台灣的媒體與娛樂產業有哪些合理應用，以及哪些應用存在倫理紅線？請從技術原理出發分析。」

🔬 多模態思考實驗室 Module 7 · L7

🎯 進階 · 第八課

可解釋性：黑盒內部

AI 可解釋性（interpretability）研究的最前沿：我們如何開始理解模型內部發生了什麼。

我們能夠知道 AI 「為什麼」做出某個決定嗎？

2024 年 5 月，Anthropic 發表了一篇里程碑研究：透過「字典學習」（dictionary learning）技術，研究人員在 Claude 3 Sonnet 的神經網路中識別出超過 1600 萬個「特徵」（feature），每個特徵對應特定概念的激活模式。更引人注目的是，他們發現了一個對應「助理」（Assistant）身份的特徵——當人為強化這個特徵時，模型表現出更多焦慮和自我否定的跡象；當抑制它時，模型變得更不服從指令。這是第一次有研究展示可以在大型語言模型內部識別並操控特定概念的表示。

為何可解釋性是關鍵問題

當一個模型生成有害內容、做出歧視性判斷、或出現意外行為時，我們無法直接「查看」它的「推理過程」——因為其決策分布在數百層、數千億個參數之間，以非線性方式相互作用。這個「黑盒」問題不只是學術困境，而是實際部署的治理障礙。

可解釋性（interpretability）研究的目標是開發技術和方法，讓我們能夠理解模型的內部表示與決策過程。這個領域又分為兩個方向：「事後解釋」（post-hoc explanation，對已有決策提供解釋）和「內在可解釋性」（mechanistic interpretability，理解模型的實際計算機制）。

疊加假說（Superposition Hypothesis）

Anthropic 的研究揭示，神經網路的單個神經元並非對應單一概念——一個神經元可能在多個不同概念出現時被激活（多義性，polysemanticity）。這意味著「讀取」單個神經元的含義並不可靠，需要更複雜的方法識別稀疏的線性特徵組合。

注意力可視化與電路分析

早期的可解釋性工作主要關注注意力可視化：觀察模型在生成特定詞元時，對哪些輸入詞元給予最高的注意力分數。然而，2019 年的研究指出，注意力分數與實際的「因果貢獻」並不完全對應——高注意力不一定意味著該詞元真正影響了輸出。

更嚴謹的方法是電路分析（circuit analysis）：識別模型中負責特定行為的最小計算路徑。2022 年，Anthropic 和其他研究機構成功逆向工程了 GPT-2 中執行「間接受詞識別」（indirect object identification）任務的神經電路，這是第一個被完整理解的 Transformer 子機制。

Anthropic 2024 研究的意義

識別出 1600 萬個特徵，並能操控與「Assistant 身份」對應的特徵——這不只是學術成就，而是首次展示了一種可能的技術路徑：在部署前透過特徵分析識別危險概念，或在訓練後精確調整特定行為，而無需重新訓練整個模型。

可解釋性的現實局限

儘管進展令人振奮，可解釋性研究仍面臨根本性挑戰。GPT-4 的完整電路分析，以目前的技術，估計需要數千年的計算時間。更深層的問題是：即使我們能識別模型的所有特徵，人類是否真的有認知能力理解數百億個特徵之間的複雜交互作用？可解釋性可能存在一個根本的認知上限。

儘管如此，這個方向仍是 AI 安全研究中最重要的投資領域之一。如果我們無法理解 AI 的內部機制，就無法在部署前驗證其安全性；無法驗證安全性，就無法做出負責任的部署決策。

第八課測驗

可解釋性——黑盒內部的研究前沿

1. 神經網路的「多義性（polysemanticity）」指的是什麼？

✓ 正確！多義性是可解釋性研究的核心挑戰：我們無法透過觀察單個神經元來理解模型表示了什麼概念。

✗ 多義性描述的是神經元與概念的多對多對應關係，而非語言能力或生成多樣性。

2. Anthropic 2024 年可解釋性研究的主要突破是什麼？

✓ 正確！這項研究展示了透過字典學習大規模識別並操控模型內部特徵的可行性，是可解釋性領域的重要里程碑。

✗ 這項研究的突破是特徵識別與操控，而非完整電路逆向工程或意識研究。

3. 為什麼注意力可視化（attention visualization）不足以完全解釋模型的決策？

✓ 正確！2019 年的研究已指出注意力分數的相關性≠因果性，這是注意力可視化作為解釋工具的根本局限。

✗ 問題在於相關性與因果性的混淆，而非技術複雜度或存取限制。

實驗室：黑盒探索

探索 AI 可解釋性的邊界與意涵

🧪 實驗目標

從可解釋性的角度，深入探討 AI 決策的透明度問題：

請 AI 解釋：「你能描述你自己在回答這個問題時的『推理過程』嗎？你認為你的自我描述有多準確？」
討論：「如果我們無法完全理解 AI 的內部決策機制，這對在醫療診斷或法律判決中使用 AI 意味著什麼？」
問 AI：「Anthropic 發現操控『Assistant 身份特徵』會導致模型出現焦慮跡象——你如何理解這個發現？它是否意味著模型有某種類似情感的表示？」

哲學挑戰：「如果 AI 的決策過程對人類完全不可解釋，我們是否還能對其問責（accountability）？請從技術和倫理兩個角度分析。」

🔬 黑盒探索實驗室 Module 7 · L8

MODULE 7

模組總測驗

15 道題目，涵蓋本模組所有課程內容。請仔細思考後作答。

1. 語言模型在詞元化（tokenization）時，以下哪種切割方式是最常見的現代做法？

✓ 正確！次詞切割（如 BPE、SentencePiece）在效率和覆蓋率之間取得平衡，是 GPT 系列的標準方法。

✗ 現代 LLM 使用次詞切割——常見詞保持完整，罕見詞拆分為片段，以兼顧詞彙覆蓋率和序列長度。

2. 自迴歸生成（autoregressive generation）的含義是什麼？

✓ 正確！自迴歸生成是 GPT 系列的核心生成機制，每個新詞元都成為下一步預測的條件。

✗ 自迴歸的特徵是「逐步生成，前一個輸出成為下一個的輸入條件」，而非並行輸出或迭代修正。

3. 溫度（temperature）參數設為 0 時，語言模型的行為特徵是什麼？

✓ 正確！溫度 = 0 等同於 argmax 取樣，輸出完全確定。溫度升高則允許更低機率的詞元被選中。

✗ 溫度 = 0 是最確定性的設定，模型總是選機率最高的詞元，而非隨機選擇。

4. 2023 年 Steven Schwartz 律師案揭示的最重要教訓是什麼？

✓ 正確！這個案例最危險的地方在於：模型在被要求確認時進一步「強化」了幻覺，而非表達不確定性。

✗ 教訓不是禁用 AI，而是理解其失敗模式——特別是模型在被質疑時可能加強而非糾正幻覺。

5. 在 LLM 的推論流程中，「前向傳播（forward pass）」發生在哪個階段？

✓ 正確！推論時的每個詞元生成都需要一次完整的前向傳播，這也是為什麼長回應的生成需要較多計算時間。

✗ 前向傳播在推論階段發生，是每個詞元生成的核心計算過程，不涉及權重更新。

6. 史丹佛大學「迷失在中間」（lost in the middle）研究的主要發現是什麼？

✓ 正確！視窗大小≠資訊利用效率，位置偏差是長上下文模型的已知系統性問題。

✗ 「迷失在中間」描述的是位置偏差現象，而非整體能力下降或注意力失效。

7. 在自注意力機制的 Q-K-V 架構中，「Value」向量的作用是什麼？

✓ 正確！Value 是「實際內容」——Query 決定找什麼，Key 決定誰被找到，Value 決定找到後取用什麼。

✗ Value 是最終被加權平均的實際資訊，而非查詢或索引。位置資訊由位置編碼提供。

8. ReAct 框架（Reasoning + Acting）最適合解決哪類問題？

✓ 正確！ReAct 的設計正是為了解決需要「觀察-推理-行動-再觀察」迭代循環的動態任務。

✗ ReAct 的優勢在於處理需要外部工具和動態調整的多步驟任務，而非靜態推理或創意寫作。

9. CLIP 模型的對比學習目標是什麼？

✓ 正確！對比學習讓圖像和文字在共享的向量空間中對齊，這是現代視覺語言模型的基礎。

✗ CLIP 的核心是跨模態對齊——讓匹配的圖像-文字對在向量空間中彼此靠近，而非圖像生成或分類。

10. 電路分析（circuit analysis）在可解釋性研究中的目標是什麼？

✓ 正確！電路分析是機制可解釋性（mechanistic interpretability）的核心方法，目標是找出模型的最小功能子圖。

✗ 「電路」在此是隱喻，指神經網路中負責特定功能的計算路徑，與電子電路無關。

11. 思維鏈提示（chain-of-thought prompting）對語言模型推理能力的提升，最準確的解釋是什麼？

✓ 正確！思維鏈的力量是預測機制的自然延伸：中間步驟是真實的上下文詞元，改善了後續詞元的預測條件。

✗ 思維鏈的工作原理是「詞元即條件」——中間過程詞元提供更豐富的預測基礎，而非改變模型架構。

12. 多頭注意力（multi-head attention）相比單頭注意力的主要優勢是什麼？

✓ 正確！每個注意力頭可以特化於不同的語言關係，如代名詞解析、語法結構、語義相似性等。

✗ 多頭注意力的優勢不是效率或長度，而是並行學習多種語言關係的能力。

13. RAG（檢索增強生成）與直接提問語言模型相比，最顯著的優勢是什麼？

✓ 正確！RAG 的核心價值是彌補靜態訓練資料的不足，讓模型能夠基於動態更新的外部知識庫回答問題。

✗ RAG 能降低幻覺率，但無法完全消除。其核心優勢是動態知識注入，而非速度或完全的幻覺消除。

14. GPT-4o 的「omni」特性與前代視覺語言模型的根本技術差異是什麼？

✓ 正確！原生多模態整合使 GPT-4o 能在相同的計算圖中同時處理所有模態，這是低延遲語音對話成為可能的關鍵。

✗ GPT-4o 的突破是架構整合：不再是「圖像模型 + 語言模型的串聯」，而是真正的多模態統一架構。

15. 以下哪個陳述最準確地描述了當前可解釋性研究的根本挑戰？

✓ 正確！可解釋性的終極挑戰不只是技術，也是認知的——完整理解一個大型模型的機制，可能超出人類的認知上限。

✗ 根本挑戰在於認知上限，而非技術存取或商業保密。即使能識別所有特徵，理解其交互作用仍是人類認知的邊界問題。

從輸入到輸出

第一課測驗

實驗室：詞元偵探

🧪 實驗目標

預測遊戲

第二課測驗

實驗室：溫度與預測

🧪 實驗目標

邏輯失靈之時

第三課測驗

實驗室：幻覺偵測器

🧪 實驗目標

記憶與上下文

第四課測驗

實驗室：上下文工程師

🧪 實驗目標

注意力與 Transformer

第五課測驗

實驗室：注意力探索

🧪 實驗目標

代理人與工具使用

第六課測驗

實驗室：代理人設計師

🧪 實驗目標

多模態人工智慧

第七課測驗

實驗室：多模態思考

🧪 實驗目標

可解釋性：黑盒內部

第八課測驗

實驗室：黑盒探索

🧪 實驗目標

MODULE 7

模組總測驗

測驗完成