03. 智能體的解剖學:如何製造一個數位泥人?
傳說中的泥人:最早的「編程」嘗試
在 16 世紀的布拉格傳說中,猶太拉比(Rabbi)用河邊的泥土捏成了一個巨大的傀儡——泥人 (Golem)。
泥人本身沒有靈魂,也不懂思考。但拉比在它的嘴裡放一張寫有希伯來語神聖咒語(Shem)的紙條,它就會突然睜開眼睛,聽從命令去挑水、劈柴、甚至保護社區。如果你把紙條抽出來,它就瞬間變回一堆死土。
這其實是人類歷史上最早關於「代理 (Agent)」的構想:一個沒有自主意識,但能嚴格執行指令的實體。
2026 年的 AI Agent,其本質與泥人驚人地相似。如果我們要「解剖」一個現代智能體,你會發現它由三個精密的部分組成:大腦、筆記本、與雙手。
1. 大腦:大語言模型 (LLM) 與「概率鸚鵡」
泥人的大腦是拉比寫的紙條,而智能體的大腦就是 大語言模型 (LLM)。你熟悉的 GPT-4、Claude 3.5 或 DeepSeek 都在扮演這個角色。
但你需要理解這個大腦的運作原理,才能明白它為什麼有時會犯蠢。
為什麼 AI 會產生幻覺?
想像一下我們在玩一個「成語接龍」的遊戲。我說「一馬當」,你大概率會接「先」。如果我說「掩耳盜」,你大概率會接「鈴」。
LLM 的本質,就是一個超級複雜的「成語接龍」機器。它並不理解什麼是「真理」,它只理解機率。當你問它一個問題時,它其實是在計算:「在人類歷史上所有的文本中,這幾個字後面最可能緊跟的字是什麼?」
這就解釋了所謂的**「幻覺」 (Hallucination)**: 當你問它:「林黛玉是怎麼倒拔垂楊柳的?」
- 它的大腦裡沒有這個事實。
- 但它的機率模型告訴它:「倒拔垂楊柳」這個詞後面,通常跟著「魯智深」或者具體的動作描寫。
- 於是,它會一本正經地編造一段林黛玉在健身房練舉重的故事。因為它不是在「回憶」,它是在「預測」。
為了讓這個大概率瞎編的大腦變靠譜,我們需要第二個組件。
2. 筆記本:上下文記憶 (Context & RAG)
泥人通常很笨,它執行完一個任務可能就忘了。為了讓智能體變聰明,我們需要給它一個**「筆記本」**。
閉卷考試 vs 開卷考試
單獨使用 ChatGPT,就像是讓一個學生參加閉卷考試。
- 他只能靠腦子裡的存貨(訓練數據)。如果他忘了,或者書上沒寫(比如你們公司的內部規定),他就只能瞎編。
而 RAG (檢索增強生成) 技術,就是讓這個學生參加開卷考試。
- 當智能體收到問題時,它不會急著回答。
- 它會先轉身,在一個外掛的「知識庫」(比如你公司的 PDF 文檔庫)裡翻書。
- 它找到了相關的段落,把內容抄在「筆記本」上。
- 最後,它看著筆記本回答你的問題:「根據公司手冊第 3 頁,報銷需要主管簽字。」
這就是為什麼現在的智能體能夠處理你的私人任務:因為它看過了你的筆記本,而不僅僅是依靠它那個充滿幻覺的大腦。
3. 雙手:工具與 MCP (Tools)
這是讓 AI 變成智能體的關鍵:讓它長出手。
以前,你問 AI:「幫我查查我的銀行餘額。」 AI 只能無奈地說:「臣妾做不到啊,我沒聯網。」
現在的智能體擁有一條**「多功能工具帶」**。當它意識到它需要查餘額時,它會自主調用銀行的 API 接口。
MCP:機器人的通用插頭
這裡有一個很酷的新概念:MCP (Model Context Protocol)。
以前,給智能體裝工具很麻煩。你想讓它連 Google Drive,需要寫一套程式碼;想連 Slack,又要寫一套程式碼。就像出國旅行要帶一堆不同的插頭轉換器。
MCP 就像是發明了 Type-C 接口。
- 只要你的軟體(GitHub, Google, Notion)支援 MCP 標準,智能體就能直接插上去讀取數據、發送指令。
- 這意味著,未來的智能體可以隨意穿梭在你所有的 APP 之間,成為一個真正的「數位管家」。
4. 紙上實驗:手動構建一個智能體
為了徹底理解智能體是怎麼工作的,我們來玩一個思維遊戲。不需要寫程式碼,我們用紙和筆來模擬一個 「旅行規劃智能體」 的思考過程。
任務:用戶說「幫我訂一張明天去上海的便宜機票」。
智能體的大腦裡會運行一個叫 ReAct (Reason + Act) 的循環:
第一輪循環
- 思考 (Thought):用戶想去上海,時間是明天。我需要知道「明天」具體是幾月幾號,以及現在的機票價格。但我不知道今天的日期。
- 行動 (Action):調用工具
Get_Current_Date()。 - 觀察 (Observation):工具返回
2026-02-07。
第二輪循環
- 思考 (Thought):今天是 2 月 7 號,那明天就是 2 月 8 號。現在我要查從「用戶所在地」去上海的票。等等,我不知道用戶在哪裡。
- 行動 (Action):調用工具
Get_User_Location()。 - 觀察 (Observation):工具返回
Beijing。
第三輪循環
- 思考 (Thought):已知:北京 -> 上海,時間:2026-02-08。策略:找便宜的。
- 行動 (Action):調用工具
Search_Flights(from="Beijing", to="Shanghai", date="2026-02-08", sort="price_asc")。 - 觀察 (Observation):工具返回列表:
[早晨 6 點: ¥400, 下午 2 點: ¥1200...]。
第四輪循環
- 思考 (Thought):查到了。最便宜的是早晨 6 點的 ¥400,但太早了用戶可能起不來;其次是晚上 10 點的 ¥450。我應該把這兩個選項都告訴用戶。
- 最終回答 (Final Answer):幫你查到了,明天最便宜的機票是晚上 10 點的,價格 450 元。早晨 6 點有更便宜的(400 元),但太早了,你需要訂這個嗎?
小結:獲得感時間
這就是一個智能體的「心理活動」。它不是魔法,它只是一個不斷碎碎唸、不斷查資料、不斷修正計劃的勤奮員工。
- 大腦 (LLM):負責碎碎唸(規劃與推理)。
- 筆記本 (RAG):負責翻書(獲取知識)。
- 雙手 (MCP):負責幹活(操作軟體)。
在下一章中,我們將走出實驗室,看看這些「數位泥人」是如何在具體的職業場景中(編程、研究、法律)掀起一場「端到端」的革命。
