早在2024年初,人工智慧權威吳恩達(Andrew Ng)就曾將AI 代理(AI Agent)列為最值得關注的AI發展趨勢之一。經過一年多的時間,AI Agent從紙上理論轉為行銷熱詞,也開始在部分應用場景中落地。被《經濟學人》譽為2025年最大的科技突破之一、OpenAI也說Agent會是讓AI發揮現實影響力的關鍵所在,究竟AI Agent是什麼,為何備受討論?「AI代理工作流程」(AI agentic workflow)又是什麼?另外,雖然話題火熱,但Agent並未普及,挑戰又在哪裡?《遠見》一文帶你看。
AI Agent是什麼?
OpenAI產品長威爾高聲呼喊,2025年就是AI Agent元年;Google執行長皮蔡(Pichai)也表示,我們已經進入Agent時代(agentic era)。
他們口中的AI Agent,指的是有能力自主運作(autonomous)、不用人類介入的人工智慧系統。
只要人類下達指令(prompt),AI Agent可以感知環境情況,接著解讀指令內容,若指令本身複雜性高,Agent能夠拆解任務,制定計劃與行動方案,接著著手進行。
在任務完成後,Agnet可以分析執行過程中累積的資訊,進而調整行為模式,日後執行相似任務時,就有可以學習之處。
台灣普遍將AI Agent翻譯為「AI代理」或者「AI代理人」也時常直接用英文的Agent稱之;對岸則稱AI Agent為「AI智能體」。無論名稱,皆可看出AI Agent背後的智慧(intelligence),以及代表人類行動的角色(agent)。
不管是將產品與服務賣給消費者(2C),還是專注於企業(2B),開始出現不少高喊AI Agent應用的公司。到底,AI Agent的趨勢走到哪了?
AI Agent應該具備哪些能力?
市場上對於AI Agent究竟是什麼,都有各自說法,若將關注焦點從行銷話術,轉回基本定義,可參考前OpenAI研究科學家、曾經領導AI應用研究的Lilian Weng,在2023年年中所發表的文章。
她在文中深入探討,由大型語言模型(LLM)驅動的自主代理系統(Autonomous Agents)應該具備哪些能力。因為說理清晰、架構明確,讓本文得到廣泛關注,也成為許多企業與個人在開發AI Agent時,重要的參考座標。
需要補充的是,Lillian Weng已經不再替OpenAI工作,她和前OpenAI技術長穆拉提(Mira Murati)以及若干離開OpenAI者,共同創辦Thinking Machines。目前Thinking Machines官網除了成立宗旨以外,還沒有其他內容,但Lillian Weng已經預告,很快就有新消息。
就像人類一樣制訂計畫,還能利用工具做事
將重心轉回探討AI Agent的文章,Lillian Weng認為,AI Agent是以LLM為運算大腦,有著規劃能力(planning skills),還具備記憶力(memory),並且有辦法調用工具(tool use),因此能處理更廣泛的通用型問題(general problem)的AI。
對比過往只能應對專門領域的人工智慧,AI Agent的實力更為強大。
以任務規劃能力來說,AI Agent可以像人類發想計畫那樣制定步驟,運用「思維鏈」(Chain of Thoughts)與「思維樹」(Tree of Thoughts)等技術,將接收到的任務拆解成一連串子目標(subgoals),進而更有效率地管理、追蹤任務執行的進度。
在任務結束之後,AI Agent可以透過ReAct、Reflexion等反思機制,以及「事後反思鏈」(Chain of Hindsight)等架構,回顧與評估自身行動,藉此讓AI Agent從實際經驗中學習,避免重蹈覆轍,同時改善表現,提升行動品質。
鏈奇國際創辦人何建幟補充,他認為AI Agent應該具備三種基本能力:感知、思考與行動。
AI Agent 之所以能夠自主運作,關鍵在於它具備感知世界的能力,也就是能即時掌握外部環境的變化與資訊,理解自己所處的位置與情境。接著,透過思考能力,AI Agent可以根據蒐集到的資訊制定計畫,提升決策的精準度與有效性。
當計畫形成後,AI Agent不能只是坐而言,唯有起身行動,才能替人類代勞。把思考轉化為具體執行的行動能力,是讓任務真正實現的關鍵。這三大能力相輔相成,構成AI Agent完整運作框架。
如果說在Lillian Weng撰寫文章的2023年,AI Agent還停留在概念,那麼快轉至2025年,Agent已經成為現實。
舉例來說,OpenAI在2025年3月,宣布推出替開發者與企業設計的AI Agent開發工具,協助用戶打造能自主執行任務的智慧系統。
在直播影片中,OpenAI產品長威爾介紹,更新內容包含將Response API(Application Program Interface,應用程式介面)升級、提供新工具加值API以及方便打造Agent的SDK(Software Development Kit,軟體開發套件)。
OpenAI先前就已經推出Response API,這次重點在於加進Agent必備的工具使用功能,內建搜尋網路(web search)、尋找檔案(file search)以及電腦使用(computer use)等工具。
替AI對話引擎加上搜尋網路功能,已經成為起手式;而尋找檔案,讓AI更接近人們使用電腦的情形,OpenAI表示新增篩選元資料(metadata)的功能,未來找私有資料更為方便;電腦使用則是Anthropic、Google都在努力的新戰場,讓模型直接讀懂GUI(Graphic User Interface,圖形使用者介面),增加更多應用場景。
至於Agent SDK,則方便使用者管理Agent、促進Agent之間協作。
OpenAI強調,正是因為過去一年來模型不斷升級,例如增加進階推理能力,多模態互動能力也在提升,讓新工具的出現成為可能。
威爾興奮地說,OpenAI將持續打造更強大的模型,帶來更聰明、更實用的工具,幫助大家開發出更優秀的AI Agent。「2025 年將會是『代理人元年』—ChatGPT 和我們的開發者工具不再只是回答問題,而是真正能在現實世界中『為你完成事情』。」
AI Agent 能夠主動提問,且達到個人化
除了以「能力」定義AI Agent以外,也能夠從「特性」面向,觀察AI Agent的特色。
2024年,與團隊成員一同開發聯發科生成式AI平台「達哥」(DaVinci),聯發科技人工智慧暨數據工程處副處長楊建洲接受《遠見》採訪時表示,AI Agent應該具備個人化(personalization)、主動性(pro-active)、互動適應性(adaptive interaction)、自主學習(learning)以及任務管理(task management)等能力。
對比ChatGPT,AI Agent會主動發起對話,向使用者提出問題;又因為有能力在互動中學習使用者的偏好、習慣,因此體驗上更加親近,做出的決策也更符合個人需求;應對未知情況時,AI Agent有辦法自動生成計畫,並且實際執行。總結來說,AI Agent能夠接受任務、調整任務、執行任務再到回報任務,在他眼裡這才算合格。
楊建洲也補充,當使用者配備AI Agent,將能「Fire and Forget」,也就是人類下指令、分配任務給AI以後,就能上床睡覺,或者回頭專注在其他任務上,不用將時間和精力消耗在與聊天機器人的對話裡面,真正解放認知資源,將工作放心外包給AI。
AI Agent與AI Model(模型)有何不同?
AI Model與AI Agent對比 | ||
---|---|---|
項目 | 模型 | Agent |
知識 | 知識有截止日期(cutoff date),僅具備訓練資料中的知識。 | 可以利用外部搜尋工具,擴展知識的範圍。 |
脈絡 | 以單次查詢回應為主,除非在指令中特別提醒,否則無法「想起」先前對話內容。 | 能夠記錄並管理多輪對話的歷史,因此對話時較能掌握脈絡。 |
工具 | 無法調用工具。 | 能夠調用工具。 |
推理 | 使用者僅能盡量利用提示工程(prompt engineering)技巧引導。 | 可以調用ReAct等推理框架。 |
資料來源:受訪者、Google 2025年AI Agent白皮書。整理:曾子軒。2025/01更新。 |
AI Agent為何興起?
2023年底,比爾蓋茲便預言,AI Agent能夠幫助使用者完成「所有活動」,在理解人類使用的自然語言之餘,更因為具備對使用者的理解,可以個人化地完成任務。他認為AI Agent不只會改變人機互動的方式,更會就此顛覆軟體產業。
雖然比爾蓋茲自陳,早在1995年撰寫的《擁抱未來》(The Road Ahead)一書中,便已提過AI Agent的概念,但直到近來AI研究出現進展,AI Agent才不再是狂想、變得更加實際。
改變的分歧點,正是因為大語言模型有能力扮演腦袋,同時在物理世界和數位世界中發揮影響力。過往,善於生成內容的LLM,看起來宛若「思想的巨人、行動的侏儒」,即便2023年BabyAGI和AutoGPT等專案興起,史丹佛大學和Google研究人員也曾打造出AI小鎮,但AI Agent仍舊是未竟之夢。
DeepLearning.AI工程經理陳奎翰認為,記憶力提升是LLM從對話進化到AI Agent的因素之一。在GPT-3.5時代,LLM能夠吸收的上下文長度(context window)大約還在數千(k)等級,GPT-4提升到以萬(10k)計算,近期出的Claude 3、Gemini 1.5 Pro則暴漲至百萬(M),同時有研究論文以千萬(10M)計算。
「先列出一些範例,告訴它(LLM)你的任務如果是這樣,可以把它拆解。」陳奎翰的說法,其實和過往指令工程(prompt engineering)中,建議使用者多提供幾個範例(few-shot example)的做法相似。
然而,量變帶來質變,隨著LLM能夠記起的內容變得更多,AI Agent的開發者便可以準備更加詳盡的例子讓LLM參照。有記憶力加持,面對陌生情況有足夠的範例可以看,「它會有樣學樣,把收到的任務做拆解,」這也是AI Agent規劃技巧進步的原因之一。
另外,AI Agent具備反思能力,能夠「從做中學」,一般做法是在原先行動的LLM角色以外,增加負責觀察並提供回饋的LLM角色,或者直接評估,又或者引入外部資訊檢查,讓它能夠審視LLM採取的行動,藉此改進。
陳奎翰補充,除了讓LLM自評行為以外,人類也能夠在LLM行動中間介入。例如在搜尋網站時,LLM研究員列出A、B、C和D四個連結,人類可以在檢查後,告訴LLM應該排除D連結,它便能藉此改進行為,這就是「人類在迴路當中」(human-in-the-loop)的展現。
至於使用工具,則是讓LLM從二維的對話,上升到三維採取行動的關鍵。陳奎翰解釋,當LLM接上網頁搜尋或者其他API等工具,將產生兩大變化,第一是讓LLM補充知識截止點(cutoff)以後的新資訊,第二則是讓它有辦法利用特別格式的文字信號連結外界。
掌握這些能力以後,LLM從單純產生符元(token)的思想家,變身成大步逛街的行動者。因此標誌出AI Agent實現的開始。
AI Agent調用工具有哪些用途?
AI Agent的工具使用功能可以做哪些事? | |||
---|---|---|---|
項目 | 調用API | 函數 | 資料 |
目的 | 使用他人已經開發好的第三方服務或者取用資料。 | 處理開發者自訂的複雜計算,或者企業內部業務邏輯。 | 檢索(模型)外部資料,藉此得到更精準與即時的資訊。 |
注意事項 | 確保API訪問權限與速率限制。若AI Agent調用太多API,可能因為回應延遲影響使用者體驗,甚至因為過度依賴外部API增加風險。 | 考慮函數執行的效率、順序與容錯能力,確保每個函數的輸出可正確被後續步驟使用,並妥善處理異常情況。 | 資料需經預先處理與索引,確保結構化數據的準確性;對非結構化資料需增加解析效率並保障隱私。 |
實例 | - 調用地圖API獲取位置 - 調用翻譯API進行語言轉換 - 調用支付API完成交易 | - 驗證用戶輸入後進行條件計算 - 在一個函數中轉換資料格式後傳遞給下個函數處理 - 人工審查後大量生成報表 | - 從PDF中抽取簽約者的個人資料 - 從關聯資料庫中檢索銷售情況 - 抓取HTML文件中特定標籤的內容 |
資料來源:受訪者。整理:曾子軒。2025/01更新。 |
AI Agent擅長解決什麼問題?
從LLM興起之際,便開始出現RPA是否會被AI Agent取代的討論。對此,橡子園太平洋基金合夥人吳德威用「哲學上的矛盾」形容。他解釋,不管是辦公室或者工廠自動化,都是想省去人力,讓機器自行根據固定模式的命令行動,但生成式AI反倒帶來創造力,讓重視可控性、因而購買RPA的客戶難以信任。
當然,AI Agent有其特色,也就是善於處理非結構化的問題(unstructured probelm)。吳德威表示,在AI時代下,當AI助理回答使用者提問時,再也不需要事先準備題庫,便可以給予正確答案,甚至還能夠與使用者聊天,或者執行播放歌曲等行動。「它不能太限制於structured problem,因為處理(結構化問題)說真的,就不需要AI。」
因此,他認為訂票這類高度結構化的問題,沒必要用到AI Agent,「那是把選擇題複雜化,」只是從應用程式中供使用者選擇的框框(option box),轉移到用聲音解決。吳德威認為,AI Agent較適合的場景會從旅宿產業開始,例如入住旅館後,客人若是遇到問題會打電話向櫃檯人員求助,現在則可以向AI Agent提問。客人提的問題並不是結構化問題,但又會限縮在一定的範圍之內,這正是AI Agent派上用場的好時機。
另外,當任務複雜度提升,吳德威表示,AI Agent就會開始很難處理。「傳統的IT術語叫做configuration(配置)很多,因為決策難點太大。」他解釋,有看到想做AI秘書的新產品,但以他個人來說,因為身兼創投、顧問等多重身份,AI秘書無法協調他的行程;再以訂餐為例,現有成熟工具同樣是把複雜決策變得簡單,提供清楚選項讓人挑選,若重新用AI Agent處理,同樣是從選擇題變成問答題了。
旗下產品包含面向企業的AI Agent,何建幟對於Agent適合處理的任務很有感觸。他指出,當企業與個人知道自己明確要什麼時,自然不用Agent上場;但如果需求還不明確,或者要完成的任務具有不確定性時,就有Agent出面的空間。
正因為擁有推理能力,又能夠動態產出計畫、使用工具,何建幟表示,AI Agent不只能夠對應非結構化的資料,更可以近一步處理非結構化的問題。
AI Agent有什麼應用?
當AI Agent落地時,可以分成對企業與對消費者兩種,但嚴格說來,AI Agent的應用並沒有太多限制。
陳奎翰舉例,若要請AI Agent撰寫研究報告,能夠創造出資料搜集者、資料整理者和報告撰寫者三種角色,每個角色各有專長、各司其職,例如資料搜集者可以搜尋網頁,資料整理者則知道如何以指標判斷論文好壞,報告撰寫者熟悉使用者偏好體例,集合三種角色的優勢,藉此產出品質優異的報告。
研究只是一例,從此延伸,AI Agent既能夠替白領員工分憂解勞,例如協助財務處理帳務,或者替採購詢價;也可以在日常中規劃旅遊,並完成訂餐與訂票等任務。
以面向企業(2B)來說,客服是此刻最常見也最成熟的AI Agent應用領域。無論是Google Cloud或者AWS,介紹AI Agent服務時,同樣都以客服為實例,有些是讓AI Agent退居幕後,當客服人員回答客人問題時遇上困難,可以快速詢問AI Agent,有些則是直接讓AI Agent上場回答問題。
以面向個人(2C)來說,最能讓人理解、也最好想像的AI Agent,就是《鋼鐵人》的人工智慧管家Jarvis,這類AI助理,是目前效益最為明顯的生活化應用,相似案例有Apple的Apple Intelligence,以及Google的Project Astra。
事實上,先前曾一度引發關注的AI Pin,也是AI Agent化身為硬體的展現,但因為回答等候時間過長、耗電量大、無法有效採取行動等限制,讓AI Pin走向失敗道路;但可以預想,當人手一支的手機搭載的AI Agent更具智慧,會讓消費者更有意願下單。
AI Agent有哪些挑戰?
若從LLM的能力和特性出發,其善於生成內容的能力,反倒成為AI Agent應用遇上障礙的根源。
理想的AI Agent面臨未知問題時,應該都能夠游刃有餘地拆解,根據已知資訊擘畫出完整的行動藍圖。然而,本該被視作賜福的推理能力,反而成為注重穩定的企業在導入AI Agent時遇上的痛點。
《經濟學人》在2024年底預期2025年的AI趨勢時,便曾指出發展AI Agent上,至少有因為推理導致成本推升、因為在現實世界產生後果牽涉到信任、因為執行任務的資料遠遠少於對話等挑戰。
《遠見》2024年中實際採訪時,受訪者也紛紛表達AI Agent潛在的問題。
AI Agent挑戰 - 不可預測性
專攻金融法遵的新創Parcha曾以「Agents aren’t all you need」為題,指出AI Agent應用上的問題,其中有個段落令人深思:「如果AI Agent自主執行由10個任務組成的工作流程,但每個任務的錯誤率為10%,整個工作流程的複合錯誤率為 65%。」
雖然只是簡單的伯努利分布和冪次運算,但有數字支撐的論述清楚易懂。Parcha的進一步解釋,AI Agent處理問題時,每次都會有彈性、有創意地重新提出計畫,但這帶來幾個問題:不可預測性、高度相互依賴、效能瓶頸以及難以評估與改善。
楊建洲也分享,要賦予AI Agent多少彈性和自由度,是他所在團隊內部也在討論的事情。「在AGI(通用人工智慧)的世界還沒有來臨之前,大家都會想要用AutoGen這種free-run(自由運行)的方式。」
楊建洲所說的AutoGen,由微軟、賓州大學和華盛頓大學攜手開發出,是一種讓多位Agent彼此交流,以此解決任務的框架,開發者能夠利用AutoGen打造大語言模型應用。市場上熱門的LLM應用開發框架LangChain、LlamaIndex,也陸續推出支援使用者打造Agent的功能和語法。
除了AutoGen以外,楊建洲補充,吳恩達曾多次介紹的crewAI,也是讓一位Agent扮演指揮官角色,推動其他Agent協作,「像個團隊、像天龍特攻隊(A-team)一樣彼此協作、完成任務,大家在想像那個世界。」
不過,就現有技術發展來說,要讓Agent彼此緊密合作並非易事,因此以達哥團隊來說,會預先定義好「Agentic Workflow」(代理工作流程),讓AI Agent能夠知道自己要執行哪些任務。
楊建洲以日本旅遊為例,事先定好的重要行動就是訂機票、訂飯店和租車 ,「我們會把流程(flow)定義好,一定就只做這三件事。」至於AI Agent的推理與反思等能力,則可以用在個人化上,例如使用者荷包很厚,就能訂價位較高的機票。
「這個pre-defined的流程,它會回歸到我們剛才講機器人流程自動化(RPA),但是每一個節點上,卻又具有GenAI的能力,每個點都去做一個決策,但不用真的從零很自由的發想。」先設計好流程,就好像替AI Agent繪製地圖一樣,既不會出現超出範圍、神來一筆的行動,又能夠保有彈性,讓Agent在規定的空間內發揮其自主能力。
AI Agent挑戰 - 出錯與信任
除了推理與規劃能力不足,尚且無法真正做到「從零到一」的解決問題以外,當AI Agent對外時產生錯誤,容易替企業帶來傷害。
吳德威表示,現在AI Agent的發展,有如Google Map問世的第一年,「還是會很容易找錯路。」近期Google推出、以生成式AI提供使用者搜尋解答的AI概覽,就遇到生成的內容有誤、不符事實的問題,例如建議使用者用膠水讓起司可以黏住披薩,或者指稱地質學家表示人們每天都可以吃一塊石頭。
「Google可以受這樣的傷害,但是品牌沒辦法受這樣的傷害。」吳德威強調,只要是認真打造品牌的企業,做法上一定較為保守。當AI Agent直接面對客戶時,即便有能力自由對話,但目前還是會加上人工檢查,例如,內建於電信商應用程式的客服Agent,若是根據封裝知識,反倒向使用者推薦競品,只要出錯一次,就會影響品牌客戶的信任感。
陳卓翰的想法與吳德威類似。他舉例,當AI Agent應使用者需求,前去電商網站下單,人們也會憂心,當Agent做出決策後,準備要刷卡時,自己到底是否能夠相信它的決策,「還是要人去決定,這會有信任問題。」。
AI Agent挑戰 - 行動上的障礙
AI Agent在數位世界行動時,可行作法包含直接走官方通道,也就是接上其他服務的API;或者模擬人類作法,撰寫腳本完成任務。前者的挑戰在於可能撞上企業生態系的壁壘,例如電商平台不願開放API給購物Agent,後者的限制則在於費時。
舉例來說,購物Agent能夠自行到電商平台上比價,並根據使用者預算挑出合適品項。楊建洲表示,可以預想電商可能不願意開放API給使用者的Agent,因為只有真人消費者會有衝動購物、被折扣誘惑的行為。
不過,他並不擔心這個問題,因為他預期未來使用者與服務之間,都會使用AI Agent互動。目前,「達哥」團隊已在著手進行Agent與真人的互動,例如讓Agent打電話訂餐,接下來則會出現Agent之間自行溝通。
「秘書最痛苦的就是協調多個主管的會議時間,但秘書可以請代理人,也就是達哥,去跟每一個主管的代理人直接溝通,討論會議時間後約會議室、寄出邀請和開會議程,中間都沒有人介入。」
AI Agentic Workflow是什麼?
吳恩達在2024年6月撰文指出,如果說向LLM下命令、取得回覆的單次互動(one-shot)明顯不是Agent,能夠規劃、使用工具並多次迭代改進的明顯就是Agent,兩者間存在著灰色地帶。
因此,比起二元地決定什麼是Agent、什麼不是Agent,他更傾向於使用形容詞「Agentic」,用以衡量AI系統貼近Agent的程度。他也補充,就他觀察,會使用Agentic的主要都是技術人員,因此當他看到文章討論「Agentic」的工作流程時,更有可能點開閱讀,「因為它(文章)比較不會是行銷噱頭,而是懂得技術的人所寫。」
其實,不管是Agent或者Agentic,同樣是用來描述Agent的方式。談論AI Agent時,人們會用AI Agent應該具有的能力試圖定義它,不過,其實我們也能用完成任務的流程介紹AI Agent。
上述提到的種種能力,如分拆指令、規劃、使用工具等,其實就是AI Agent接受人類指派工作後,起身行動的過程。因此,才會有將重點放在如何設計出AI Agent的AI工程師或者AI領域的從業人員,使用「AI代理工作流程」(AI Agentic Workflow)一詞談論AI Agent。
AI Agent的未來?是泡沫嗎?
儘管 AI Agent已成為當前科技論壇的熱門話題,幾乎人人都能聊上一句,但它的實際應用仍處於初步階段,距離真正大規模落地還有一段路要走。
觀察現有市場產品,知名度最為響亮的的OpenAI、Google和Anthropic,各自都在替產品加進Agent功能;相對新的Genspark、Manus近期也以Agent能力為賣點。
不管是將Agent的能力應用在撰寫研究計劃、寫文章或者規劃行程,AI產品的供應商們,正在逐步替Agent加強各項能力,例如推理模型的進展,有望提升規劃能力,加長、加深的上下文則可以增進記憶力,而調用工具,更是各家產品競爭的重要戰場。
雖然幾種能力都在進步,但短期來看,Agent還是不夠聰明。2025年1月,前Google台灣董事總經理簡立峰便表示,目前Agent的主要瓶頸在於規劃與推理能力仍有不足,若核心能力無法顯著突破,AI Agent要真正實現全面應用,恐怕還得再等待一段時間。
當然,不是沒有好消息。吳恩達在2025年3月訪台時,向媒體分享,AI Agent在一些迭代性的工作流程上,確實已經展現出效果,例如醫療診斷、審核法律文件等領域,就有成功案例。「我認為它(Agent)不只是個概念,而是正在逐步落地的創新方向。」
黃仁勳在資訊服務軟體商ServiceNow年會的演講中,分享趨勢時,也提到AI Agent的過去、現在與未來。
「現今大多數的AI都是一次性的(one-shot)。你給它一個提示,它會立即生成建議。未來的AI將是多次互動(multi-shot),並成為基於推理的系統,就像我們(人類)在各種複雜情境之下做出計劃一樣,它將自行規劃,⋯⋯擁有多步推理的人工智慧即將到來,這些AI將愈來愈多地用於代理應用(agentic use)。」
黃仁勳表示,現在已經見到能夠使用工具、調取個人化資訊的AI,能力益發提升,「AI像我們公司的員工一樣在其中一起工作,⋯⋯我們將擁有顧問人工智慧,專業人工智慧,和通才人工智慧。」
可以期待,我們將會看到AI Agent跟人互動、彼此之間互動的那一天來臨。