近期正夯的AI Agent（智慧型代理）到底是什麼？

記者／Linus

AI Agent（智慧型代理)熱潮，準確來說，從2023年3月開始。

那時候一個叫AutoGPT框架專案發布，專案利用大型語言模型，能自動把一個大任務拆分成小任務，並使用工具完成它們。這種技術，將大預言模型處理語言、創造內容，和邏輯推理的能力擴展到了應用場景裡，還加了感知和行動技術，所以，能從頭到尾解決一個簡單的問題。

緊接著，一年時間內，專案引起國外大公司、中國創業家、投資人極大關注，大家開始積極開發AI Agent的框架、平台或具體應用。外加上去年11月，OpenAI又推出一系列的GPTs，然後，中國境內才有不少公司才開始根據各自能力佈局應用層、平台層、開發層和運營層等方向，來增加下一波生態下的壁壘性。因此，人們才認為它是下一個重要細分發展方向。可是：任何產業都存在資訊差，我周圍有很多人，之前並沒有關注該賽道，爆發後才覺得有必要了解下，但現在市場上各種資訊氾濫，讓人眼花繚亂，就帶來不少困擾。他們不太清楚Agent是什麼？為什麼很重要，未來發展怎樣？藉此機會，分享一些訊息，希望讓大家初步了解這個概念。

到底什麼是AI agent？它是怎麼運作的呢？

先來看一個字：“agent”，中文意思是代理人。代理人，你可以理解成有人幫你去某件事。那麼AI agent是什麼？簡單來說，一個由AI技術加持的代理人，它變得更聰明了，可以感知周圍的環境，並且能夠獨立地思考和行動。

你有沒有用過對話式的大模型（LLM），像是：文心一言、Kimi Chat、或是智譜AI？ AI agent和對話式模型差別在於，你不用一直告訴它要做什麼，只要給它一個目標，就能想辦法自動幫你完成。

所以，大模型（LLM）要很多各種各樣的數據，數據幫助它，學習的和人一樣具備溝通、學習、思考和推理的能力。不過，它並不完美，時常出現一些奇怪的想法，或者受到環境影響；這時，就能用基於大模型開發的AI agent進一步細化問題。

舉個容易理解的例子：你用過小愛同學嗎？假如生病了，以前對它說：“我不舒服”，它只會告訴你去醫院看看，多注意防護。如果更聰明的AI agent，做法會不一樣。它能偵測你的體溫和其他健康指標，結合網路上的信息，分析後告訴你：你可能發燒了。「接下來，還能幫你自動寫好請假條。如果說：「幫我在釘釘上發給領導”，它立刻就能搞定。要是家裡布洛芬不夠了，它甚至可以把藥加入購物車，你確認後付款，很快藥就能送到家。這就是AI agent的聰明之處。

所以，它的工作原理主要有四部分：

感知
資訊處理
執行
輸出

感知是第一步。 AI透過感測器、攝影機、麥克風這些外部設備來感知周圍的世界。比如你說：“我不舒服”，這句話就能透過麥克風被捕捉到。

資訊處理，像是把一個通用的大模型和很多專業的知識庫結合起來。例如：健康數據和家裡的藥物存量，你告訴它這些訊息，它就能幫你保存並做出決策。

寫請假條、在線上購買藥品，這些都是系統根據它的決策來完成的具體工作。完成之後，系統會告訴你結果。

一個完整的智能體（Agent），好比人類和周圍環境互動的過程，它由兩部分組成：一部分是智能體自己，另一部分是它所在的環境。

智能體像生活在物理世界中的人類，而物理世界是它的外在環境，人類感知周圍的世界，理解環境中隱藏的信息，再結合自己的記憶、對世界的了解來做計劃、做決定和採取行動一樣；行動又會影響環境，產生新的回饋。

人類根據回饋再次做出決策，從而形成一個不斷循環的過程。你看，整個過程像不像馬克思主義的「實踐論」？有個目標後，從認識開始，實踐得出理論知識，再把知識應用回實踐中去。這就是，AI Agent神奇之處。

02‍

不過，由於大模型本身能力還在不斷發展中，智能體形態、應用場景也就更晚一些，所以，看似短短一年內，探索了多種實現智能體的方式，但大部分還處在概念驗證、產品展示階段，常見問題也相對明顯。

包括：專案文件不完整、重複使用效果不穩定、任務分割過細，導致成本過高，以及推理能力不夠，更主要的原因，還有跨平台能力如何解決等等。

我身邊愛寫作、閱讀的朋友們都有一個共同的習慣：

他們會收藏一些有用的信息。通常，資訊會被臨時記錄在備忘錄中。隨著時間往後推，記錄東西多了，管理起來就比較麻煩。前段時間，我琢磨能不能創造一個完整的流程，自動化處理，折騰半天，雖然搭建成功流程自動化，但實際使用起來的效果並不理想。

所以，許多平台廠商、研究機構、新創公司推出各種單一智能體、多組合智能體、以及機器人自動化（RPA）等框架項目，但從實際研究和產業回饋來看，還要迭代。不過，這個框架的整體思路，可以用一個公式來概括：

Agent = LLM（大型語言模型）+ Planning（規劃）+ Feedback（回饋）+ Tool use（工具使用）。

當我們做規劃時，不僅只看當前狀況，還會考慮記憶、過去的經驗，以前的反思和總結，還有對世界的了解也加入進來。而現在以ChatGPT和其他為首的中國大模型，更像一個固定不變的知識庫，它不能直接和環境互動，雖然它們可以進行邏輯推理、基本規劃，但不能感知週邊的一切，來進行自主反饋。

在我看來，智能體能透過各種方式獲得回饋。比如：如果我們把和對話的ChatGPT視為一個智能體，那麼，透過文字方塊輸入的回應就是給它的回饋，這種互動後，它能調整自己的回答，而不是一次次再教育。

還有，更進一步地，智能體可以使用外部工具來增強它的功能，解決更複雜的問題。例如：它可以用天氣API來取得天氣預報，如果沒有工具，智能體還能學習適應環境變化的策略，來應付挑戰。

所以，一個完整AI智能體應該要能夠主動和環境互動。而大型語言模型是它潛在能力的核心，未來發展方向，是創建一個從頭到尾的系統，這將依靠它有效地使用周圍的工具，來實現更廣泛的應用。

03‍

那麼，為什麼它很重要？我為什麼要深入理解呢？首先，AI智能體將會引領軟體產業進入一個新的時代，我們可以叫它「3D列印時代」。

3D列印技術普及時，人們很方便地3可以列印出各種「實體物品」。在所謂的“3D列印時代”，開發、客製化軟體將變得跟列印文件一樣簡單、快速。公司、個人想要什麼？都根據自己的需求，很快就找到解決方案。

一位名為Andrej Karpathy的科學家，他在特斯拉負責開發、優化自動駕駛技術。他在推特上說過，我們可以利用大數據、強大的運算能力來解決過去需要很多人力和時間的複雜問題。這也是為什麼那麼多人對AutoGPT感興趣的原因。

其次，AI智能體能減少軟體的生產成本。

你學過程式設計沒？以前編程，要寫大量臨時文件、測試方案，還要長期保存下來，以便不時之需；現在的編程，完全可以自動化製作，成本幾乎為零；這意味著，原來需要上千萬人才能完成的軟體任務，現在少量的人就可以搞定。

還有一點是，智能體靈活滿足各種需求。

以前，我在幾家C輪公司工作過，技術人員佔了一半，因為用戶很多、開發的東西也特別多。不只要做商城，還要做CRM系統，只有用很多人力才能提高效率。

現在情況不同，很多基礎的需求直接交給智能體處理。這就像，我們從大批量生產，轉變成了小批量快速反應的模式。

如果把大語言模型看作人類思考的“系統1”，即負責快速、直覺的思考，而AI智能體則類似於人類的“系統2”，負責慢速、分析性的深入思考。電腦專家，Andrej Karpathy曾提過：大模型可以快速產生回饋，但也容易產生誤判。 AI智能體目標是建立一個個小框架，讓LLM循序漸進的思考，反而更能做出可靠的決策。

我以前在網路上搜尋學術文章時，要分兩步驟篩選資訊：

首先，根據研究領域進行初步篩選；然後，根據第一次搜尋結果，進一步篩選出與我期望最相似的文章。這個過程通常要多次查詢和調整，耗時又麻煩；後來，情況大有改觀。

我用RPA後，它按照要求自動篩選，並在第一輪結果後精準查找，所以，這就像APP的推薦系統，你可以根據需要，定制自己的智能體。所以，基於大模型的Agent，改變了獲取資訊的方式，未來會有更多人有自己的Agent，幫它當合作夥伴，你可以想想，如果有個小助手，你會讓它做什麼？

04‍

那麼，AI Agent有什麼不同類型呢？

因為Agent技術還不是完全成熟，所以，Agent平台也在初期階段，現在一些比較固定的工作流程，或有詳細標準SOP的程序，都在封閉環境下進行。即便一些比較受歡迎的平台，它們在API生態系統，工作流程再組合上，還是不夠完善。我盤了一下，AI Agen平台大致有三類：

一類，面對公眾和非開發人員，基於知識庫和資料庫的簡單聊天機器人（Chatbot）；如“類GPTs”，它提供標準介面、流程。中國字節的釦子（Coze）、阿里的AI助理市場。

另一類，開發者的綜合開發平台：這類平台幫助開發者使用各種API、第三方函式庫和程式碼嵌入，進行Agent的流程調校。例如：Coze海外版、百度靈境矩陣全程式碼版，阿里、亞馬遜等提供模型託管，支援開發者開發應用程式。它們可以能解決複雜問題、有多個工作流程安排的複雜場景在裡面。

第三類是企業級開發平台：專門為企業工作流程製作的智慧化。例如：TARS-RPA-Agent、CubeAgent和Torq等。瀾碼科技的AskXbot平台，以及360的「大模型+企業知識庫+Agent」的解決方案。基於此框架下又能進行產業結構，應用場景再次劃分。

因為大家發展速度真的很快，所以，從實際情況來看，首先需要做的是：第一步，豐富通用和特定場景的工作流程。這意味著，要創造一些標準的流程，讓不同的情況下都能使用。第二步，深入學習並累積專業知識。這樣，第三步，平台能更好地重複使用現有的工作流程，也能更靈活地結合不同的工具。同時，也要探索適合的商業模式，這樣才能滿足AI時代的需求。簡單說，就是要搞清楚怎麼透過AI Agent賺錢，同時確保AI平台能持續進步，更好地服務大家，很重要。更直白一點說：

產品行銷圈，有一個很重要概念叫做PMF（Product-Market Fit，產品市場匹配度）。如果產品找到它的PMF，就找到了自己的市場立足點，開始有了使用者黏性。在AI大模型產品領域裡，大模型要找到自己的TPF（Technology Product Fit，技術產品匹配）。

技術發展比較快時，AI從業者，要從技術、產品和市場三個角度全面考慮，尋找一個中間值，三者，完美匹配的時，才是AI Agent解決具體需求，賺到前的高光時刻。我們不能總說技術厲害，而忽略市場是否需要。

前段時間，跟一個老闆溝通企業內部流程再造時，就提到該問題，他說：看似很多冗餘工作，AI Agent可以解決，但是，AI Agent解決前，總要先有人得先用好他。

舉個例子：服裝設計公司，面臨一個重大挑戰，批量生產服裝時，要設計和製作多個樣板，這個過程傳統上完全依賴人工；現在，AI智能體可以介入這一過程，但到底能處理到哪一步呢？精確度夠高嗎？這些都要進一步的探索、測試。

所以，中國Agent發展還未達到其真正潛力，大多只是些簡單的聊天機器人。缺乏反思、規劃、環境感知能力，而這些能力，剛好構成高階AI Agent的核心要素。

總結而言

AI Agent，進一步迭代工作流程。就我所知，目前市面有很多agent搭建工具，如果你想進一步了解這個賽道，親自試試，是最快的方法。

分享此新聞：