近期正夯的AI Agent(智慧型代理)到底是什麼?

記者/Linus Shih

AI Agent(智慧型代理)熱潮,準確來說,從2023年3月開始。

那時候一個叫AutoGPT框架專案發布,專案利用大型語言模型,能自動把一個大任務拆分成小任務,並使用工具完成它們。這種技術,將大預言模型處理語言、創造內容,和邏輯推理的能力擴展到了應用場景裡,還加了感知和行動技術,所以,能從頭到尾解決一個簡單的問題。

緊接著,一年時間內,專案引起國外大公司、中國創業家、投資人極大關注,大家開始積極開發AI Agent的框架、平台或具體應用。外加上去年11月,OpenAI又推出一系列的GPTs,然後,中國境內才有不少公司才開始根據各自能力佈局應用層、平台層、開發層和運營層等方向,來增加下一波生態下的壁壘性。因此,人們才認為它是下一個重要細分發展方向。可是:任何產業都存在資訊差,我周圍有很多人,之前並沒有關注該賽道,爆發後才覺得有必要了解下,但現在市場上各種資訊氾濫,讓人眼花繚亂,就帶來不少困擾。他們不太清楚Agent是什麼?為什麼很重要,未來發展怎樣?藉此機會,分享一些訊息,希望讓大家初步了解這個概念。

01

到底什麼是AI agent?它是怎麼運作的呢?

先來看一個字:“agent”,中文意思是代理人。代理人,你可以理解成有人幫你去某件事。那麼AI agent是什麼?簡單來說,一個由AI技術加持的代理人,它變得更聰明了,可以感知周圍的環境,並且能夠獨立地思考和行動。

你有沒有用過對話式的大模型(LLM),像是:文心一言、Kimi Chat、或是智譜AI? AI agent和對話式模型差別在於,你不用一直告訴它要做什麼,只要給它一個目標,就能想辦法自動幫你完成。

所以,大模型(LLM)要很多各種各樣的數據,數據幫助它,學習的和人一樣具備溝通、學習、思考和推理的能力。不過,它並不完美,時常出現一些奇怪的想法,或者受到環境影響;這時,就能用基於大模型開發的AI agent進一步細化問題。

舉個容易理解的例子:你用過小愛同學嗎?假如生病了,以前對它說:“我不舒服”,它只會告訴你去醫院看看,多注意防護。如果更聰明的AI agent,做法會不一樣。它能偵測你的體溫和其他健康指標,結合網路上的信息,分析後告訴你:你可能發燒了。 「接下來,還能幫你自動寫好請假條。如果說:「幫我在釘釘上發給領導”,它立刻就能搞定。要是家裡布洛芬不夠了,它甚至可以把藥加入購物車,你確認後付款,很快藥就能送到家。這就是AI agent的聰明之處。

所以,它的工作原理主要有四部分:

  • 感知
  • 資訊處理
  • 執行
  • 輸出

感知是第一步。 AI透過感測器、攝影機、麥克風這些外部設備來感知周圍的世界。比如你說:“我不舒服”,這句話就能透過麥克風被捕捉到。

資訊處理,像是把一個通用的大模型和很多專業的知識庫結合起來。例如:健康數據和家裡的藥物存量,你告訴它這些訊息,它就能幫你保存並做出決策。

寫請假條、在線上購買藥品,這些都是系統根據它的決策來完成的具體工作。完成之後,系統會告訴你結果。

一個完整的智能體(Agent),好比人類和周圍環境互動的過程,它由兩部分組成:一部分是智能體自己,另一部分是它所在的環境。

智能體像生活在物理世界中的人類,而物理世界是它的外在環境,人類感知周圍的世界,理解環境中隱藏的信息,再結合自己的記憶、對世界的了解來做計劃、做決定和採取行動一樣;行動又會影響環境,產生新的回饋。

人類根據回饋再次做出決策,從而形成一個不斷循環的過程。你看,整個過程像不像馬克思主義的「實踐論」?有個目標後,從認識開始,實踐得出理論知識,再把知識應用回實踐中去。這就是,AI Agent神奇之處。

02‍

不過,由於大模型本身能力還在不斷發展中,智能體形態、應用場景也就更晚一些,所以,看似短短一年內,探索了多種實現智能體的方式,但大部分還處在概念驗證、產品展示階段,常見問題也相對明顯。

包括:專案文件不完整、重複使用效果不穩定、任務分割過細,導致成本過高,以及推理能力不夠,更主要的原因,還有跨平台能力如何解決等等。

我身邊愛寫作、閱讀的朋友們都有一個共同的習慣:

他們會收藏一些有用的信息。通常,資訊會被臨時記錄在備忘錄中。隨著時間往後推,記錄東西多了,管理起來就比較麻煩。前段時間,我琢磨能不能創造一個完整的流程,自動化處理,折騰半天,雖然搭建成功流程自動化,但實際使用起來的效果並不理想。

所以,許多平台廠商、研究機構、新創公司推出各種單一智能體、多組合智能體、以及機器人自動化(RPA)等框架項目,但從實際研究和產業回饋來看,還要迭代。不過,這個框架的整體思路,可以用一個公式來概括:

Agent = LLM(大型語言模型)+ Planning(規劃)+ Feedback(回饋)+ Tool use(工具使用)。

當我們做規劃時,不僅只看當前狀況,還會考慮記憶、過去的經驗,以前的反思和總結,還有對世界的了解也加入進來。而現在以ChatGPT和其他為首的中國大模型,更像一個固定不變的知識庫,它不能直接和環境互動,雖然它們可以進行邏輯推理、基本規劃,但不能感知週邊的一切,來進行自主反饋。

在我看來,智能體能透過各種方式獲得回饋。比如:如果我們把和對話的ChatGPT視為一個智能體,那麼,透過文字方塊輸入的回應就是給它的回饋,這種互動後,它能調整自己的回答,而不是一次次再教育。

還有,更進一步地,智能體可以使用外部工具來增強它的功能,解決更複雜的問題。例如:它可以用天氣API來取得天氣預報,如果沒有工具,智能體還能學習適應環境變化的策略,來應付挑戰。

所以,一個完整AI智能體應該要能夠主動和環境互動。而大型語言模型是它潛在能力的核心,未來發展方向,是創建一個從頭到尾的系統,這將依靠它有效地使用周圍的工具,來實現更廣泛的應用。

03‍

那麼,為什麼它很重要?我為什麼要深入理解呢?首先,AI智能體將會引領軟體產業進入一個新的時代,我們可以叫它「3D列印時代」。

3D列印技術普及時,人們很方便地3可以列印出各種「實體物品」。在所謂的“3D列印時代”,開發、客製化軟體將變得跟列印文件一樣簡單、快速。公司、個人想要什麼?都根據自己的需求,很快就找到解決方案。

一位名為Andrej Karpathy的科學家,他在特斯拉負責開發、優化自動駕駛技術。他在推特上說過,我們可以利用大數據、強大的運算能力來解決過去需要很多人力和時間的複雜問題。這也是為什麼那麼多人對AutoGPT感興趣的原因。

其次,AI智能體能減少軟體的生產成本。

你學過程式設計沒?以前編程,要寫大量臨時文件、測試方案,還要長期保存下來,以便不時之需;現在的編程,完全可以自動化製作,成本幾乎為零;這意味著,原來需要上千萬人才能完成的軟體任務,現在少量的人就可以搞定。

還有一點是,智能體靈活滿足各種需求。

以前,我在幾家C輪公司工作過,技術人員佔了一半,因為用戶很多、開發的東西也特別多。不只要做商城,還要做CRM系統,只有用很多人力才能提高效率。

現在情況不同,很多基礎的需求直接交給智能體處理。這就像,我們從大批量生產,轉變成了小批量快速反應的模式。

如果把大語言模型看作人類思考的“系統1”,即負責快速、直覺的思考,而AI智能體則類似於人類的“系統2”,負責慢速、分析性的深入思考。電腦專家,Andrej Karpathy曾提過:大模型可以快速產生回饋,但也容易產生誤判。 AI智能體目標是建立一個個小框架,讓LLM循序漸進的思考,反而更能做出可靠的決策。

我以前在網路上搜尋學術文章時,要分兩步驟篩選資訊:

首先,根據研究領域進行初步篩選;然後,根據第一次搜尋結果,進一步篩選出與我期望最相似的文章。這個過程通常要多次查詢和調整,耗時又麻煩;後來,情況大有改觀。

我用RPA後,它按照要求自動篩選,並在第一輪結果後精準查找,所以,這就像APP的推薦系統,你可以根據需要,定制自己的智能體。所以,基於大模型的Agent,改變了獲取資訊的方式,未來會有更多人有自己的Agent,幫它當合作夥伴,你可以想想,如果有個小助手,你會讓它做什麼?

04‍

那麼,AI Agent有什麼不同類型呢?

因為Agent技術還不是完全成熟,所以,Agent平台也在初期階段,現在一些比較固定的工作流程,或有詳細標準SOP的程序,都在封閉環境下進行。即便一些比較受歡迎的平台,它們在API生態系統,工作流程再組合上,還是不夠完善。我盤了一下,AI Agen平台大致有三類:

一類,面對公眾和非開發人員,基於知識庫和資料庫的簡單聊天機器人(Chatbot);如“類GPTs”,它提供標準介面、流程。中國字節的釦子(Coze)、阿里的AI助理市場。

另一類,開發者的綜合開發平台:這類平台幫助開發者使用各種API、第三方函式庫和程式碼嵌入,進行Agent的流程調校。例如:Coze海外版、百度靈境矩陣全程式碼版,阿里、亞馬遜等提供模型託管,支援開發者開發應用程式。它們可以能解決複雜問題、有多個工作流程安排的複雜場景在裡面。

第三類是企業級開發平台:專門為企業工作流程製作的智慧化。例如:TARS-RPA-Agent、CubeAgent和Torq等。瀾碼科技的AskXbot平台,以及360的「大模型+企業知識庫+Agent」的解決方案。基於此框架下又能進行產業結構,應用場景再次劃分。

因為大家發展速度真的很快,所以,從實際情況來看,首先需要做的是:第一步,豐富通用和特定場景的工作流程。這意味著,要創造一些標準的流程,讓不同的情況下都能使用。第二步,深入學習並累積專業知識。這樣,第三步,平台能更好地重複使用現有的工作流程,也能更靈活地結合不同的工具。同時,也要探索適合的商業模式,這樣才能滿足AI時代的需求。簡單說,就是要搞清楚怎麼透過AI Agent賺錢,同時確保AI平台能持續進步,更好地服務大家,很重要。更直白一點說:

產品行銷圈,有一個很重要概念叫做PMF(Product-Market Fit,產品市場匹配度)。如果產品找到它的PMF,就找到了自己的市場立足點,開始有了使用者黏性。在AI大模型產品領域裡,大模型要找到自己的TPF(Technology Product Fit,技術產品匹配)。

技術發展比較快時,AI從業者,要從技術、產品和市場三個角度全面考慮,尋找一個中間值,三者,完美匹配的時,才是AI Agent解決具體需求,賺到前的高光時刻。我們不能總說技術厲害,而忽略市場是否需要。

前段時間,跟一個老闆溝通企業內部流程再造時,就提到該問題,他說:看似很多冗餘工作,AI Agent可以解決,但是,AI Agent解決前,總要先有人得先用好他。

舉個例子:服裝設計公司,面臨一個重大挑戰,批量生產服裝時,要設計和製作多個樣板,這個過程傳統上完全依賴人工;現在,AI智能體可以介入這一過程,但到底能處理到哪一步呢?精確度夠高嗎?這些都要進一步的探索、測試。

所以,中國Agent發展還未達到其真正潛力,大多只是些簡單的聊天機器人。缺乏反思、規劃、環境感知能力,而這些能力,剛好構成高階AI Agent的核心要素。

總結而言

AI Agent,進一步迭代工作流程。就我所知,目前市面有很多agent搭建工具,如果你想進一步了解這個賽道,親自試試,是最快的方法。

分享此新聞: