科技巨頭如何偷工減料為AI人工智慧取得數據

記者／Linus Shih

2021年底，OpenAI面臨供應問題。

在開發最新的人工智慧系統時，人工智慧實驗室已經耗盡了網路上所有有信譽的英語文字庫。它需要透過更多的數據來訓練其技術以開發下一個版本。因此OpenAI研究人員創建了一款名為Whisper的語音辨識工具。它可以轉錄 YouTube影片中的音頻，產生新的對話文本，使人工智慧系統變得更加智慧。一些OpenAI員工討論了此舉可能違反YouTube的規則。Google旗下的 YouTube禁止將其影片用於「獨立」於該影片平台的應用程式。知情人士稱，最終OpenAI團隊轉錄了超過100萬小時的YouTube影片。該團隊包括OpenAI總裁Greg Brockman，他親自幫助收集了這些影片。然後這些文字被輸入一個名為GPT-4的系統，該系統被廣泛認為是世界上最強大的人工智慧模型之一，也是最新版本ChatGPT聊天機器人的基礎。

引領人工智慧的競賽已經變成了對推進技術所需的數位數據的拼命搜尋。根據《紐約時報》的調查，為了取得這些數據，包括OpenAI、Google和Meta在內的科技公司紛紛走捷徑，無視公司政策，並討論違反法律。根據《泰晤士報》獲得的內部會議記錄，在擁有Facebook和Instagram的Meta公司，去年討論了收購Simon & Schuster出版社以採購長篇作品。他們還商定從網路上收集受版權保護的數據，即使這意味著面臨訴訟。他們說，與出版商、藝術家、音樂家和新聞業談判許可將花費太長時間。了解該公司實踐的人士表示，與OpenAI一樣，Google也轉錄了YouTube影片，為其人工智能模型收集文本。這可能侵犯了影片的版權，這些影片屬於其創作者。

去年，Google也擴大了其服務條款。根據該公司隱私團隊的成員和《紐約時報》看到的一份內部消息，這一變化的動機之一是允許Google能夠利用公開的Google文檔、Google地圖上的餐廳評論和其他線上素材來獲取更多資訊。多年來，網路（包括維基百科和Reddit等網站）似乎是無窮無盡的資料來源。但隨著人工智慧的進步，科技公司尋求更多的儲存庫。Google和Meta擁有數十億用戶，每天都會產生搜尋查詢和社交媒體帖子，這在很大程度上受到隱私法和他們自己的政策的限制，無法將大部分內容用於人工智慧。科技公司如此渴望新數據，以至於一些公司正在開發「合成」資訊。這不是人類創建的有機數據，而是人工智慧模型生成的文字、圖像和程式碼——換句話說，系統從它們自己生成的內容中學習。

OpenAI表示，其每個人工智慧模型「都擁有我們精心策劃的獨特數據集，以幫助他們了解世界並在研究中保持全球競爭力。」，Google表示：其人工智慧模型「接受了一些YouTube內容的訓練」，這是與YouTube創作者達成的協議所允許的，並且該公司沒有在實驗計劃之外使用來自辦公室應用程式的數據。Meta表示，它已經「進行了積極投資」，將人工智慧整合到其服務中，並從Instagram和Facebook獲取了數十億公開共享的圖像和影片來訓練其模型。

對於創作者來說，人工智慧公司越來越多地使用他們的作品，引發了有關版權和許可的訴訟。《紐約時報》去年起訴OpenAI和微軟，稱其在未經許可的情況下使用受版權保護的新聞文章來訓練人工智慧聊天機器人。OpenAI和微軟表示，使用這些文章是“合理使用”，或者說是版權法允許的，因為他們為了不同的目的而改造了這些作品。去年，超過 10,000個貿易團體、作者、公司和其他人士向版權局提交了有關人工智慧模型使用創意作品的評論，版權局是一個正在準備版權法在人工智慧時代如何適用的聯邦機構的指南。

“規模就是你所需要的”

約翰霍普金斯大學理論物理學家Kaplan (Jared Kaplan) 撰寫了一篇關於人工智慧和數據的重要論文。圖片取自：彭博社

2020年1月，約翰霍普金斯大學理論物理學家 Jared Kaplan發表了一篇關於人工智慧的開創性論文，激發了人們對線上數據的興趣。他的結論很明確：訓練大型語言模型（驅動線上聊天機器人的技術）所需的資料越多，它的效能就越好。正如學生透過閱讀更多書籍可以學到更多知識一樣，大型語言模型可以更好地找出文本中的模式，並透過更多資訊變得更加準確。「每個人都非常驚訝，這些趨勢——我們所說的這些縮放定律——基本上和你在天文學或物理學中看到的一樣精確，」Kaplan博士說，他與九名OpenAI研究人員一起發表了這篇論文。研究人員長期以來一直使用大型公共數位資訊資料庫來開發人工智慧，包括維基百科和Common Crawl，這是一個自2007 年以來收集的超過2500億個網頁的資料庫。研究人員經常在使用之前刪除仇恨言論和其他不需要的文字來「清理」資料。它來訓練人工智慧模型。

以今天的標準，2020年的資料集很小。包含來自照片網站Flickr的 30,000 張照片的資料庫在當時被視為重要資源。在Kaplan博士發表論文之後，這些數據量已經不夠了。紐約人工智慧公司Nomic的執行長Brandon Duderstadt 表示，一切都是為了「把事情做大」。當OpenAI於2020年11月推出GPT-3時，它接受了迄今為止最大量的資料訓練——約3000億個“令牌”，這些“令牌”本質上是單字或單字片段。從這些數據中學習後，系統以驚人的準確性生成文本，編寫部落格文章、詩歌和自己的電腦程式。2022年，Google旗下的人工智慧實驗室DeepMind走得更遠。它測試了400 個人工智慧模型，並改變了訓練資料量和其他因素。表現最好的模型使用的數據甚至比Kaplan博士在論文中預測的還要多。其中一個模型Chinchilla接受了1.4兆個代幣的訓練。很快就被超越了。去年，中國研究人員發布了一個人工智慧模型Skywork，該模型使用來自英文和中文文本的 3.2 兆個標記進行訓練。Google也推出了人工智慧系統PaLM 2代幣突破3.6兆。

轉錄 YouTube

今年5月，OpenAI執行長Sam Altman承認，人工智慧公司將耗盡網路上所有可行的數據。

「那將會耗盡，」他在一次技術會議上的演講中說道。

Altman先生曾近距離觀察過這現象。在OpenAI，研究人員多年來一直在收集資料、清理資料並將其輸入到大量文字中來訓練公司的語言模型。他們挖掘了電腦程式碼儲存庫GitHub，清理了國際象棋走法資料庫，並利用Quizlet網站上描述高中考試和家庭作業的資料。了解該公司的人士表示，到2021年底，這些供應已耗盡，但他們未獲授權公開發言。OpenAI迫切需要更多數據來開發其下一代人工智慧模型GPT-4。知情人士稱，員工們因此討論了轉錄Podcast、有聲讀物和YouTube影片的問題。他們討論了使用人工智慧系統從頭開始創建數據。他們也考慮收購收集了大量數位數據的新創公司。OpenAI最終開發了語音辨識工具Whisper，用於轉錄YouTube影片和Podcast。但YouTube不僅禁止人們將其影片用於「獨立」應用程序，還禁止人們透過「任何自動化方式（例如機器人、殭屍網路或抓取工具）」存取其影片。

知情人士稱OpenAI員工知道他們正在涉入法律灰色地帶，但相信用影片訓練人工智慧是合理使用。OpenAI總裁Greg Brockman先生在一份研究論文中被列為Whisper 的創建者。他親自幫助收集YouTube影片並將其輸入該技術。Brockman先生將置評請求轉給了OpenAI，該公司表示它使用「眾多來源」的數據。去年，OpenAI 發布了GPT-4，它藉鑒了Whisper轉錄的超過100萬小時的YouTube影片。 Brockman先生領導的團隊開發了GPT-4。

一些Google員工知道OpenAI已經收集了YouTube影片作為數據。但知情人士稱，他們並沒有阻止 OpenAI，因為Google也使用 YouTube 影片的文字記錄來訓練其人工智慧模型。這種做法可能侵犯了YouTube創作者的版權。知情人士表示，因此，如果Google在OpenAI上大驚小怪，公眾可能會對其自己的方法提出強烈抗議。Google發言人表示：該公司對OpenAI的做法一無所知，並禁止「未經授權抓取或下載 YouTube 內容」。他說，當Google有明確的法律或技術基礎時，就會採取行動。Google的規則允許其利用YouTube用戶資料為該影片平台開發新功能。但目前尚不清楚Google是否可以利用YouTube數據建立視訊平台以外的商業服務，例如聊天機器人。智慧財產權律師Geoffrey Lottenberg表示，Google對於YouTube錄影可以做什麼、不能做什麼的說法含糊其辭。他說：“這些數據是否可以用於新的商業服務，還有待解釋，並可能引發訴訟。”

2022 年末，在OpenAI發布ChatGPT並掀起全行業的追趕競賽後，Google研究人員和工程師討論了利用其他用戶資料。人們的Google文件和其他免費 Google應用程式中包含數十億字。但有三名了解Google做法的人士表示，該公司的隱私限制限制了他們使用這些數據的方式。

在OpenAI發布ChatGPT後，Google研究人員和工程師討論了利用其他用戶資料來開發人工智慧產品。

據隱私團隊的兩名成員和《紐約時報》看到的一份內部消息稱，Google法律部門於 6 月要求隱私團隊起草措辭，以擴大該公司可以使用消費者資料的用途。員工被告知，Google希望將人們在Google文件、Google表單和相關應用程式中公開的內容用於一系列人工智慧產品。員工表示，他們不知道公司之前是否曾使用此類資料訓練人工智慧。當時，Google的隱私權政策稱，該公司只能使用公開資訊來「幫助訓練Google的語言模型並建立Google翻譯等功能」。隱私團隊編寫了新條款，以便Google可以利用其「人工智慧模型並建立Google翻譯、巴德和雲端人工智慧功能等產品和功能」的數據，這是更廣泛的人工智慧技術集合。

“合成”數據

OpenAI的Altman先生製定了一個計劃來應對迫在眉睫的資料短缺問題。他在五月的會議上表示，像他這樣的公司最終將利用人工智慧生成的文本（也稱為合成數據）來訓練他們的人工智慧。Altman和其他人認為，由於人工智慧模型可以生成類似人類的文本，因此系統可以創建額外的數據來開發更好的自身版本。這將幫助開發人員建立日益強大的技術並減少對受版權保護的資料的依賴。

「只要你能夠跨越合成數據事件範圍，即模型足夠智能，能夠生成良好的合成數據，一切都會好起來的，」Altman先生說。

人工智慧研究人員多年來一直在探索合成數據。但要建構一個能夠自我訓練的人工智慧系統說來容易做來難。從自己的產出中學習的人工智慧模型可能會陷入一個循環，它們會強化自己的怪癖、錯誤和限制。「這些系統所需的數據就像穿越叢林的道路，」前 OpenAI 研究員、現在不列顛哥倫比亞大學教授電腦科學的傑夫·克魯恩 (Jeff Clune) 說。 “如果他們只根據合成數據進行訓練，他們可能會在叢林中迷路。”

為了解決這個問題，OpenAI 和其他公司正在研究兩種不同的人工智慧模型如何協同工作來產生更有用和更可靠的合成數據。一個系統產生數據，而第二個系統則判斷資訊以區分好壞。研究人員對於這種方法是否有效存在分歧。儘管如此，人工智慧高階主管仍在快速前進。

「應該沒問題，」Altman先生在會議上說。

分享此新聞：