打造線上圖書館 Google任重道遠

特約資深撰述/陳致中

想像一下,只要坐在家裡打開電腦,全世界所有圖書館和書店的書籍都可以被你在網路上閱覽─這聽起來有點科幻,但卻在一步步變成現實─Google在奪下網頁搜尋霸主的寶座後,從20048月開始推動一個稱為Google Print(後來改名Google Book)的計畫。望文生義,這個計畫是藉著把大型書商和圖書館所擁有的書籍數位化,讓讀者可以輕鬆從網路上閱讀數以百萬計的書籍。

然而,在網頁搜尋方面所向無敵的Google,在這個新計畫上卻遇到不少難題。被邀請參與計畫的美國各大學圖書館館長和其他專家都指出,被Google Book數位化的內容有許多錯誤,例如字體模糊無法辨識、掉頁、文章被截頭截尾一類。「如果我們親自來做這件事,也許會比Google現在做的好得多。」計畫的參與者之一,史丹福大學圖書館的Andrew Herkovic表示。

Google Book產品經理Adam Smith信誓旦旦地指出,目前的首要工作是把盡可能多的書籍數位化,Google會在往後一一修正這些錯誤。然而,Google Book初期的舉步維艱已經表明,把書籍上網這件工作比Google以往的任務─搜尋數十億的網頁並建立連結─困難得多。

困難跟書籍的來源有關。Google Book的書籍來源有二:書商和圖書館。來自書商的書籍相對好處理得多,即使書商沒有電子版,也會允許Google把書籍拆散開來掃描──當然前提是書商有權力決定書的哪些部分可以上網,通常讀者只能在網上看到一本書的幾頁而已。

來自圖書館的書就麻煩得多。由於圖書館的書很多已經絕版,自然不允許Google把書拆開來作業,這就迫使Google研究新技術來掃描書籍。雖然Google不願透露技術細節,但據看過作業流程的人說,Google是把書放在一個V字型的架子上,兩台高解析度數位相機各對準其中一面,在拍照後再由人工翻頁。然後這些被保存的頁面經過電腦識別和處理,最後成為清晰的電子影像。

但是這只是理想情況,實際上掃描流程非常困難,而且很容易出現錯誤。例如,因為照相角度的問題,有些文字會模糊不清,或是被蓋住而無法讀出;有時候乾脆整頁整頁的文字從資料庫中消失,沒有人知道原因。

Google Book面對的另一項挑戰是在書籍內容的檢索上。雖然Google在網頁搜尋和排序上已經很有經驗,但書籍內容完全是另一回事。原因在於,網頁搜索很大一部分倚賴網頁彼此之間的超鏈結,而這對書籍來說是不可能的。目前,僅僅讓最有關聯的幾本書出現在搜尋結果的首頁都非常困難,讀者往往必須利用「進階搜尋」功能做第二次的篩檢──而這偏偏是一般使用者並不熟悉的。

「嚴格來說,我們在哈佛做的圖書數位化工作,謹慎程度和品質都比Google更高。」哈佛大學圖書館館長Sidney Verba表示。不過,儘管Google Book初期的成果不盡如人意,參與工作的圖書館人員和專家倒也沒什麼抱怨;其中一個原因是他們也能從這計畫中獲益,因為Google會免費送給他們所提供書籍的電子版。

「其實我們並不期望Google的電子版書籍品質跟真正的書一樣好,只要多少能夠閱讀就夠了。」Verba表示。也許Google的偉大計畫短期內還不能讓所有使用者享有自己的線上圖書館,但只要能讓讀者有機會接觸更多書籍,進而對世界上偉大的作品產生興趣,這個計畫就算是達成使命了。

分享此新聞: