聯合知識庫正式上線─資訊有價時代來臨

記者/郭皇妤

聯合報系線上新聞資料庫─「聯合知識庫」於19日正式上線,目前該資料庫已收集近兩年來70餘萬筆新聞資料,將採取收費方式提供新聞資料查詢。其中將包括近一年的新聞標題及近一個月的新聞全文查詢的免費的基本服務;以及須加入會員,才得以享受的無限制查詢各新聞全文的進階服務,進階服務更依學生、菁英、企業三種會員身份不同,收費方式及可使用的功能亦不同。

聯合知識庫表示,此項計畫花費四年的時間,才將聯合報系過去50年來產出的所有新聞數位化,因為報紙跨越的年代非常久遠,20年前的報紙是以鉛字排版,紙張品質也不像現在,因此建構資料庫的工程在技術上相當艱難。聯合知識庫是以光學辨識技術(OCR),以圖文切割方式,將報紙版面上的內容掃瞄,之後再以人工進行校對、除錯。初步估算聯合報系過去50年來共出版130萬個報紙版面、上千萬則新聞、換算成字數則有近70億個。

聯合線上營運長劉永平表示,udn的商業模式之一是資訊有價,而原始的新聞內容很難收費,因此聯合知識庫會朝向meta
content的經營,也就是將現有的新聞資料經過組織整理,輔以人工智慧的技術,使這些內容能有意義地被呈現,並可供研究使用。

分享此新聞: