內容挖掘的機遇和威脅

2013-04-29 21:34:23徐麗芳駱雙麗湛青

出版參考 2013年8期

徐麗芳駱雙麗湛青

2011年二三月間，全球出版業(yè)的研究智囊之一出版研究協(xié)會（PBC）委托兩位荷蘭研究者Eefke Smit和Maurits van der Graaf進行了一項有關期刊論文內容挖掘的研究工作。項目訪談了29位內容挖掘研究專家并針對學術出版商展開問卷調查，最終就內容挖掘的發(fā)展現(xiàn)狀、利益相關者、政策和趨勢等問題做出了回答。

所謂內容挖掘（content mining）是指為滿足信息檢索、信息提取或薈萃分析的需要而采用自動化的工具、技巧和技術來處理大量非結構化或非均一結構的數字內容。內容挖掘的應用范圍很廣，受到了從早期信息科學家和藥物研發(fā)人員到近來市場營銷人員、廣告從業(yè)人員、商業(yè)分析師和法律從，業(yè)人員的歡迎。舉例來說，藥物學家可以通過挖掘記載藥物副作用的文獻來發(fā)現(xiàn)藥物的新用途；市場人員可以通過情感分析等挖掘技術來處理臉書、推特等社交媒介上的信息，從而了解人們對于產品或服務的真實態(tài)度。

內容挖掘經過了幾個演化階段（見圖1）：一開始主要通過識別書目數據來促進信息檢索；當前的主流是通過與數據庫相連的語義標簽來完成實體識別；下一步關注的熱點是實現(xiàn)信息提取，以揭示文獻內（間）和內容庫內（間）實體之間的關系；新興的綜合內容分析可根據應用目的和領域集聚不同形式的相關內容；而最有前景的應用，則是利用人工智能來發(fā)掘隱含的知識，即完成知識發(fā)現(xiàn)功能。專家們對于數據挖掘的態(tài)度并不相同：悲觀者認為內容挖掘技術應用領域有限且高度分化，另外許多自動化工具都離不開人工干預；樂觀者認為過去5—10年間標準術語集和識別工具等都有了長足發(fā)展，而且領域化有助于提升所獲取信息的準確性和可重用性，因此反而是優(yōu)勢所在。

作為原始內容提供商，出版商對于內容挖掘可謂一則以喜、一則以懼。喜的是內容挖掘作為有用的工具，出版商同樣可以利用它來提升自己產品和服務的質量。全球最大的幾家學術出版集團，如愛思唯爾的SciVal、施普林格的SpringerMaterials數據庫和湯森一路透的科學網平臺等，都是利用數據挖掘技術來豐富自身信息產品和服務并提高其可獲得性的典范。而在回復調查問卷的190位受訪學術出版商中，也有50%-60%打算挖掘自家內容以改善信息導航，25%-30%擬提供語義標簽，30%-45%計劃藉此開發(fā)新產品。懼的則是第三方利用挖掘技術生成的衍生信息產品很有可能成為原始內容的替代品，從而將出版商置于信息產業(yè)鏈的底端，收窄其贏利和生存空間。事實上，77%受訪者曾收到第三方的內容挖掘請求，其中年出版期刊1000種以上者更有88%收到了此類請求；其中絕大部分收到的請求在每年10次以下，但數量呈上漲趨勢。請求大部分來自文摘和索引服務提供商，還有少量來自公司客戶以及科研機構和個人?？傮w而言，出版商們的態(tài)度相當開放。90%以上受訪者曾同意出于研究目的的挖掘請求；32%允許各種挖掘請求而無需專門批準，其中28%實行了開放存取政策；14%公開發(fā)布了正式的數據挖掘政策，21%則正在制定。69%受訪者逐件受理請求；80%會要求說明意圖和目的，如果結果會導致替代和競爭，53%受訪者會拒絕請求。

出版商在將來如何優(yōu)化通用的內容挖掘解決方案上意見仍有分歧。30%出版商認為開放存取是內容挖掘的前提條件，50%則不同意此觀點。人氣指數（PI）排前3位的措施分別是：更加標準化的便于挖掘的內容形式（56PI），共享的內容平臺（37PI）和得到普遍認可的內容挖掘許可規(guī)則（34PI）。但是除了第一條外，其他兩條并未得到內容挖掘研究者的認可。另外，出版商和專家都不贊成由圖書館來實行數據挖掘。

綜上，受訪出版商清醒地意識到了第三方內容挖掘所帶來的機遇和威脅，如何抓住機遇、應對威脅將是全球出版商下一步需要深思和探索的迫切課題。（本文資料來自PBC的調查報告《期刊文章挖掘》）

（作者單位系武漢大學數字出版研究所）