[摘要]在大數據成為熱議話題的當下,人們對于國內圖書館界對大數據技術應用狀況,未曾有過可行的量化測度。本文基于麥肯錫全球研究院發(fā)布的大數據核心技術概念,結合社會學和文獻計量學等相關方法,嘗試將抽象問題轉化為可操作性問題,量化描述圖書館界的大數據技術運用狀態(tài)。
[關鍵詞] 麥肯錫報告;MGI;大數據;大數據技術;量化
[分類號] G256
1.問題的提出
自2011年5月麥肯錫將“大數據”帶入大眾視野,從國家層面到基礎行業(yè)[1],都對此表現(xiàn)出全所未有的興趣。媒體如火如荼的參與和渲染,更是讓這個技術概念轉化成炙手可熱的時尚名詞。其實,“大數據”概念包括大數據理念和大數據技術兩個層面的內涵,前者是引發(fā)社會轟動效應的根源,而后者才是“大數據”概念的實質性內涵。
在這股大數據熱潮中,圖書館業(yè)界也表現(xiàn)出不小的熱情。通過觀察圖書館界這些年的研究和實踐可以發(fā)現(xiàn),圖書館界其實一直追隨著大數據技術的步伐前行,只是限于自身的一些不利條件,對大數據技術的應用和開發(fā)相對還是緩慢的。
那么,國內圖書館界對于大數據技術的應用到底處于怎樣的一個狀態(tài)?對于這個問題,目前尚未有人能夠做出清晰的量化描述。但作為與信息技術發(fā)展休戚相關的行業(yè),圖書館有必要對自身與現(xiàn)代技術之間的距離有更為直觀的了解,作為行業(yè)發(fā)展規(guī)劃的依據。簡言之,我們需要找到一個可行的方法,對圖書館大數據技術的運用狀態(tài)進行量化的描述。
2.研究方法的探討
社會學在研究社會現(xiàn)象時,通常將某些抽象問題轉化為相對容易測量的具體問題,繼而將定性研究推進到定量分析。[2]本文借鑒此類解決問題的方法,并結合文獻計量學,對上述問題進行量化研究。
2.1 將抽象問題具體化
對于抽象問題“國內圖書館界對大數據技術的運用狀態(tài)”,首先將之轉化為更為具體的問題——“國內圖書館領域論文對大數據技術的關涉程度”。之所以這樣轉換,是因為關于某領域的學術論文基本上可以代表該領域的理論水平,對此的考量是觀察該領域發(fā)展狀況的重要角度;而“關涉程度”指的是圖書館領域論文所涉及大數據技術的程度,可以將之分為更小的指標進行定量觀察和分析。
2.2 測量指標的確定
所謂指標就是概念內涵的指示標志。對于“國內圖書館界學術論文對大數據技術的關涉程度”這個問題,需要將“大數據技術”這個大概念分解為更為細小的內涵指標體系。
有學者通過論文關鍵詞共詞分析法,得出過大數據技術的核心詞匯。[1]但本文考慮到權威性和可信度,以2011年5月由麥肯錫全球研究院(MGI)發(fā)布的研究報告《大數據: 創(chuàng)新、競爭和生產力的下一個新領域》作為基本依據。[3]同時,采用賽迪智庫翻譯的中譯本[4]為權威中文版。麥肯錫是全球最大的咨詢公司,屬下的MGI擁有一支實力雄厚的專家團隊,它所發(fā)布的報告具有較高的權威性。賽迪智庫是中國工業(yè)和信息化領域的知名思想庫[5],它所發(fā)布的譯叢具有較高的信度。在這個著名的報告中,研究人員羅列了構成大數據核心技術的54個概念,其中應用于大數據分析的關鍵技術詞匯(概念)28個,應用于整合、處理、管理和分析大數據的關鍵技術詞匯(概念)26個,并對這些核心詞匯(概念)一一給予明確的定義。
本文正是以MGI 的這套詞匯(概念)作為測量和分析大數據技術的內涵指標體系,考察圖書館界對于這些指標的運用狀況和程度。
2.3 測度方法
測度是對測量指標做量化測定。本文以論文數量作為測量值。論文數量大小雖然不能反映論文的質量和深度,但可以反映研究人員對某研究主題的重視和關注程度,以此來測定“圖書館領域對大數據的關涉程度”存在一定合理性。
論文數量則通過論文關鍵詞檢索出相關論文,并做統(tǒng)計后獲得。選擇關鍵詞為檢索詞的原因是,論文關鍵詞作為論文標識之一,代表了該論文的研究主題和研究范疇。為了便于論文被引用和查找,論文作者一般都會被要求使用盡量規(guī)范的關鍵詞來進行標注。[6]雖然關鍵詞目前很難做到統(tǒng)一和規(guī)范,但關鍵詞仍然是眼下概括和描述論文內容的重要標識,查準率相對較高的工具。
本文通過以MGI大數據核心詞匯為檢索詞,分別統(tǒng)計出圖書館界大數據核心技術的論文篇數和排名,大技術核心技術論文總篇數,以及論文數量排名前五領域的大數據技術論文數量。并在這些數據之間做出比較和測量。
2.4 考察范圍
因為本研究主要是國內圖書館業(yè)界的大數據技術運用狀況,所以考察對象的范圍設定在圖書館情報學范疇內的論文。
《中國知網》是國內收錄中文論文最全面和最權威的數據庫之一,自身攜帶有統(tǒng)計和分析工具,為文獻計量研究提供了便捷。鑒于這兩個因素,選擇《中國知網》來考察、衡量和比對大數據技術在圖書館界的應用狀況。
3.獲取統(tǒng)計數據
以MGI公布的大數據核心詞匯作為關鍵詞進檢索,并借助中國知網的部分統(tǒng)計功能,獲得以這些關鍵詞為標識的論文數量。但在檢索過程中,由于關鍵詞的習慣用法與MGI核心詞匯之間并非完全一致,為了提高查全率,根據MGI報告來增加同義詞匯檢索,比如“AB測試”同義詞為“分離測試”和“水桶測試”,“數據聚類”同義詞為“聚類”,等等。對檢索結果也需要根據大數據技術的相關知識,剔除其中有歧義的部分,比如“優(yōu)化”概念,在教育學中的優(yōu)化并非大數據的優(yōu)化;“情緒分析”,要剔除醫(yī)學和心理學上論文。在獲取圖書館領域大數據論文數量,也收集論文數量排名,以及量值最高的前五個領域的論文數等。下面是將檢索所獲取的數據以表格形式呈現(xiàn)。由于中國知網的數據每日更新,本文的檢索結果和數據獲取的時間點為2014年5月10日。
軍:軍事,測:自然地理與測繪,圖:圖書情報與數字圖書館,化:化學,建:建筑,運:運輸,心:心理學,醫(yī):醫(yī)學,儀:儀器儀表,社:社會學和統(tǒng)計學,材:材料,環(huán):環(huán)境
4. 結論和描述:
分析上述表格中的論文數量值,能夠對 “圖書館領域對大數據技術在學術上的關涉程度”有一個大致的數量描述。
4.1 MGI大數據核心詞匯論文數量分布領域
從兩個表格中可以看出,1960年到 2014年包含大數據核心詞匯的論文總量約有485509篇,涉及的領域很廣,從論文數量值的總體分布來看,主要在計算機、數學、經濟、自動化、電信、互聯(lián)網等等領域,基本印證了MGI報告中有關于大數據技術淵源以及其主要運用領域的定性描述[5]。從表格中也能看出,每個詞匯的論文數量差異也較大,有的有幾萬篇,有的只有幾篇,則從一個側面反映了各種技術研究的成熟度和應用廣度存在著較大差異。同時,還可以從表格中看出,各個大技術核心概念與各個領域之間的親疏關系。
4.2 MGI大數據核心詞匯在圖書館研究中的運用
從兩個表格中可以看到,圖書館領域的大數據核心詞匯的論文數量總共5764篇,約占總量的1.2[WTB2][WTBZ]。圖書館作為信息行業(yè),該比值并不算高。說明大數據技術在圖書館領域得到了不小的關注,但相對于大數據技術的發(fā)展速度,其應用與開發(fā)的力度還是比較欠缺。
從表一可看到,有11個MGI大數據分析技術詞匯被涉及和應用,占39[WTB2][WTBZ]。其中,包含數據挖掘、統(tǒng)計、自然語言處理、關聯(lián)規(guī)則挖掘、可視化技術論文數量較高,反映了圖書館在這幾個方面做了較多的研究。
從表二可看到,有16個MGI大數據處理詞匯被使用,占67[WTB2][WTBZ]。其中包含元數據、云計算、數據倉庫、SQL、關系型數據庫等關鍵詞的圖書館領域論文數量都較高,并在同一詞匯的論文總量里占較大比例,這說明有關于數據資源整合管理的大數據技術在圖書館研究領域比較受重視。
大部份大數據核心技術概念在圖書館領域并沒有得到使用,有的概念屬于比較專業(yè)無法被運用,比如信號處理。有的概念可以在圖書館領域應用但未得到重視,比如“優(yōu)化”,論文數量為0。優(yōu)化主要指對模型的優(yōu)化,說明圖書館領域在建立模型方面比較欠缺,應該引起研究人員的重視。
5.存在問題和展望
上述以MGI核心概念為關鍵詞的論文數量匯總、比較和分析方法,對大數據技術在圖書館界的應用有了一個宏觀上的測度。雖然這種方法把一個抽象問題予以具體化,但是該測量方法得到的是比較淺表的、框架性的結論。自然,有志于進一步探索的研究者可以作進一步優(yōu)化和細化。
5.1 優(yōu)化方向
對本測量方法的優(yōu)化,可從兩個角度考慮。一是提高查全率。使用關鍵詞檢索文獻具有較高的查準率,但是查全率會受到不小的損失。若能同時考慮查準和查全率,擴大合理的檢索途徑,將可能增加本測量方法的信度。
另外,隨著學科的交叉發(fā)展,許多概念可能會被下位概念或同位概念所取代。如果能監(jiān)控概念之間的關系變化,作為因素加以考慮,建立一個動態(tài)的測量模型,將可能增加測量的效度。
5.2 細化方向
可以從兩個維度進行細化研究。一個維度是將概念進一步細化,比如“分類算法”下有許多子概念:貝葉斯分類、后向傳播分類、k-最鄰近分類等,可以專門對分類算法在圖書館領域的使用做研究,預先建立數據挖掘的核心詞匯表,再作量化比較。另一個維度是對圖書館領域的進一步細化,可以考察和分析各個具體研究方向中大數據核心技術詞匯的運用。
[參考文獻]
1.楊繹. 基于文獻計量的“大數據”研究[J]. 圖書館雜志, 2012(9):29-32
2.袁方. 社會研究方法教程[M]. 北京:北京大學出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麥肯錫全球研究院. 大數據: 創(chuàng)新、競爭和生產力的下一個新領域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 賽迪智庫. 介紹[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 趙宗蔚. 提高期刊論文關鍵詞索引質量——自然語言與人工語言的結合[J]. 圖書館論壇,2005(5):119-121
附簡歷
桂羅敏,女,博士,副研究館員,圖書館學。
迄今在核心及重要期刊上已發(fā)表的圖書情報專業(yè)論文有:《先秦軍事情報學概述》、《〈貞觀政要〉問世冷遇考》、《〈群書目錄〉未獲褒獎原因考》、《兩唐書經籍藝文志目錄類證辨》、《對〈古今書錄序〉的幾點駁正》、《網絡閱讀古籍的幾個問題和建議》、《武則天著作目錄證辨釋論》、《〈文獻通考·經籍考〉分類法新探》、《對開元《群書目錄》的重新審視》、《從正史藝文志探究儒家經典的數目變化》、《<三教珠英>考辨》、《<修文殿御覽>考辨》、《知識分類對天人秩序的映照——以類書《北堂書鈔》為例》等30余篇。
4. 結論和描述:
分析上述表格中的論文數量值,能夠對 “圖書館領域對大數據技術在學術上的關涉程度”有一個大致的數量描述。
4.1 MGI大數據核心詞匯論文數量分布領域
從兩個表格中可以看出,1960年到 2014年包含大數據核心詞匯的論文總量約有485509篇,涉及的領域很廣,從論文數量值的總體分布來看,主要在計算機、數學、經濟、自動化、電信、互聯(lián)網等等領域,基本印證了MGI報告中有關于大數據技術淵源以及其主要運用領域的定性描述[5]。從表格中也能看出,每個詞匯的論文數量差異也較大,有的有幾萬篇,有的只有幾篇,則從一個側面反映了各種技術研究的成熟度和應用廣度存在著較大差異。同時,還可以從表格中看出,各個大技術核心概念與各個領域之間的親疏關系。
4.2 MGI大數據核心詞匯在圖書館研究中的運用
從兩個表格中可以看到,圖書館領域的大數據核心詞匯的論文數量總共5764篇,約占總量的1.2[WTB2][WTBZ]。圖書館作為信息行業(yè),該比值并不算高。說明大數據技術在圖書館領域得到了不小的關注,但相對于大數據技術的發(fā)展速度,其應用與開發(fā)的力度還是比較欠缺。
從表一可看到,有11個MGI大數據分析技術詞匯被涉及和應用,占39[WTB2][WTBZ]。其中,包含數據挖掘、統(tǒng)計、自然語言處理、關聯(lián)規(guī)則挖掘、可視化技術論文數量較高,反映了圖書館在這幾個方面做了較多的研究。
從表二可看到,有16個MGI大數據處理詞匯被使用,占67[WTB2][WTBZ]。其中包含元數據、云計算、數據倉庫、SQL、關系型數據庫等關鍵詞的圖書館領域論文數量都較高,并在同一詞匯的論文總量里占較大比例,這說明有關于數據資源整合管理的大數據技術在圖書館研究領域比較受重視。
大部份大數據核心技術概念在圖書館領域并沒有得到使用,有的概念屬于比較專業(yè)無法被運用,比如信號處理。有的概念可以在圖書館領域應用但未得到重視,比如“優(yōu)化”,論文數量為0。優(yōu)化主要指對模型的優(yōu)化,說明圖書館領域在建立模型方面比較欠缺,應該引起研究人員的重視。
5.存在問題和展望
上述以MGI核心概念為關鍵詞的論文數量匯總、比較和分析方法,對大數據技術在圖書館界的應用有了一個宏觀上的測度。雖然這種方法把一個抽象問題予以具體化,但是該測量方法得到的是比較淺表的、框架性的結論。自然,有志于進一步探索的研究者可以作進一步優(yōu)化和細化。
5.1 優(yōu)化方向
對本測量方法的優(yōu)化,可從兩個角度考慮。一是提高查全率。使用關鍵詞檢索文獻具有較高的查準率,但是查全率會受到不小的損失。若能同時考慮查準和查全率,擴大合理的檢索途徑,將可能增加本測量方法的信度。
另外,隨著學科的交叉發(fā)展,許多概念可能會被下位概念或同位概念所取代。如果能監(jiān)控概念之間的關系變化,作為因素加以考慮,建立一個動態(tài)的測量模型,將可能增加測量的效度。
5.2 細化方向
可以從兩個維度進行細化研究。一個維度是將概念進一步細化,比如“分類算法”下有許多子概念:貝葉斯分類、后向傳播分類、k-最鄰近分類等,可以專門對分類算法在圖書館領域的使用做研究,預先建立數據挖掘的核心詞匯表,再作量化比較。另一個維度是對圖書館領域的進一步細化,可以考察和分析各個具體研究方向中大數據核心技術詞匯的運用。
[參考文獻]
1.楊繹. 基于文獻計量的“大數據”研究[J]. 圖書館雜志, 2012(9):29-32
2.袁方. 社會研究方法教程[M]. 北京:北京大學出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麥肯錫全球研究院. 大數據: 創(chuàng)新、競爭和生產力的下一個新領域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 賽迪智庫. 介紹[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 趙宗蔚. 提高期刊論文關鍵詞索引質量——自然語言與人工語言的結合[J]. 圖書館論壇,2005(5):119-121
附簡歷
桂羅敏,女,博士,副研究館員,圖書館學。
迄今在核心及重要期刊上已發(fā)表的圖書情報專業(yè)論文有:《先秦軍事情報學概述》、《〈貞觀政要〉問世冷遇考》、《〈群書目錄〉未獲褒獎原因考》、《兩唐書經籍藝文志目錄類證辨》、《對〈古今書錄序〉的幾點駁正》、《網絡閱讀古籍的幾個問題和建議》、《武則天著作目錄證辨釋論》、《〈文獻通考·經籍考〉分類法新探》、《對開元《群書目錄》的重新審視》、《從正史藝文志探究儒家經典的數目變化》、《<三教珠英>考辨》、《<修文殿御覽>考辨》、《知識分類對天人秩序的映照——以類書《北堂書鈔》為例》等30余篇。
4. 結論和描述:
分析上述表格中的論文數量值,能夠對 “圖書館領域對大數據技術在學術上的關涉程度”有一個大致的數量描述。
4.1 MGI大數據核心詞匯論文數量分布領域
從兩個表格中可以看出,1960年到 2014年包含大數據核心詞匯的論文總量約有485509篇,涉及的領域很廣,從論文數量值的總體分布來看,主要在計算機、數學、經濟、自動化、電信、互聯(lián)網等等領域,基本印證了MGI報告中有關于大數據技術淵源以及其主要運用領域的定性描述[5]。從表格中也能看出,每個詞匯的論文數量差異也較大,有的有幾萬篇,有的只有幾篇,則從一個側面反映了各種技術研究的成熟度和應用廣度存在著較大差異。同時,還可以從表格中看出,各個大技術核心概念與各個領域之間的親疏關系。
4.2 MGI大數據核心詞匯在圖書館研究中的運用
從兩個表格中可以看到,圖書館領域的大數據核心詞匯的論文數量總共5764篇,約占總量的1.2[WTB2][WTBZ]。圖書館作為信息行業(yè),該比值并不算高。說明大數據技術在圖書館領域得到了不小的關注,但相對于大數據技術的發(fā)展速度,其應用與開發(fā)的力度還是比較欠缺。
從表一可看到,有11個MGI大數據分析技術詞匯被涉及和應用,占39[WTB2][WTBZ]。其中,包含數據挖掘、統(tǒng)計、自然語言處理、關聯(lián)規(guī)則挖掘、可視化技術論文數量較高,反映了圖書館在這幾個方面做了較多的研究。
從表二可看到,有16個MGI大數據處理詞匯被使用,占67[WTB2][WTBZ]。其中包含元數據、云計算、數據倉庫、SQL、關系型數據庫等關鍵詞的圖書館領域論文數量都較高,并在同一詞匯的論文總量里占較大比例,這說明有關于數據資源整合管理的大數據技術在圖書館研究領域比較受重視。
大部份大數據核心技術概念在圖書館領域并沒有得到使用,有的概念屬于比較專業(yè)無法被運用,比如信號處理。有的概念可以在圖書館領域應用但未得到重視,比如“優(yōu)化”,論文數量為0。優(yōu)化主要指對模型的優(yōu)化,說明圖書館領域在建立模型方面比較欠缺,應該引起研究人員的重視。
5.存在問題和展望
上述以MGI核心概念為關鍵詞的論文數量匯總、比較和分析方法,對大數據技術在圖書館界的應用有了一個宏觀上的測度。雖然這種方法把一個抽象問題予以具體化,但是該測量方法得到的是比較淺表的、框架性的結論。自然,有志于進一步探索的研究者可以作進一步優(yōu)化和細化。
5.1 優(yōu)化方向
對本測量方法的優(yōu)化,可從兩個角度考慮。一是提高查全率。使用關鍵詞檢索文獻具有較高的查準率,但是查全率會受到不小的損失。若能同時考慮查準和查全率,擴大合理的檢索途徑,將可能增加本測量方法的信度。
另外,隨著學科的交叉發(fā)展,許多概念可能會被下位概念或同位概念所取代。如果能監(jiān)控概念之間的關系變化,作為因素加以考慮,建立一個動態(tài)的測量模型,將可能增加測量的效度。
5.2 細化方向
可以從兩個維度進行細化研究。一個維度是將概念進一步細化,比如“分類算法”下有許多子概念:貝葉斯分類、后向傳播分類、k-最鄰近分類等,可以專門對分類算法在圖書館領域的使用做研究,預先建立數據挖掘的核心詞匯表,再作量化比較。另一個維度是對圖書館領域的進一步細化,可以考察和分析各個具體研究方向中大數據核心技術詞匯的運用。
[參考文獻]
1.楊繹. 基于文獻計量的“大數據”研究[J]. 圖書館雜志, 2012(9):29-32
2.袁方. 社會研究方法教程[M]. 北京:北京大學出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麥肯錫全球研究院. 大數據: 創(chuàng)新、競爭和生產力的下一個新領域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 賽迪智庫. 介紹[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 趙宗蔚. 提高期刊論文關鍵詞索引質量——自然語言與人工語言的結合[J]. 圖書館論壇,2005(5):119-121
附簡歷
桂羅敏,女,博士,副研究館員,圖書館學。
迄今在核心及重要期刊上已發(fā)表的圖書情報專業(yè)論文有:《先秦軍事情報學概述》、《〈貞觀政要〉問世冷遇考》、《〈群書目錄〉未獲褒獎原因考》、《兩唐書經籍藝文志目錄類證辨》、《對〈古今書錄序〉的幾點駁正》、《網絡閱讀古籍的幾個問題和建議》、《武則天著作目錄證辨釋論》、《〈文獻通考·經籍考〉分類法新探》、《對開元《群書目錄》的重新審視》、《從正史藝文志探究儒家經典的數目變化》、《<三教珠英>考辨》、《<修文殿御覽>考辨》、《知識分類對天人秩序的映照——以類書《北堂書鈔》為例》等30余篇。