張璇,王志紅,劉盈盈,王靈,古婷驊,王維佳,劉慧云
大數(shù)據(jù)時代的信息管理:為了一個更好的世界
——第六屆“變化世界中的信息管理國際研討會”綜述
張璇,王志紅,劉盈盈,王靈,古婷驊,王維佳,劉慧云
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》中明確提出“數(shù)據(jù)就是財富”的觀點,并贊譽大數(shù)據(jù)為第三次浪潮的華彩樂章。2012年5月,聯(lián)合國發(fā)布《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》白皮書,指出大數(shù)據(jù)對全世界是一個歷史性的機遇,可以利用大數(shù)據(jù)造福人類。在過去三年里,大數(shù)據(jù)在商業(yè)、科技、政府等各個領(lǐng)域都引起高度關(guān)注,大數(shù)據(jù)帶來的深刻影響和巨大價值逐漸被認識,它通過技術(shù)的創(chuàng)新與發(fā)展,以及數(shù)據(jù)的全面感知、收集、分析、共享,為我們提供了一種全新的看待世界的方法,大數(shù)據(jù)帶來的信息風暴正在全方位地改變著我們的生活、工作和思維。
第六屆“變化世界中的信息管理國際研討會”(Information Management in a Changing World,IMCW)于2015年11月25~26日在中山大學康樂園舉行,會議由中山大學與土耳其哈斯特帕大學聯(lián)合主辦,全國圖書情報專業(yè)學位研究生教育指導(dǎo)委員會協(xié)辦。IMCW曾經(jīng)在土耳其、愛爾蘭成功舉辦。會議吸引了來自中國、土耳其、美國、日本、斯洛文尼亞和卡塔爾的多位信息專家、數(shù)據(jù)管理專家、圖書館專業(yè)人士、檔案專業(yè)人士、計算機與信息科學家,以及學術(shù)數(shù)據(jù)庫商與工程師等。開幕式由中山大學資訊管理學院院長助理韋景竹和土耳其哈斯特帕大學Serap Kurbanoglu教授主持,中山大學副校長李善民出席開幕式并致歡迎辭,簡要介紹了此次會議的主題;土耳其哈斯特帕大學Bülent Yilmaz教授和Yaar Tonta教授、武漢大學馬費成教授分別致辭,Bülent Yilmaz教授介紹了大數(shù)據(jù)的概念、規(guī)則和技術(shù),認為我們應(yīng)該做好準備迎接大數(shù)據(jù)社會的到來;Yaar Tonta教授提到大數(shù)據(jù)在過去兩年中帶來的全球性影響,既是一個很大的機遇,也是一個很大的挑戰(zhàn);馬費成教授認為我們已經(jīng)進入嶄新的信息管理時代,數(shù)據(jù)研究的收集、組織和整理等方面有很多值得探索的問題。此次研討會的主題是“大數(shù)據(jù)時代的信息管理:為了一個更好的世界”,各位專家學者圍繞大數(shù)據(jù)環(huán)境下的信息管理,討論大數(shù)據(jù)帶來的變革和機遇,探討信息素養(yǎng)和LIS教育,研究大數(shù)據(jù)相關(guān)的法律和政策,尋找大數(shù)據(jù)環(huán)境下各種科學評價方法的選擇和應(yīng)用,探索各類型信息資源的管理,研究用戶行為以及數(shù)據(jù)挖掘、處理、組織和檢索的創(chuàng)新方式等重大問題。會議設(shè)置了主會場和分會場,其中兩大主題報告、七個邀請報告在主會場進行,其余21個討論報告分別在兩個分會場進行。
面對大數(shù)據(jù)帶來的變化,國內(nèi)外圖書情報學界已展開了諸多研究,大數(shù)據(jù)研究方法體系逐漸形成,積極探索各領(lǐng)域內(nèi)的數(shù)據(jù)感知、收集、分析、共享成為共同關(guān)注的焦點。
中山大學甘春梅博士利用文獻計量法繪制我國有關(guān)大數(shù)據(jù)研究論文的整體結(jié)構(gòu),采用共詞分析法分析各研究主題間的關(guān)系,得出383篇CSSCI論文的發(fā)表情況及研究進展符合增長模式的模擬指數(shù),29個高頻關(guān)鍵詞其頻率服從冪律分布,10個集群代表我國大數(shù)據(jù)研究的10個主題,研究主題相對分散表明我國關(guān)于大數(shù)據(jù)的研究發(fā)展水平較為不平衡的結(jié)論。
同方知網(wǎng)柯春曉社長從傳統(tǒng)情報研究方法體系、大數(shù)據(jù)帶來的研究環(huán)境變化、情報研究方法的變化和應(yīng)對策略四方面出發(fā),著重介紹情報研究方法的變化:一是課題選擇從主動選題和被動選題到無計劃式選題;二是情報搜集的方式發(fā)生巨大變化;三是傳統(tǒng)的信息整序理論已融入計算機程序中,通過計算機完成整序工作;四是大數(shù)據(jù)環(huán)境下的科學抽象須借助云計算、嵌入抽象方法的大數(shù)據(jù)平臺,以及借助方法的綜合應(yīng)用;五是可視化、動態(tài)化和工具化成為情報研究成果表達的新形式;六是通過研究過程的科學記錄來評價研究貢獻將成為新的評價方法。
在本次研討會中,有三位學者的報告分別展示了博物館、文化學和出版業(yè)界為應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn)和機遇進行的深度分析和變革。
日本筑波大學EijiMizushima教授用大量的圖片展示了國家歷史遺址、文化遺產(chǎn)的數(shù)字化問題,介紹了歷史文化遺產(chǎn)的內(nèi)涵和面臨的危機。現(xiàn)場播放被地震損壞的日本弘道館記碑相關(guān)視頻,引發(fā)與會者思考歷史遺產(chǎn)保護問題。針對歷史遺產(chǎn)保護問題,他介紹了日本正致力的幾項工作,日本已建立博物館Darwin Core元數(shù)據(jù),日本博物館的標本信息數(shù)據(jù)正是以Darwin Core元數(shù)據(jù)為標準,納入國家自然博物館信息管理系統(tǒng)進行管理。他也指出,日本仍有50%的博物館并未建立標本分類目錄,國際上還有眾多文化遺產(chǎn)亟待整理和管理。
華中師范大學劉凱博士從文化組學的角度分析大數(shù)據(jù),文化組學即文化和基因組相結(jié)合,利用數(shù)學方法分析海量文本數(shù)據(jù),從而分析人類文化的發(fā)展和演變。他以社會主義核心價值觀的文化基因組分析為對象,在《人民日報》語料庫和臺灣政治刊物語料庫的基礎(chǔ)上,利用爬蟲和分詞技術(shù)分析,構(gòu)建一個多維度的模型分析核心價值觀的分布地區(qū)和時間,并通過可視化圖形展示了分析結(jié)果。
中南大學劉燦嬌教授介紹了大數(shù)據(jù)時代數(shù)字資源建設(shè)的新要求,她以湖南省七個出版社為研究樣本,指出數(shù)字資源建設(shè)存在技術(shù)基礎(chǔ)薄弱、架構(gòu)不合理;財政投入極度不足和資源分配不均;資源利用效率低下,效益不足;資源管理機制不健全,第三方評價機構(gòu)缺失等問題,并建議:提高資本和人才投入水平,鞏固建設(shè)基礎(chǔ);深化資源聚集和優(yōu)化資源結(jié)構(gòu);開闊推廣渠道和提高效率;優(yōu)化管理機制和尋求可持續(xù)發(fā)展。她強調(diào)優(yōu)化管理機制和尋求可持續(xù)發(fā)展之路,最重要的是提高數(shù)字資源評估系統(tǒng)的質(zhì)量和建立獨立的數(shù)字資源評估系統(tǒng)。
信息素養(yǎng)是全球信息化背景下需要掌握的重要技能,對LIS專業(yè)學生而言,信息素養(yǎng)更是必備的能力素質(zhì)。如何通過終身學習和信息素養(yǎng)課程改革提高學生信息素養(yǎng)和技能成為與會專家重點關(guān)注的問題。
土耳其哈斯特帕大學Serap Kurbanoglu教授探索了不同國家LIS學生信息素養(yǎng)能力的相似性及差異性,并從LIS課程價值的角度來解決問題。她在2012-2013年通過網(wǎng)絡(luò)搜集包括18個國家(以歐洲國家為主)、21名研究人員、上千位參與者的數(shù)據(jù)進行調(diào)查。其結(jié)果雖因依賴于學生的認知和自我陳述而存在一定的局限性,但仍對LIS教師教學理念、教學方法、教學內(nèi)容產(chǎn)生一系列影響,未來她還將對更多國家(如亞洲各國)學生信息素養(yǎng)能力進行比較研究。
教育部“長江學者”、武漢大學研究生院院長陳傳夫教授針對LIS教育面臨的挑戰(zhàn)作了主題報告。他通過對國內(nèi)外LIS領(lǐng)域研究與實踐成果的梳理,指出LIS教育面臨互聯(lián)網(wǎng)服務(wù)、計算機社會化服務(wù)、谷歌圖書館、政府信息公開、大數(shù)據(jù)應(yīng)用、公共政策、商業(yè)數(shù)字圖書館、外包市場、大學發(fā)展戰(zhàn)略等外部挑戰(zhàn),并對國內(nèi)LIS教育面臨的24個主要挑戰(zhàn)進行二維和多維綜合分析,總結(jié)出LIS教育面臨學科內(nèi)外和機構(gòu)內(nèi)外兩方面的挑戰(zhàn)。他認為,LIS教育專家已關(guān)注內(nèi)部因素的挑戰(zhàn),未來應(yīng)更多地關(guān)注學科和專業(yè)機構(gòu)外的挑戰(zhàn);要注重培養(yǎng)學生跨學科能力和領(lǐng)導(dǎo)技能,并將新興技術(shù)應(yīng)用到LIS教育中。在變革與創(chuàng)新LIS學科和教育體系時,需提高LIS畢業(yè)生的就業(yè)競爭力;通過創(chuàng)造更多的項目吸引更多的社會資本支持,進而擴大LIS教育的社會影響力。
在分會場,來自土耳其阿德南·曼德列斯大學的Faydaligül博士回顧了信息素養(yǎng)教育在護理學院的重要性和實踐情況,指出信息素養(yǎng)教育可作為每學期的學分制課程;不斷發(fā)展的“護理信息素養(yǎng)能力標準”可形成一個信息素養(yǎng)教育項目;信息素養(yǎng)課程培訓(xùn)可能由圖書館通過交互式遠程教育進行,或獨特的Y一代社會化網(wǎng)絡(luò)來開展。中山大學何靖怡同學從數(shù)據(jù)素養(yǎng)產(chǎn)生的背景出發(fā),闡述了數(shù)據(jù)素養(yǎng)能力模型的定義。她通過對中國、美國、英國等國家數(shù)據(jù)素養(yǎng)模型的數(shù)據(jù)生命周期、模型的可用情況和構(gòu)建方法以及模型的有效性進行比較分析,得出了數(shù)據(jù)素養(yǎng)能力要求越全面,越需要更好的與之相適應(yīng)的數(shù)據(jù)素養(yǎng)教育的結(jié)論,并提出加強數(shù)據(jù)管理與數(shù)據(jù)素養(yǎng)教育的建議。
信息素養(yǎng)及圖書情報學教育內(nèi)涵不斷豐富和擴展,國內(nèi)外對其重要性形成普遍的共識。在充分調(diào)查不同地區(qū)、不同學科的學生信息素養(yǎng)相似性與差異性基礎(chǔ)上,開展有針對性地、細化的、創(chuàng)新的信息素養(yǎng)教育課程,尤為有益。
科學技術(shù)日新月異,數(shù)據(jù)密集型科學興起,知識或智力資源的占有、配置、生產(chǎn)和運用已成為經(jīng)濟發(fā)展的重要依托,知識產(chǎn)權(quán)在經(jīng)濟發(fā)展中凸顯其重要地位。在主會場,受邀專家美國南佛羅里達大學John N.Gathegi教授介紹了商業(yè)秘密法律,屬于知識產(chǎn)權(quán)的一個分支,雖然能夠防止未經(jīng)授權(quán)的訪問,保護商業(yè)機密,但數(shù)據(jù)挖掘尚未被定義為非法訪問,那么在大數(shù)據(jù)挖掘中,傳統(tǒng)商業(yè)秘密法律能否保護知識產(chǎn)權(quán)呢?他從梳理競爭情報和商業(yè)秘密的內(nèi)涵和外延等相關(guān)問題入手,介紹了傳統(tǒng)的保護商業(yè)秘密的方法和大數(shù)據(jù)挖掘產(chǎn)生后的整合商業(yè)秘密,從工業(yè)中一般不被知道的信息和知識、保護商業(yè)秘密的程度、獲取和復(fù)制相同信息是容易還是困難三個角度,分析了常規(guī)商業(yè)秘密和整合商業(yè)秘密的異同,最后,他還提出通過信息公開以推動創(chuàng)新,例如制定嚴格的商業(yè)機密法和員工流動法。
在分會場,土耳其哈斯特帕大學Or?un Madran教授介紹了利用知識共享許可制度來解決共享和復(fù)用大數(shù)據(jù)問題。知識共享即通過法律工具共享和利用創(chuàng)新知識;知識共享許可制度是給公眾提供一套簡單、標準化的方式共享和利用知識創(chuàng)新,可讓學者輕松地從“保留所有權(quán)利”的默認值更改至“保留部分權(quán)力”,它是不可替代的版權(quán)。他還將知識共享許可設(shè)計為合法代碼、人可讀和機器可讀三個層次,并舉例演示不同類型的許可證以及如何使用工具設(shè)置生成許可制度。
量化為特征的評價體系和模型構(gòu)建充分顯示了大數(shù)據(jù)時代從不同表現(xiàn)形式的數(shù)據(jù)中挖掘有價值信息的特征,也為完善科學研究、信息分析和用戶服務(wù)提供客觀規(guī)范和導(dǎo)向。
南京大學閔超同學從科學領(lǐng)域的“睡美人”現(xiàn)象出發(fā),提出隨著學術(shù)出版物的大量產(chǎn)生,如何識別“睡美人”成為科學評價的重要話題。他基于Eugene Garfield提出的通過被引用歷史識別遲滯承認論文的方法,總結(jié)了平均法、百分位法、圖像法三種量化指標的方法,指出理想的指標應(yīng)克服任意閾值參數(shù)、僅考慮部分引文曲線和限制某些類型的引用模式三個缺陷,提出利用關(guān)聯(lián)規(guī)則分析、社交網(wǎng)絡(luò)分析和統(tǒng)計方法等大數(shù)據(jù)挖掘技術(shù)尋找這類論文。
華中師范大學王偉軍教授認為在線商品的用戶評價對后續(xù)買家的購買意向和決定有重要影響,然而在線評論與評分之間存在較大偏差,于是從評價介入理論的話語策略和話語標記的類型兩個角度出發(fā),構(gòu)建了用戶評價詞庫并賦值,并選取各類型商品500余條用戶評論作為樣本進行實證分析,驗證了用戶評價評分體系的科學性,未來他還將在樣本量的擴充、話語標記詞庫的拓展以及話語評價的全自動化處理等方面深入研究。
中山大學李海濤副教授借鑒顧客滿意度模型、技術(shù)接受模型、任務(wù)技術(shù)適配模型中的觀測變量,在用戶調(diào)查基礎(chǔ)上獲取影響感知質(zhì)量的相關(guān)因素,然后通過專家訪談、探索性因子分析方法,選取感知質(zhì)量相關(guān)的關(guān)鍵因素,將政府門戶網(wǎng)站公眾滿意度結(jié)構(gòu)模型中的結(jié)構(gòu)變量轉(zhuǎn)換為可以測量的觀測變量,最后根據(jù)理論修正形成政府門戶網(wǎng)站公眾滿意度測評模型,為改進政府門戶網(wǎng)站建設(shè)提供參考。
伴隨著科學出版物和科研數(shù)據(jù)開放存取的發(fā)展,以及科學研究第四范式的興起,網(wǎng)絡(luò)上出現(xiàn)了成千上萬的科學數(shù)據(jù)倉儲,為科研創(chuàng)造開放和簡單共享的環(huán)境,進而促進開放存取議程。日本鶴見大學Nagatsuka Takashi教授梳理了日本2012-2015年發(fā)布的有關(guān)科研數(shù)據(jù)的政策和指導(dǎo)方針,旨在提高公共資金資助研究的效用;介紹了日本學術(shù)研究圖書館的科研數(shù)據(jù)管理(RDM)服務(wù),現(xiàn)已有445個學術(shù)機構(gòu)構(gòu)建了機構(gòu)庫,超出高校機構(gòu)庫數(shù)量的一半。日本已有研究機構(gòu)和學術(shù)研究圖書館作為參與實驗項目的共同成員,對科研數(shù)據(jù)進行DOI注冊,圖書館和學術(shù)圖書館員正在也應(yīng)該在科研數(shù)據(jù)管理中扮演重要的角色。
鶴見大學另一位教授Hiroyuki Tsunoda根據(jù)SCI劃分出十個學科領(lǐng)域,從日本機構(gòu)知識庫在線(JAIRO)和中國的個人知識庫檢索系統(tǒng)中分別提取出高被引論文進行對比分析,得出結(jié)論:收錄高被引論文的機構(gòu)庫中,日本有36個,中國6個;最多的兩種文獻類型是相似的,都是期刊論文和公告;從全文率看,中國機構(gòu)庫的全文率高于日本機構(gòu)庫。他指出機構(gòu)庫在未來的發(fā)展中應(yīng)重視質(zhì)量和數(shù)量的提高,以促進科學知識大數(shù)據(jù)共享。
在高校數(shù)據(jù)管理方面,土耳其安卡拉大學Zeynep Akdogan探討了高校電子記錄管理系統(tǒng)的制度化過程:從正式的通信系統(tǒng)、業(yè)務(wù)交易、國家或國際標準,法律法規(guī)及用戶期望出發(fā),構(gòu)建電子檔案管理系統(tǒng)(ERMS),整合一個值得信賴的、可互操作的、可獲取的、可靠的電子系統(tǒng)進行正式溝通和業(yè)務(wù)交流;介紹了根據(jù)EMRS結(jié)構(gòu)創(chuàng)建的安卡拉大學“電子記錄管理與歸檔系統(tǒng)模型”(E-BEYAS)應(yīng)用典范,為高校數(shù)據(jù)管理提供借鑒。
大規(guī)模的數(shù)據(jù)整理,充分利用巨大的信息資源,無法繞開的研究主題是知識專利研究。在分會場,湘潭大學知識產(chǎn)權(quán)學院的兩名學生代表肖冬梅教授介紹了中國專利信息資源現(xiàn)狀,提出專利信息資源系統(tǒng)的結(jié)構(gòu)可分為國家基本專利數(shù)據(jù)庫和其他相關(guān)數(shù)據(jù)庫;特定技術(shù)領(lǐng)域的分布式專利數(shù)據(jù)庫;企業(yè)產(chǎn)品或生產(chǎn)線專利數(shù)據(jù)庫三層,并提出構(gòu)建中國專利信息資源體系的建議,應(yīng)涵蓋專利信息的披露系統(tǒng)、專利信息的市場競爭系統(tǒng)以及專利信息產(chǎn)權(quán)安排和許可系統(tǒng)。中山大學韋景竹老師對1985-2015年汽車行業(yè)的專利數(shù)據(jù)進行分析,從這些專利數(shù)據(jù)的時間分布、國別分布、品牌分布、技術(shù)生命周期以及在熱門領(lǐng)域的技術(shù)應(yīng)用等各個方面進行數(shù)量比較,全面分析專利持有者的競爭優(yōu)勢。
中山大學王志紅同學圍繞在線百科全書被中國LIS期刊引用的頻率、最常被誰引用、來自哪些機構(gòu)的引用、為什么引用以及不同作者和不同文章的引用是否存在顯著差異的問題,對LIS學科出版物進行抽樣和分析,得出在線百科全書正在發(fā)展成為中文LIS期刊中被普遍使用和認可的學術(shù)信息資源的結(jié)論,在介紹不熟悉的學科領(lǐng)域和流行文化的背景時,由于其便利和公開獲取使其成為一種不錯的資源選擇。
從用戶角度出發(fā),信息行為研究隨著大數(shù)據(jù)的發(fā)展呈現(xiàn)新的研究范式,基于用戶行為的數(shù)據(jù)挖掘正在逐步突破傳統(tǒng)的信息行為研究的難題,深入對動機研究、行為預(yù)測以及建模,是日后用戶行為研究的重要發(fā)展方向。
北京大學張鵬翼副教授關(guān)注消費者在產(chǎn)品信息搜尋中的行為特征,她將用戶行為分為瀏覽、登錄、個人資料管理、系統(tǒng)、交易、列表處理、檢索及其他類型,分析結(jié)果顯示用戶在信息搜尋行為的點擊序列次數(shù)、時間維度、檢索的復(fù)雜度呈現(xiàn)不同的特征,基于研究所構(gòu)建的模型,可以在產(chǎn)品推薦中進行優(yōu)化。未來可以向基于產(chǎn)品類別的會話特征分析、產(chǎn)品搜索的多任務(wù)研究、基于會話特征以及人口統(tǒng)計學特征數(shù)據(jù)的客戶細分、移動電子商務(wù)的產(chǎn)品搜索等方面發(fā)展。
南開大學李月琳教授從人機交互的角度提出如何識別用戶與數(shù)字圖書館交互的成功關(guān)鍵因素(CSFs)的問題,她借鑒Rockart在1979年提出的關(guān)鍵成功因素模型框架,采用實驗嵌入半結(jié)構(gòu)化深度訪談的方法,得出41個用戶與數(shù)字圖書館交互的影響因素,并最終確定10個關(guān)鍵成功因素,15個核心關(guān)鍵因素。她認為未來對于用戶與數(shù)字圖書館交互研究應(yīng)結(jié)合多種調(diào)查方法,采集更多的實驗數(shù)據(jù),對行為數(shù)據(jù)進行深度挖掘和分析。
在分會場,華中師范大學程秀峰博士采用語義關(guān)聯(lián)模型構(gòu)建數(shù)字圖書館的用戶行為特征庫,他選擇的用戶行為特征以及相應(yīng)測量的指標,包括用戶身份特征、用戶時空分布、用戶點擊及請求、用戶興趣及偏好(瀏覽及請求)、用戶習慣、用戶數(shù)據(jù)流,并自下而上分為數(shù)據(jù)層、特征層、數(shù)據(jù)及特征整合層三個層次構(gòu)建了用戶行為特征庫,他認為未來數(shù)字圖書館呈現(xiàn)聚合化、平行化以及數(shù)據(jù)海量化的特征,這就要求計算模型能夠支持大規(guī)模計算來減少誤差。
信息組織是大數(shù)據(jù)時代信息管理中最重要的環(huán)節(jié),且大數(shù)據(jù)時代海量數(shù)據(jù)的聚集和非結(jié)構(gòu)化等特征對信息組織和知識發(fā)現(xiàn)方面的挑戰(zhàn)和難度越來越凸顯。因此,信息組織和知識發(fā)現(xiàn)是本次會議的重要議題,在分會場有六個報告與該主題相關(guān)。
華中師范大學王忠義副教授從現(xiàn)有分析方法在基于特征的觀點挖掘中的局限性出發(fā),發(fā)現(xiàn)特定領(lǐng)域知識是基于特征的觀點挖掘的關(guān)鍵,以此為基礎(chǔ)提出了基于ISO主題圖標準的觀點挖掘方法,并通過實驗對該方法進行了比較和評估。他認為利用主題圖譜輔助基于特征的觀點挖掘可以解決目前存在的一些問題,但主題圖譜的自動構(gòu)建問題仍亟待研究。
華中師范大學翟姍姍博士以美國農(nóng)業(yè)部門經(jīng)濟研究服務(wù)門戶為研究對象,使用社會網(wǎng)絡(luò)分析方法分別構(gòu)建主題目錄鏈接網(wǎng)絡(luò)和主題目錄語義網(wǎng)絡(luò),并對鏈接網(wǎng)絡(luò)、內(nèi)容網(wǎng)絡(luò)和鏈接內(nèi)容整合網(wǎng)絡(luò)三種方案進行對比分析,發(fā)現(xiàn)同時考慮鏈接和內(nèi)容,即語義鏈接網(wǎng)絡(luò)的實驗效果最好,并認為利用關(guān)鍵詞索引系統(tǒng)優(yōu)化主題目錄將是未來研究的方向。
土耳其哈斯特帕大學?zgür Külcü博士通過收集和對比分析國際和土耳其的案例,如歐盟數(shù)字圖書館和土耳其國家檔案館等,發(fā)現(xiàn)土耳其的案例數(shù)據(jù)集是從面向?qū)ο蟮慕嵌?,只有對資源或過程的詳細描述,且信息與其他資源和機構(gòu)庫之間沒有任何邏輯層次關(guān)系。因此,他提出數(shù)據(jù)集既要滿足國際標準與平臺的期望,也要呈現(xiàn)本地需求和特殊性,最后他針對土耳其數(shù)字資源提出一個元數(shù)據(jù)模型。
斯洛文尼亞盧布爾雅那大學Toma? Bartol、KarmenStopar和馬里博爾大學GordanaBudimir首先利用COBISS和SciMet門戶網(wǎng)站獲得了1996年到2014年被Scopus和WOS數(shù)據(jù)庫中收錄的斯洛文尼亞研究人員所著的文獻作為數(shù)據(jù)集,共分為六個學科領(lǐng)域,并對數(shù)據(jù)集及生物技術(shù)學科領(lǐng)域數(shù)據(jù)的作者合作關(guān)系進行了可視化分析,從中發(fā)現(xiàn)了斯洛文尼亞研究者合作的一種未知模式。
華中師范大學張婷婷同學利用基于統(tǒng)計的關(guān)鍵詞抽取方法,以IT-IWF、位置統(tǒng)計分布和詞距三個特征變量構(gòu)建模型,爬取180個鏈接的網(wǎng)頁信息開展實驗,并與人工標注關(guān)鍵詞方法進行對比驗證算法的有效性。實驗結(jié)果表明對于中文短文本的關(guān)鍵詞抽取,只使用TF-IWF方法的精確度高達70%;在實際應(yīng)用中關(guān)鍵詞數(shù)量為5是較為合適的;從算法效率上看每秒50~70的請求時算法具有較好的穩(wěn)定性。實驗還發(fā)現(xiàn),除TF-IWF之外,結(jié)構(gòu)信息特征如位置分布和詞距并不適用;所提算法也完全能滿足個性化推薦的實時需求。
中山大學馬翠嫦同學利用體裁分析方法和兩輪用戶調(diào)查,構(gòu)建開放獲取資源聚合單元分類體系并檢驗了其有效性,分析了不同信息搜尋任務(wù)下各層級和各類聚合單元感知有用性的差異。她指出信息搜尋任務(wù)與構(gòu)成單元、功能單元的相關(guān)性,使得不同體裁的構(gòu)成單元或功能單元顯現(xiàn)出相關(guān)性,并認為聚合單元的可識別性和與用戶信息搜尋任務(wù)之間的相關(guān)性可以用于不同互聯(lián)網(wǎng)體裁類型資源的細粒度聚合檢索系統(tǒng)的設(shè)計,以及與特定信息搜尋任務(wù)相關(guān)的聚合單元集表明這一任務(wù)中的聚合單元之間存在語義相關(guān)性。
通過該主題一系列的報告,發(fā)現(xiàn)構(gòu)建符合國際化和本地化特色的信息組織標準是大數(shù)據(jù)時代的重要課題,如何更好地構(gòu)建語義層面的關(guān)系,利用各種自然語言處理技術(shù)和數(shù)據(jù)挖掘算法等深入挖掘海量數(shù)據(jù)中隱藏的知識,并以可視化方式進行呈現(xiàn)是需要進一步探索和研究的方向。
(責任編輯:劉洪)
張璇,女,中山大學資訊管理學院2014級在讀博士生,中山大學圖書館助理館員;王志紅,女,中山大學資訊管理學院2014級碩博連讀生;劉盈盈,女,中山大學資訊管理學院2012級在讀博士生,暨南大學圖書館館員;王靈,女,中山大學資訊管理學院2015級在讀博士生,吉首大學圖書館館員;古婷驊,女,中山大學資訊管理學院2013級在讀博士生;王維佳,女,中山大學資訊管理學院2012級在讀博士生,中山大學圖書館館員;劉慧云,女,中山大學資訊管理學院2015級在讀碩士生。
2016-08-29