• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      高校人物專題檔案大數(shù)據(jù)源的潛在價(jià)值與挖掘利用

      2017-02-27 22:48張倩
      檔案天地 2017年1期
      關(guān)鍵詞:檢索信息

      張倩

      高校既是人類知識(shí)和科學(xué)創(chuàng)新的主要場(chǎng)所,又是教學(xué)與科研的服務(wù)中心。通過(guò)在檔案大數(shù)據(jù)智能處理平臺(tái)上創(chuàng)建高校人物專題檔案數(shù)據(jù)庫(kù)模塊,并將其作為高校檔案大數(shù)據(jù)檢索與挖掘的實(shí)際應(yīng)用之一,不僅有利于發(fā)掘高校文化知識(shí)和歷史內(nèi)涵的珍貴價(jià)值,而且有利于為造福社會(huì)發(fā)揮重要的作用。我們?cè)诳疾熘邪l(fā)現(xiàn),承載著高校杰出人物輝煌業(yè)績(jī)的人物專題檔案,在被真實(shí)地挖掘并再現(xiàn)出其中精華的同時(shí),對(duì)與人物處于同一抽象層次的其他對(duì)象,如事件、地點(diǎn)、機(jī)構(gòu)等附載在檔案上的諸多史實(shí)信息,以及如何形成這一檔案的純技術(shù)層面的許多知識(shí),都具有非常豐富的挖掘價(jià)值。

      1. 高校人物專題檔案大數(shù)據(jù)來(lái)源分析

      人物專題檔案可被采集利用的數(shù)據(jù)來(lái)源很多,如Internet上專業(yè)的檢索網(wǎng)站,許多機(jī)構(gòu)建立的Web主頁(yè),以及一些個(gè)人主頁(yè)上的人物檔案信息,都是高校檔案管理機(jī)構(gòu)捕獲人物專題檔案信息資源的重要渠道。與這些數(shù)據(jù)源相比,高校館藏主數(shù)據(jù)源具有格式規(guī)范、質(zhì)量較高等特點(diǎn),是人物專題檔案大數(shù)據(jù)追蹤研究的理想數(shù)據(jù)源。

      據(jù)調(diào)研資料分析顯示,目前高校構(gòu)建人物專題檔案大數(shù)據(jù)庫(kù)可供采集的大數(shù)據(jù)來(lái)源主要有四類:一是每年接收進(jìn)館(室)的學(xué)籍檔案,這些檔案里面包含了全校各個(gè)學(xué)歷層次的應(yīng)屆畢業(yè)生在校期間的個(gè)人信息記錄,是富含學(xué)生這一人物群體信息最多的數(shù)據(jù)來(lái)源。二是每年接收進(jìn)館(室)的學(xué)生工作方面的檔案,這些檔案里面包含了學(xué)生的獎(jiǎng)懲信息等,是大學(xué)生在校期間參加各類重要活動(dòng)的真實(shí)記錄。三是人事檔案,這些檔案里面包含了全校教職工的個(gè)人信息,是豐富而詳實(shí)的教職工個(gè)人信息記錄。四是科研檔案,這些檔案里面包含了師生參與科研活動(dòng)過(guò)程中產(chǎn)生的各類學(xué)術(shù)方面的信息記錄,對(duì)研究高校人物科研情況,具有舉足輕重的憑證作用。

      2.高校人物專題檔案大數(shù)據(jù)處理的難點(diǎn)分析

      通過(guò)調(diào)研分析發(fā)現(xiàn),高校人物專題檔案大數(shù)據(jù)處理的難點(diǎn),主要體現(xiàn)在兩個(gè)方面:一是館藏中的人物專題檔案格式多種多樣,數(shù)據(jù)的結(jié)構(gòu)也可能不斷發(fā)生變化,人物信息往往隱含在復(fù)雜的數(shù)據(jù)之中,如何對(duì)異構(gòu)多變的人物專題檔案信息進(jìn)行數(shù)據(jù)清洗(Data Cleansing),把雜亂的“臟的”數(shù)據(jù)(Dirty Data)去除掉,并轉(zhuǎn)變?yōu)檫m合人物追蹤研究的規(guī)范化的數(shù)據(jù)格式,這是目前高校人物專題檔案大數(shù)據(jù)庫(kù)建設(shè)需要解決的一個(gè)難點(diǎn)。二是在檔案數(shù)據(jù)的文本空間,人物是比文字對(duì)象高一個(gè)層次的抽象實(shí)體,而作為處于抽象層次的實(shí)體,它與文字對(duì)象所描述的具體名稱并不形成一一對(duì)應(yīng)的關(guān)系,可能存在著大量的同名同姓卻不是同一人物的現(xiàn)象,即使是同一人物,也往往有不同的稱謂,這是導(dǎo)致檢索人物專題檔案信息易出現(xiàn)歧義的一個(gè)難點(diǎn)。此外,我們發(fā)現(xiàn)這些歧義問(wèn)題可大致分為兩類:一類是不同人物和其他非人物實(shí)體可能具有相同的名字;另一類是同一個(gè)人物可能具有不同的名字或稱謂。歧義問(wèn)題的客觀存在,可能造成人物專題檔案檢索的結(jié)果難以精準(zhǔn)。對(duì)此,我們雖然可以在人名后邊添加一些特定的屬性,并通過(guò)組合查詢來(lái)細(xì)化檢索結(jié)果,但這種做法違背了建立人物專題檔案大數(shù)據(jù)搜索引擎所追求的簡(jiǎn)單快捷原則,且用戶通常不是精通檢索技巧的專家,他們甚至不會(huì)愿意提交額外的查詢?cè)~。

      3. 高校人物專題檔案大數(shù)據(jù)追蹤的線索依據(jù)與處理內(nèi)容

      大數(shù)據(jù)技術(shù)的基本原理告訴我們,在檔案大數(shù)據(jù)文本空間內(nèi),對(duì)人物專題檔案信息數(shù)據(jù)源的跟蹤研究,應(yīng)該按照相關(guān)的線索依據(jù)來(lái)進(jìn)行,而“人物的橫向跟蹤”和“人物的縱向跟蹤”是最重要的線索依據(jù)。所謂“人物的橫向跟蹤”,是指從空間維度研究人與人的聯(lián)系、人與社會(huì)的聯(lián)系等。所謂“人物的縱向跟蹤”,是指從時(shí)間維度研究人的處所變化、人的職位變化、人的態(tài)度立場(chǎng)變化、人的生活狀態(tài)變化等。簡(jiǎn)言之,人物追蹤就是要通過(guò)運(yùn)用大數(shù)據(jù)分析技術(shù),將不同檔案中縱橫交錯(cuò)出現(xiàn)的人物信息片段有效地組織起來(lái),并使分析結(jié)果盡可能接近人物信息的全貌,進(jìn)而客觀地反映該人物的生活歷程。

      此外,在高校檔案大數(shù)據(jù)文本處理領(lǐng)域,人物追蹤在處理內(nèi)容上可大體分為兩大部分:一是制作人物的履歷表。這是指從館藏檔案大數(shù)據(jù)文本中自動(dòng)提取出需制作人物的屬性信息,并把分散的各種屬性信息進(jìn)行整合,形成其完整的生平履歷。二是對(duì)人物的事件進(jìn)行組織。這是指把人物參與相關(guān)事件的信息內(nèi)容,按照內(nèi)在發(fā)展邏輯有效地組織起來(lái),并形成清晰的邏輯結(jié)構(gòu)。值得注意的是:在整理人物事件信息內(nèi)容的基礎(chǔ)上,還應(yīng)注意整理其他相關(guān)信息內(nèi)容與其進(jìn)行匹配,如建立人物的事件信息表、識(shí)別人物的社會(huì)關(guān)系網(wǎng)、識(shí)別人物處所的變化、識(shí)別人物職位的變化、識(shí)別人物態(tài)度立場(chǎng)的變化、識(shí)別人物生活狀況的變化、識(shí)別人物知名度的變化等等。

      4. 高校人物專題檔案大數(shù)據(jù)的處理流程

      高校人物專題檔案大數(shù)據(jù)處理流程,主要有下列幾道程序:

      程序一:對(duì)人物追蹤進(jìn)行大數(shù)據(jù)預(yù)處理。這一階段,需要識(shí)別出若干人物相關(guān)的零散信息,并形成人物基本模型的片段,同時(shí)應(yīng)對(duì)這些片段性的信息進(jìn)行同一性判別,即把描述不同人物的模型片段區(qū)分開。值得指出的是:在人名周邊的語(yǔ)句中,與該人物經(jīng)常共現(xiàn)的其他人名,即該人物的交往人群也應(yīng)是一個(gè)重要的區(qū)分特征。簡(jiǎn)言之,預(yù)處理階段,是指為人物模型的計(jì)算做好準(zhǔn)備,但還沒有形成完整的人物模型。

      程序二:運(yùn)用數(shù)據(jù)融合技術(shù)建立完整的人物模型。人物專題檔案數(shù)據(jù)在預(yù)處理階段形成的人物模型片段信息是分散的、孤立的,不能代表人物全貌,更無(wú)法凸顯出人物的抽象實(shí)體,這就需要把代表不同人物的模型片段區(qū)分開,并對(duì)同一人物的模型片段信息進(jìn)行有機(jī)整合,進(jìn)而形成完整的人物模型,以利呈現(xiàn)人物的履歷等信息。值得指出的是:為取得完整的人物模型信息,不僅需要參照多個(gè)異構(gòu)來(lái)源的大數(shù)據(jù)信息,而且需要把多個(gè)人物模型片段的信息有機(jī)融合在一起,最終才能形成基本完整的人物信息。

      程序三:研發(fā)人物專題檔案大數(shù)據(jù)處理的相關(guān)應(yīng)用技術(shù)。在進(jìn)行高校人物專題檔案大數(shù)據(jù)處理的過(guò)程中,實(shí)施追蹤研究需要依靠專業(yè)技術(shù)手段的支撐,因此,我們不僅要科學(xué)選擇供應(yīng)商提供的專業(yè)數(shù)據(jù)搜索引擎,而且要高度重視研發(fā)相關(guān)的應(yīng)用技術(shù)與之匹配,如提供對(duì)特定人物的跟蹤、流行人物的發(fā)現(xiàn)等各種應(yīng)用技術(shù),以期達(dá)到方便用戶直接檢索利用之目的。

      基于深度學(xué)習(xí)的“人臉識(shí)別”技術(shù)是高校檔案機(jī)構(gòu)進(jìn)行人物專題檔案大數(shù)據(jù)研發(fā)時(shí)可咨利用的一種強(qiáng)有力的手段。人臉檢測(cè)是基于計(jì)算機(jī)識(shí)別算法的一項(xiàng)數(shù)字化技術(shù),用以準(zhǔn)確獲取人的臉部形狀和位置信息,甚至可以精確識(shí)別人臉細(xì)節(jié)的微妙特征?,F(xiàn)今乃至未來(lái)的高校館藏照片檔案中,數(shù)字照片將占巨大的比重,從內(nèi)容上來(lái)說(shuō),人物圖像檔案又占有相當(dāng)?shù)谋戎亍鹘y(tǒng)的照片檔案管理方法所需的人力、物力成本巨大,如果要查詢某個(gè)具體人物的相關(guān)照片資料,僅靠手工識(shí)別,要在一堆照片中找到需要的照片,相信對(duì)每個(gè)檔案員的眼力都是一個(gè)嚴(yán)峻的考驗(yàn)。針對(duì)該問(wèn)題,人臉識(shí)別技術(shù)是高校檔案管理機(jī)構(gòu)一種有效的低成本解決方案,可在人物照片檔案大數(shù)據(jù)管理中達(dá)到較好的可視化效果。

      當(dāng)前,高校檔案管理者可以借助Google的免費(fèi)圖片管理工具——Picasa來(lái)快速找出每個(gè)人物的照片。Picasa的“人臉識(shí)別”功能是通過(guò)一種復(fù)雜的算法,對(duì)照片人物進(jìn)行研判,將所有包含人臉的照片自動(dòng)歸集并統(tǒng)一命名。這樣做的最大好處就是能夠讓用戶隨時(shí)利用其搜索欄,快速查找所需人物的照片,而且之后所有新入庫(kù)的相片也都會(huì)按照這個(gè)規(guī)則,自動(dòng)歸類到相應(yīng)位置,方便快捷。具體整理方法:首先,讓軟件自動(dòng)搜索照片檔案庫(kù),對(duì)所有包含人臉的照片檔案進(jìn)行自動(dòng)分類。在此過(guò)程中,為了方便用戶進(jìn)行辨認(rèn),每一張被檢測(cè)到的照片都會(huì)以大頭貼的形式進(jìn)行顯示(相同的人物將被自動(dòng)整理在一起)。由于暫未標(biāo)識(shí)姓名,這些頭像暫時(shí)都將被自動(dòng)存放在一個(gè)“未命名人物”文件夾中,等待用戶處理。待照片初次分析完畢,我們便可以通過(guò)雙擊“未命名人物”為該人物添加名字標(biāo)記。建立人物標(biāo)簽后,日常查找只需將待檢索的人名輸入到搜索框中,片刻功夫(當(dāng)你輸入一個(gè)字后,準(zhǔn)備輸入第二個(gè)字時(shí),軟件已經(jīng)即時(shí)顯示出檢索到的相關(guān)圖片),Picasa便會(huì)自動(dòng)羅列出所有包含該人物的照片,而且準(zhǔn)確度極高。需要注意的是,Picasa也有可能會(huì)誤判,在檢索結(jié)果中我們要通過(guò)手工識(shí)別進(jìn)行一番小小的修正。點(diǎn)擊照片上的“X”標(biāo)記將識(shí)別錯(cuò)誤的照片刪除,這樣剩下的就全部是包含所需人物的照片(包括單人照和合照)。最后點(diǎn)擊“全部確認(rèn)”完成對(duì)人物照片的識(shí)別,這樣在保存照片的文件夾中會(huì)列出所有該人物的照片,按提示點(diǎn)擊導(dǎo)出,將其導(dǎo)出到文件夾保存即可利用。此外,Picasa的人臉識(shí)別還具有一定的學(xué)習(xí)能力,隨著確認(rèn)照片的增多,它的識(shí)別能力也會(huì)相應(yīng)增強(qiáng)。此類智能工具可在高校人物專題檔案大數(shù)據(jù)研發(fā)中起到重要作用。

      高校檔案管理機(jī)構(gòu)要密切關(guān)注大數(shù)據(jù)智能處理技術(shù)的發(fā)展走勢(shì),積極引入成熟的產(chǎn)品與服務(wù),不斷創(chuàng)新人物專題檔案大數(shù)據(jù)處理專業(yè)模塊的智能集成模式,不斷完善和創(chuàng)新“混搭型”的應(yīng)用機(jī)制,不斷強(qiáng)化“一站式”服務(wù)的個(gè)性化功能,以期提升人物專題檔案信息數(shù)據(jù)資源與用戶需求的精準(zhǔn)對(duì)接水平。

      (作者單位:南京藝術(shù)學(xué)院綜合檔案室)

      猜你喜歡
      檢索信息
      CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
      通過(guò)實(shí)際案例談如何利用外文庫(kù)檢索提高檢索效率
      瑞典專利數(shù)據(jù)庫(kù)的檢索技巧
      調(diào)整檢索思路,提高檢索效率
      英國(guó)知識(shí)產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫(kù)信息檢索
      訂閱信息
      圖片檢索研究
      展會(huì)信息
      信息
      健康信息
      尖扎县| 吴川市| 疏附县| 湟中县| 四川省| 如皋市| 正镶白旗| 肇东市| 天气| 姚安县| 集贤县| 芒康县| 金川县| 班戈县| 锡林浩特市| 什邡市| 和硕县| 古蔺县| 安国市| 佳木斯市| 大足县| 六枝特区| 邯郸县| 健康| 子长县| 阿拉善右旗| 乌拉特后旗| 从化市| 揭阳市| 时尚| 忻城县| 柳林县| 皋兰县| 天等县| 三江| 连云港市| 开原市| 娱乐| 监利县| 易门县| 呼和浩特市|