摘 要 管理電子文檔最好的策略當(dāng)屬于給文檔建立索引并且對(duì)其進(jìn)行有效地分類(lèi)。大多數(shù)的組織都將其文檔存儲(chǔ)在以關(guān)鍵字命名的文件結(jié)構(gòu)中。然而將文件分發(fā)在合適的文件結(jié)構(gòu)必須由對(duì)此文件結(jié)構(gòu)非常了解的人來(lái)完成,只有他們能保證分類(lèi)的準(zhǔn)確性。在以前,這樣的員工需要花費(fèi)大量的時(shí)間進(jìn)行文件的人工分類(lèi)。這樣的工作非常耗時(shí),枯燥和乏味。有時(shí)一些錯(cuò)誤由員工對(duì)文件結(jié)構(gòu)系統(tǒng)的知識(shí)匱乏或個(gè)人的疏忽引起,而這樣的錯(cuò)誤會(huì)降低其他員工獲取文件的效率。為了得到更高的準(zhǔn)確率并減輕員工的負(fù)擔(dān),企業(yè)都很希望能部署一個(gè)自動(dòng)分類(lèi)的解決方案,以達(dá)到員工更有效及更準(zhǔn)確的獲取存儲(chǔ)信息。
【關(guān)鍵詞】信息生命 云計(jì)算 機(jī)器學(xué)習(xí)
信息生命周期管理(Information Lifecycle Governance - ILG)是每個(gè)企業(yè)的基石。ILG幫助企業(yè)管理他們的商業(yè)信息,同時(shí)降低風(fēng)險(xiǎn),減少消耗并且最大限度使用數(shù)據(jù)的價(jià)值。ILG主要用于數(shù)據(jù)的清理,歸類(lèi),記錄,管理和銷(xiāo)毀。所有這些都基于一個(gè)最基本的功能:數(shù)據(jù)分類(lèi)。數(shù)據(jù)的銷(xiāo)毀是指將商業(yè)數(shù)據(jù)分類(lèi)到有價(jià)值一類(lèi)和對(duì)企業(yè)再無(wú)價(jià)值并且等待銷(xiāo)毀一類(lèi)。當(dāng)存儲(chǔ)的數(shù)據(jù)已達(dá)到銷(xiāo)毀年限必須要被銷(xiāo)毀。真實(shí)的ILG系統(tǒng)在沒(méi)有數(shù)據(jù)分類(lèi)的前提下是無(wú)法使用的。例如這樣一個(gè)文件存儲(chǔ)系統(tǒng):兩層結(jié)構(gòu),第一層由15個(gè)類(lèi)別組成,例如“Accounting”,“Development”, “Human Resources”等等,每個(gè)類(lèi)別的第二層有20-30個(gè)類(lèi)別,例如在“Human Resource”類(lèi)別下有”Application Files”, “Employee Application”等。至今大多數(shù)的文檔都是人工進(jìn)行存儲(chǔ)的,人力資源的員工要負(fù)責(zé)對(duì)文件進(jìn)行合理的分類(lèi),假使每天一個(gè)HR產(chǎn)生250個(gè)文件也就是說(shuō)250個(gè)文件需要人工進(jìn)行分類(lèi)。如果我們有375個(gè)類(lèi)別每個(gè)類(lèi)別下10個(gè)文檔,每天需要人工分類(lèi)的文件數(shù)就是3750,當(dāng)精確度要求很高的時(shí)候也不是很容易的。這個(gè)例子說(shuō)明了一個(gè)自動(dòng)分類(lèi)的系統(tǒng)不僅是很有用的,而且還是必須得。
此篇文章旨在建立一個(gè)自動(dòng)分類(lèi)過(guò)程并且將其與企業(yè)文件系統(tǒng)進(jìn)行合適的連接。
1 基本概念
云計(jì)算——是一種用戶(hù)部署在互聯(lián)網(wǎng)上使用遠(yuǎn)程服務(wù)器網(wǎng)絡(luò)的技術(shù),遠(yuǎn)程服務(wù)器可存儲(chǔ),管理和處理數(shù)據(jù)。在云環(huán)境中,網(wǎng)絡(luò)、硬件、系統(tǒng)軟件都可以被當(dāng)作服務(wù)提供給用戶(hù)。云環(huán)境的最大優(yōu)勢(shì)是能幫助最大限度的李彤分享資源從而減少開(kāi)銷(xiāo)。在云環(huán)境中,資源可以根據(jù)用戶(hù)的需求進(jìn)行動(dòng)態(tài)的分配。
本文的測(cè)試環(huán)境就是建立在一個(gè)私有云的存儲(chǔ)環(huán)境中。所有自動(dòng)分類(lèi)系統(tǒng)的測(cè)試都運(yùn)行在這個(gè)存儲(chǔ)環(huán)境。所有已分類(lèi)和未分類(lèi)的文檔都被存儲(chǔ)在云系統(tǒng)中并且通過(guò)Internet獲得。
2 分類(lèi)儲(chǔ)存
在云計(jì)算環(huán)境中,所有未分類(lèi)和已分類(lèi)的文檔,不論來(lái)自互聯(lián)網(wǎng),公司內(nèi)網(wǎng)或者文件系統(tǒng)都將被存儲(chǔ)在云存儲(chǔ)系統(tǒng)中。數(shù)據(jù)分類(lèi)模塊從云存儲(chǔ)系統(tǒng)中獲得文檔,分析文件內(nèi)容,進(jìn)行分類(lèi)后將其放回到云存儲(chǔ)系統(tǒng)中,此時(shí)文件將根據(jù)其在文件存數(shù)系統(tǒng)中所屬的類(lèi)別進(jìn)行分類(lèi)存儲(chǔ)。
內(nèi)容分析——分為定量?jī)?nèi)容分析及話(huà)語(yǔ)分析。內(nèi)容分析是在社會(huì)學(xué)里研究文本內(nèi)容的工具。它能幫助組織理解大量存儲(chǔ)的非結(jié)構(gòu)化信息中的內(nèi)容及上下文環(huán)境。例如,內(nèi)容分析工具可以幫助我們回答的問(wèn)題有:最常出現(xiàn)的詞語(yǔ)和概念是什么?或者兩個(gè)最可能一起出現(xiàn)的詞語(yǔ)是什么?定量?jī)?nèi)容分析主要關(guān)注于詞語(yǔ)出現(xiàn)的頻率,次數(shù),關(guān)鍵字的頻率等等。這些信息將被以定量數(shù)據(jù)的形式存儲(chǔ)并用于以后進(jìn)行統(tǒng)計(jì)上的分析。與定量?jī)?nèi)容分析相反,話(huà)語(yǔ)分析主要關(guān)注與文章的含義,主題。研究人員必須能理解文章的客觀意思,需要更多的關(guān)注于文章字里行間的語(yǔ)法及語(yǔ)義信息。
在自動(dòng)分類(lèi)中,內(nèi)容分析主要起到查找,分析和內(nèi)容挖掘的作用。例如在聚類(lèi)方法中,聚類(lèi)的結(jié)果通常是一個(gè)文檔的自然分布和分布結(jié)構(gòu)。研究人員需要對(duì)每個(gè)聚類(lèi)簇中的文檔進(jìn)行分析從而理解每個(gè)簇的主要含義和關(guān)鍵詞組,在此基礎(chǔ)上進(jìn)行例如,數(shù)據(jù)清洗或建立分類(lèi)條件。更好地理解文件集非常有益于高效,準(zhǔn)確的分類(lèi)。一個(gè)簡(jiǎn)單的建立分類(lèi)條件的例子是,當(dāng)一個(gè)文檔包含“訓(xùn)練集”這樣的關(guān)鍵字則非常有可能在描述數(shù)據(jù)分類(lèi)的事情,因?yàn)榇蠖鄶?shù)的監(jiān)督型學(xué)習(xí)的數(shù)據(jù)分類(lèi)都需要一個(gè)訓(xùn)練集。則當(dāng)聚類(lèi)的某個(gè)簇含有類(lèi)似的語(yǔ)義非常明確的詞語(yǔ)或短語(yǔ)時(shí),這一類(lèi)能被清楚地標(biāo)記出來(lái)。
3 機(jī)器學(xué)習(xí)
3.1 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它的關(guān)鍵是從數(shù)據(jù)中學(xué)習(xí)并且使用學(xué)習(xí)到的知識(shí)建立一個(gè)系統(tǒng),這個(gè)系統(tǒng)可以在今后的生產(chǎn)環(huán)境中重復(fù)使用。例如,一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)可以被垃圾及非垃圾郵件訓(xùn)練,經(jīng)過(guò)足夠的學(xué)習(xí)之后,這個(gè)系統(tǒng)應(yīng)該有可以識(shí)別垃圾郵件的能力從而使用戶(hù)免于垃圾文件的困擾。另一個(gè)例子是關(guān)于數(shù)據(jù)挖掘,在經(jīng)過(guò)記錄和分析用戶(hù)的行為后,系統(tǒng)應(yīng)該能輕易地推測(cè)那種用戶(hù)更可能買(mǎi)某一類(lèi)商品或者哪兩種商品更有可能一起被客戶(hù)購(gòu)買(mǎi)。
機(jī)器學(xué)習(xí)的方法包括以下幾種。聚類(lèi),未監(jiān)督學(xué)習(xí)方法,將文檔分發(fā)到每個(gè)聚類(lèi)簇中,使得在同一簇中的文檔根據(jù)某些既定的規(guī)則非常相似,而不同簇中的文檔則非常不同。支持向量機(jī),監(jiān)督型學(xué)習(xí)方法,它使用一些已經(jīng)被分類(lèi)的樣本集進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果是一個(gè)分類(lèi)模型可用于未分類(lèi)文檔的分類(lèi)。其他的學(xué)習(xí)方法包括決策樹(shù),人工神經(jīng)網(wǎng)絡(luò)等等。
3.2 文檔分類(lèi)
文檔分類(lèi)或歸類(lèi)是在圖書(shū)管理科學(xué),信息科學(xué)和計(jì)算機(jī)科學(xué)中非常重要的一個(gè)研究方向。他的目的是將文檔歸類(lèi)于一個(gè)或多個(gè)類(lèi)別中以使得相似的文檔在一起。文檔分類(lèi)可以人工或使用計(jì)算機(jī)完成。使用計(jì)算機(jī)完成的分類(lèi)多數(shù)在機(jī)器計(jì)算的幫助下用于信息及計(jì)算機(jī)科學(xué)領(lǐng)域??梢苑诸?lèi)的文件包括文本,圖片,音樂(lè)等等。每一種形式的文件都有他們特別的分類(lèi)問(wèn)題。
自然語(yǔ)言處理是要進(jìn)行分類(lèi)前必須解決的主要問(wèn)題。執(zhí)行自動(dòng)分類(lèi)的電子計(jì)算機(jī)必須理解文檔內(nèi)容,這些文檔是由非結(jié)構(gòu)化的自然語(yǔ)言組成,比如英語(yǔ)而不是機(jī)器語(yǔ)言。機(jī)器必須能翻譯文檔的自然語(yǔ)言并且提取出能反映文檔,分類(lèi)的有意義信息,并且使用他們進(jìn)行有效的文本分類(lèi)。最直接的策略就是分詞。一個(gè)完整的文檔可以被分解成一串單獨(dú)的詞組。每個(gè)文檔則可以由這些詞組中最常出現(xiàn)的子集代表。因此一個(gè)文檔就會(huì)被看作一些次的集合,在這種情況下語(yǔ)法和語(yǔ)義信息是不需要的。在此前提下,要進(jìn)行分類(lèi),最重要的一步是找到一個(gè)合適的方法用這些詞的集合來(lái)表示一篇文檔。為了避免無(wú)意義詞的影響可以首先移除詞組集合中的“停詞”比如“a”,“and”,“but”等等,這些“停詞”并不能傳遞任何和主題有關(guān)的信息。然后使用空間向量模型如下:endprint
假設(shè)t1,t2…tn代表描述文檔的獨(dú)立詞組D1,D2…Dm代表文檔。Di可被向量空間模型表示如下:Di=(ai1,ai2,…,ain)T
aij是詞組 tj在文檔Di 中的權(quán)重。aij c可以簡(jiǎn)單的是詞組tj在文檔 Di中出現(xiàn)的次數(shù)或一些更復(fù)雜的計(jì)算例如tf-idf,它結(jié)合了詞組頻率及文檔反向頻率,Tf-idf在充分考慮詞組頻率的同時(shí)避免了一些普通詞組的影響,這些普通詞組可能出現(xiàn)在大多數(shù)文檔中,因此可以被當(dāng)作噪點(diǎn)處理。
3.3 無(wú)監(jiān)督的文檔分類(lèi)
文檔人工歸類(lèi)是一個(gè)非常耗時(shí)和枯燥的工作,有時(shí)人工分類(lèi)基于個(gè)人的主觀判斷并不是很好控制,因此無(wú)監(jiān)督的分類(lèi)是一個(gè)非常好的選擇。對(duì)于無(wú)監(jiān)督的方法來(lái)說(shuō),輸入只是一些需要被分類(lèi)的文檔。假設(shè)研究人員對(duì)這些文檔一無(wú)所知。文檔的聚類(lèi)就是將這些文檔分發(fā)進(jìn)不同的組中。同一組的分檔將比不同組的更像彼此。因此聚類(lèi)可以說(shuō)是無(wú)監(jiān)督學(xué)習(xí)方法中最重要的一種。聚類(lèi)的輸出是一組有結(jié)構(gòu)的未標(biāo)記的數(shù)據(jù)組,每個(gè)組中有一些文檔,這個(gè)生成的結(jié)構(gòu)可被看作機(jī)器生成的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。
4 K-means 算法
在傳統(tǒng)的無(wú)監(jiān)督分類(lèi)過(guò)程中會(huì)在整個(gè)集合中運(yùn)行實(shí)際的聚類(lèi)方法例如k-means。在聚類(lèi)中最常用的相似判斷規(guī)則是兩個(gè)文檔空間向量的距離。屬于一個(gè)聚類(lèi)簇中的文檔必須足夠“接近”,這個(gè)閾值需提前設(shè)定。K-means算法迭代運(yùn)行直到聚類(lèi)簇不再改變。此時(shí),穩(wěn)定的聚類(lèi)簇被當(dāng)作一個(gè)集合。
K-means 算法:
(1)選擇正整數(shù) k 作為分類(lèi)類(lèi)別個(gè)數(shù);
(2)選擇K個(gè)隨機(jī)對(duì)象作為簇初始中心;
(3)重復(fù);
1.將任意一個(gè)對(duì)象分發(fā)到距離最近的簇中。
2.計(jì)算新生成簇的中心。
(4)直到。
1.簇的中心不再改變或者。
2.所有的對(duì)象不再移動(dòng)。
將文件轉(zhuǎn)化成向量之后,距離計(jì)算可以使用例如歐氏距離這樣的方法來(lái)計(jì)算文件之間的“相似性”。
監(jiān)督學(xué)習(xí)算法——當(dāng)數(shù)據(jù)量不斷增大時(shí),如果使用傳統(tǒng)非監(jiān)督型學(xué)習(xí)方法,當(dāng)加入新的數(shù)據(jù)時(shí),所有的程序?qū)⒅匦聢?zhí)行一遍而產(chǎn)生一個(gè)全新的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。這非常耗時(shí)耗力,并且不斷改變的數(shù)據(jù)結(jié)構(gòu)將使查詢(xún)者陷入困惑。監(jiān)督型學(xué)習(xí)方法是一個(gè)通過(guò)提前人工分類(lèi)的訓(xùn)練集生成分類(lèi)器的重要分類(lèi)方法。分類(lèi)器可以對(duì)全新的,未分類(lèi)的數(shù)據(jù)盡心分類(lèi)。
Boosting分類(lèi)算法是綜合幾個(gè)簡(jiǎn)單并且并不準(zhǔn)確的分類(lèi)器從而得到高準(zhǔn)確性單一分類(lèi)器的方法。這個(gè)單一分類(lèi)器開(kāi)始時(shí)并不是很準(zhǔn)確但是持續(xù)的被訓(xùn)練。為了訓(xùn)練每個(gè)簡(jiǎn)單分類(lèi)器,boosting算法通過(guò)訓(xùn)練集為每一個(gè)分類(lèi)樣本存儲(chǔ)一個(gè)權(quán)重。每次分類(lèi)錯(cuò)誤的樣本將增加權(quán)重以使得下一個(gè)分類(lèi)器能更關(guān)注于這些曾經(jīng)分類(lèi)錯(cuò)誤的樣本從而提高分類(lèi)準(zhǔn)確性。下圖展示了Adaboost算法找到一系列弱分類(lèi)器并且給樣本增加權(quán)重使得被錯(cuò)誤分類(lèi)的樣本得到進(jìn)一步重視的整個(gè)過(guò)程。
半監(jiān)督學(xué)習(xí)方法——是一種使用少量的已分類(lèi)數(shù)據(jù)生成分類(lèi)器并通過(guò)它對(duì)一些未分類(lèi)數(shù)據(jù)進(jìn)行分類(lèi),之后將此數(shù)據(jù)加入訓(xùn)練集進(jìn)一步訓(xùn)練分類(lèi)器的方法。例如,分析關(guān)于大學(xué)課程的文檔,在已經(jīng)分類(lèi)到大學(xué)課程這一類(lèi)的文檔中我們發(fā)現(xiàn)當(dāng)文檔中含有“作業(yè)”這個(gè)關(guān)鍵詞的時(shí)候,此文檔很有可能是大學(xué)課程相關(guān)文檔。假使我們接受這一條件,并且使用它來(lái)分析未分類(lèi)的文檔,“課程”這一次也頻繁出現(xiàn),因此可以用于提高分類(lèi)的準(zhǔn)確性。
基于條件的分類(lèi)——在一些情況下,有些詞含有很特殊的信息但是可能出現(xiàn)頻率很低,這些詞需要加倍重視,因?yàn)樗麄冊(cè)诜诸?lèi)中起很重要的作用,基于條件分類(lèi)能充分利用這些詞的特點(diǎn)并且建立一個(gè)性能很高的分類(lèi)器。
三種分類(lèi)器方法:
(1)聚類(lèi)和半監(jiān)督學(xué)習(xí)方法的結(jié)合:當(dāng)我們對(duì)文檔集合一無(wú)所知時(shí)可以先使用聚類(lèi)快速生成一個(gè)文檔結(jié)構(gòu),當(dāng)聚類(lèi)簇足夠大時(shí)我們可以將聚類(lèi)簇標(biāo)記為新的類(lèi)。標(biāo)記完所有文檔和聚類(lèi)簇之后,已經(jīng)標(biāo)記的文檔可作為半監(jiān)督學(xué)習(xí)方法的輸入,輸出的分類(lèi)器和還未標(biāo)記的文檔可以遞歸運(yùn)行半監(jiān)督學(xué)習(xí)方法,直到生成一個(gè)穩(wěn)定的分類(lèi)器。
(2)監(jiān)督學(xué)習(xí)方法/半監(jiān)督學(xué)習(xí)方法和人工校驗(yàn)的結(jié)合:進(jìn)行完分類(lèi)之后,當(dāng)一個(gè)文件被判定為與已標(biāo)記的類(lèi)吻合度很低而與其他某個(gè)未標(biāo)記類(lèi)吻合度很高時(shí),有經(jīng)驗(yàn)的分類(lèi)人員將介入人工分類(lèi),當(dāng)此文檔被判定為噪音時(shí)可以刪除,直到所有文檔都符合已標(biāo)記的類(lèi)時(shí),生成的分類(lèi)器將用于之后的分類(lèi)。
(3)基于條件的分類(lèi)算法:如以上,增加條件分類(lèi)特性,分類(lèi)器的性能有時(shí)能有明顯的提高
5 結(jié)論
在(1)中聚類(lèi)結(jié)束后很難將聚類(lèi)簇與給定的文件系統(tǒng)結(jié)構(gòu)一一對(duì)應(yīng),(2)中準(zhǔn)確性與用戶(hù)提供的數(shù)據(jù)好壞有很大關(guān)系,人工進(jìn)行校驗(yàn)非常耗時(shí)耗力。而當(dāng)增加了(3)條件之后,分類(lèi)準(zhǔn)確度有了顯著提升,并且對(duì)于專(zhuān)業(yè)人員來(lái)說(shuō),編寫(xiě)分類(lèi)條件并不是很難。
作者簡(jiǎn)介
劉博斐(1989-),德國(guó)漢諾威大學(xué)通訊工程專(zhuān)業(yè),碩士研究生,從事信息系統(tǒng)總體設(shè)計(jì)、新型智慧城市建設(shè)等領(lǐng)域。
雒琛(1989-),德國(guó)漢諾威大學(xué)計(jì)算機(jī)專(zhuān)業(yè),碩士研究生,從事大數(shù)據(jù)分析應(yīng)用、軟件系統(tǒng)開(kāi)發(fā)等工作。
作者單位
1.中電科新型智慧城市研究院有限公司 廣東省深圳市 518000
2.德國(guó)SAP公司(深圳) 廣東省深圳市 518000endprint