杜若鵬 鮮國建 寇遠(yuǎn)濤
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所/農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)
在海量的科技信息中,文本文獻(xiàn)是最重要的部分[1],文本自動分類技術(shù)是組織和管理海量科技信息的重要手段[2]。文本自動分類研究中,對內(nèi)容相似類目(用詞上非常接近的不同類別)的處理是其中一個(gè)重要課題[3]。
在農(nóng)業(yè)科技文獻(xiàn)中,相近的研究領(lǐng)域的文獻(xiàn),其文本特征信息是高度重合的,在很多情況下,雖然研究的對象不同,但研究方向相同或相近時(shí),其研究手段、分析方法往往都是相同或相似的。如番茄、辣椒和茄子,雖然是不同的作物,但是產(chǎn)品器官均為果實(shí),其育種目標(biāo)、育種途徑及應(yīng)用的主要技術(shù)方法基本相同,因此這3種作物在遺傳育種方面的文獻(xiàn),其關(guān)鍵詞、高頻詞以及全文用詞的相似度非常高。如何對這種內(nèi)容相似類目進(jìn)行精準(zhǔn)分類,是農(nóng)業(yè)數(shù)字圖書館進(jìn)行專題文獻(xiàn)分類以及開展個(gè)性化檢索服務(wù)時(shí)需要解決的重要問題。
文本自動分類中較為關(guān)鍵的環(huán)節(jié)是文本特征抽取,特征抽取準(zhǔn)確與否,直接影響文本分類的最終效果?;谛畔y度的特征選擇算法是目前最常用的,包括文檔頻率(Document Frequency,DF)、信息增益(Information Gain,IG)、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TFIDF)、卡方檢驗(yàn)(Chi-squared,CHI)、互信息(Mutual Information,MI)以及期望交叉熵(Expected Cross Entropy,ECE)等[4]。上述方法在實(shí)踐應(yīng)用中各自表現(xiàn)出優(yōu)點(diǎn)和不足,所以一直處于不斷改進(jìn)和完善中。
筆者從探索適合農(nóng)業(yè)科研領(lǐng)域內(nèi)容相似類目文獻(xiàn)精準(zhǔn)分類方法的目的出發(fā),在前人對TF-IDF改進(jìn)的基礎(chǔ)上,結(jié)合實(shí)際應(yīng)用情況作進(jìn)一步改進(jìn),形成改進(jìn)的TF-IDF-CHI(ImpTF-IDF-CHI)方法。本實(shí)驗(yàn)中運(yùn)用該方法以及傳統(tǒng)的文檔頻率法、信息增益法、TF-IDF法,對從農(nóng)業(yè)專業(yè)知識服務(wù)系統(tǒng)中文科技期刊論文數(shù)據(jù)中選取的近十年有關(guān)番茄、辣椒、茄子、黃瓜、馬鈴薯和模式植物擬南芥等遺傳育種主題文獻(xiàn)4 000多篇進(jìn)行文本特征抽取,并應(yīng)用于樸素貝葉斯分類實(shí)驗(yàn),比較其效果。結(jié)果表明,ImpTF-IDF-CHI方法效果最好,抽取的主題詞代表性強(qiáng),主題分類平均準(zhǔn)確率達(dá)94%,且穩(wěn)定性好,為今后進(jìn)一步開展農(nóng)業(yè)科技文獻(xiàn)主題詞擴(kuò)展、專題文獻(xiàn)分類、檢索,以及個(gè)性化專題情報(bào)服務(wù)打下一定基礎(chǔ)。
文檔頻率法是統(tǒng)計(jì)文檔集中包含每一個(gè)詞的文檔個(gè)數(shù),設(shè)置閾值,保留高于閾值的文檔頻數(shù)所對應(yīng)的詞作為特征詞,過濾掉低于閾值的低頻詞。文檔頻率法簡單易行,但是較為粗糙,而且詞條的文檔頻率閾值不好確定,閾值過大易導(dǎo)致具有代表性的詞條丟失,過小又會導(dǎo)致入選詞條包含大量無貢獻(xiàn)的低頻詞,影響分類效果[5]。
信息增益法是根據(jù)詞條能為整個(gè)分類系統(tǒng)提供的信息量的多少來決定其重要程度。信息增益用特征詞在文本中出現(xiàn)時(shí)與不出現(xiàn)時(shí)的信息熵之差表示,依據(jù)差值的大小決定其作為特征詞的取舍[6]。信息增益算法相對簡單。但是由于考慮特征詞出現(xiàn)與不出現(xiàn)兩種情況,對于小數(shù)據(jù)集,或在類別分布不平衡的情況下,不出現(xiàn)的特征權(quán)值將產(chǎn)生主導(dǎo)作用,因此很難提取小樣本集特征,或者增益比較大的特征詞的實(shí)際詞頻較低[7-8]。由于在實(shí)際應(yīng)用中很多增益比較大的特征詞的實(shí)際詞頻較低,當(dāng)選擇的特征數(shù)量偏小時(shí)容易陷入數(shù)據(jù)稀疏的問題,所以本實(shí)驗(yàn)中的信息增益法采用IG方法與DF文檔頻率法結(jié)合(IG-DF)的方式進(jìn)行。
TF-IDF由Salton在1988年提出[9-10],利用詞頻和逆文檔頻率(出現(xiàn)某詞條的文檔的倒數(shù))的乘積來衡量詞條作為特征詞的分類能力,該算法在文本分類領(lǐng)域得到廣泛應(yīng)用。但是傳統(tǒng)的TF-IDF法存在不足[10-18],如同一個(gè)特征詞在長文檔中往往比在短文檔中出現(xiàn)的頻數(shù)更大,會影響到分類效果;還有就是忽略了數(shù)據(jù)集偏斜(數(shù)據(jù)集中各類文檔數(shù)不均衡,可能存在數(shù)量級的差距)和特征詞在類間和類內(nèi)的分布(在一類中經(jīng)常出現(xiàn)而在其他類中很少出現(xiàn)的特征詞權(quán)重會被低估)等問題。眾多學(xué)者針對TF-IDF算法存在的不足進(jìn)行過多次改進(jìn)。如使用特征詞在文檔中的頻率代替其在文檔中的頻數(shù)[10],來減弱文檔長短帶來的影響;How等[11]提出CTD(Category Term Descriptor)法,以彌補(bǔ)類別數(shù)據(jù)集偏斜帶來的困擾;沈志斌等[12]提出BOR-TFIxDF法,張瑜等[13]提出由“權(quán)重調(diào)整因子-類內(nèi)離散度-類間偏斜度”組成的WA-DI-SI算法,趙小華等[14]將TF-IDF與CHI相結(jié)合的算法,路永和等[15]將特征權(quán)重(Term Weight,TW)與TF-IDF結(jié)合的算法等,都是重新修正各個(gè)特征詞的權(quán)重,以減弱特征詞在類間、類內(nèi)分布帶來的影響。
筆者改進(jìn)的TF-IDF-CHI(ImpTF-IDF-CHI)方法包括重新構(gòu)造卡方值加權(quán)函數(shù)、特征詞詞頻加權(quán)函數(shù)以及逆文檔頻率加權(quán)函數(shù),并對特征詞加權(quán)函數(shù)引入修正因子。
(1)重新構(gòu)造卡方值加權(quán)函數(shù)。通過重新構(gòu)造卡方值加權(quán)函數(shù)對特征詞權(quán)重計(jì)算進(jìn)行優(yōu)化。構(gòu)造函數(shù)見公式(1)。
其中,ti代表第i個(gè)特征詞;CHI(ti)表示該特征詞的卡方值,計(jì)算方式見公式(2)。
N代表總文檔數(shù),Ati表示包含特征詞ti且屬于假設(shè)目標(biāo)分類的文檔數(shù),Bti表示包含特征詞ti且不屬于假設(shè)目標(biāo)分類的文檔數(shù),Cti表示不包含特征詞ti且屬于假設(shè)目標(biāo)分類的文檔數(shù),Dti表示不包含特征詞ti且不屬于假設(shè)目標(biāo)分類的文檔數(shù)。構(gòu)造函數(shù)中,對卡方值進(jìn)行取對數(shù)運(yùn)算是為避免直接使用卡方值導(dǎo)致加權(quán)值波動劇烈,出現(xiàn)過大或過小的情況。同時(shí),根據(jù)AtiDti與BtiCti差值,對構(gòu)造函數(shù)進(jìn)行了分段處理。對于BtiCti大于AtiDti這種情況,通過對特征加權(quán)值判定為負(fù)值的方式,對其進(jìn)行特征過濾。
(2)重新構(gòu)造特征詞詞頻加權(quán)函數(shù)。對TF-IDF特征詞加權(quán)函數(shù)進(jìn)行優(yōu)化處理。首先是對特征詞詞頻加權(quán)部分進(jìn)行函數(shù)重構(gòu),見公式(3)。
其中,第u篇文檔用du表示,freq(ti,du)表示文檔du中的特征詞ti的絕對詞頻,∑j freq(ti,du)表示文檔du中所有特征詞的總詞頻。二者相除等于特征詞ti在文檔du中的相對詞頻,然后再計(jì)算每篇文檔中的特征詞ti的相對詞頻并且相加求和,得到特征詞ti的總相對詞頻。所以使用相對詞頻代替?zhèn)鹘y(tǒng)方法中絕對詞頻,是為避免特征加權(quán)計(jì)算時(shí)詞頻計(jì)算偏向長文本。同時(shí),引入2個(gè)修正因子,對特征詞ti的加權(quán)計(jì)算進(jìn)行優(yōu)化。freq-C(ti)表示目標(biāo)分類C所包含的全部文檔中特征詞ti的絕對詞頻之和,∑k freq(tik)表示特征詞ti在所有文檔中的絕對詞頻之和。二者之比,表示特征詞ti在目標(biāo)分類C中的詞頻占自身總詞頻的多少。該比值取值范圍在[0,1][19]。比值越大、越接近1,表示特征詞ti主要分布在目標(biāo)分類C的所屬文檔,從側(cè)面反應(yīng)特征詞ti的詞頻分布與目標(biāo)分類C文檔的相關(guān)性。同理,∑mfreq-C(tm)表示目標(biāo)分類C文檔中所有特征詞的詞頻之和,freq-C(ti)與其比值越大、越接近1,表示特征詞ti在目標(biāo)分類C文檔中的詞頻比重大。該比值可以一定程度上反應(yīng)特征詞ti在分類C中的重要程度。在實(shí)際應(yīng)用中,多個(gè)小數(shù)相乘的結(jié)果往往會很小,甚至接近0。因此,引入常數(shù)λ對運(yùn)算結(jié)果進(jìn)行放大。本試驗(yàn)中常數(shù)λ設(shè)置為10 000,取得了良好效果。引入上述2個(gè)修正因子,理論上可以有效地篩選與目標(biāo)分類C契合度高且重要的特征詞。
(3)重新構(gòu)造逆文檔頻率加權(quán)函數(shù)。對逆文檔頻率加權(quán)計(jì)算部分進(jìn)行優(yōu)化改造,見公式(4)。
N表示文本集中的總文檔數(shù),n(ti)代表包含特征詞ti的文檔數(shù),即ti的文檔頻率。采用對數(shù)運(yùn)算是為了使逆文檔頻率更加平滑。為應(yīng)對特征詞的文檔頻率為0的情況,在分母增加常數(shù)項(xiàng),從而避免導(dǎo)致無法計(jì)算的局面。
綜上所述,改進(jìn)的文本特征詞加權(quán)函數(shù)見公式(5)。
最終的特征詞加權(quán)計(jì)算公式,分別從特征詞詞頻的相關(guān)性及貢獻(xiàn)度、文檔頻率普遍性、特征詞與目標(biāo)分類間的獨(dú)立性等多維度對特征詞的加權(quán)進(jìn)行綜合衡量。
為了檢驗(yàn)ImpTF-IDF-CHI(ti,du)對文本特征詞抽取加權(quán)算法的有效性,進(jìn)行文本分類實(shí)驗(yàn)。首先,對農(nóng)業(yè)專業(yè)領(lǐng)域的相近主題文獻(xiàn)進(jìn)行特征詞抽取,然后通過文本分類驗(yàn)證所抽取的特征詞對所在分類文獻(xiàn)的區(qū)分效果,證明其具有很強(qiáng)的文本特征代表性。同時(shí),為證明ImpTF-IDF-CHI(ti,du)方法的優(yōu)越性,將其分類效果與前述的3種特征抽取方法進(jìn)行比較。實(shí)驗(yàn)平臺的硬件、軟件環(huán)境,如表1所示。
表1 實(shí)驗(yàn)平臺
采用農(nóng)業(yè)專業(yè)知識服務(wù)系統(tǒng)的近十年的部分中文期刊論文數(shù)據(jù),從中選取番茄遺傳育種、辣椒遺傳育種、黃瓜遺傳育種、茄子遺傳育種、馬鈴薯遺傳育種以及以模式植物擬南芥為研究主體的6類文獻(xiàn)(其主要特點(diǎn)是高頻詞、關(guān)鍵詞重合,全文用詞相似度高),采用文檔頻率(DF)法、信息增益與文檔頻率相結(jié)合(IGDF)法、TF-IDF法和ImpTF-IDF-CHI 4種特征抽取方法進(jìn)行二元分類。實(shí)驗(yàn)流程如圖1所示。
首先,選取6類主題文獻(xiàn)共計(jì)4 297篇作為本實(shí)驗(yàn)的文本集,其中番茄遺傳育種主題為1 387篇,其余5類主題文獻(xiàn)為2 910篇。設(shè)定番茄遺傳育種主題為二元分類的目標(biāo)分類,其余5類分類為干擾分類。從文本集中,各自選取目標(biāo)分類與干擾分類主題文獻(xiàn)各1 000篇作為訓(xùn)練集,其余2 297篇作為測試集,6類主題比例接近1∶1,平均每類主題測試集文檔近390篇。
對文本集的預(yù)處理主要包括剔除非文本標(biāo)點(diǎn)符號與中文分詞處理。由于所涉及文獻(xiàn)包含大量農(nóng)業(yè)專業(yè)領(lǐng)域詞匯,如果使用日常生活詞庫進(jìn)行中文切詞,則會破壞專業(yè)詞匯的完整性,導(dǎo)致分詞錯(cuò)誤。因此,需要構(gòu)建農(nóng)業(yè)專業(yè)領(lǐng)域詞表作為專業(yè)分詞詞庫。農(nóng)業(yè)專業(yè)分詞詞庫主要包括中國農(nóng)業(yè)敘詞表(CAT)、搜狗農(nóng)業(yè)專業(yè)詞表以及農(nóng)業(yè)專業(yè)知識服務(wù)系統(tǒng)論文詞表。其中,農(nóng)業(yè)專業(yè)知識服務(wù)系統(tǒng)論文詞表中的詞匯主要來源于服務(wù)系統(tǒng)收錄的近十五年的350萬篇農(nóng)業(yè)專業(yè)中文核心期刊論文的關(guān)鍵詞。最終通過去重、過濾低頻詞等,將上述專業(yè)詞表與日常用語詞表進(jìn)行整合,形成包含120萬詞條的中文分詞詞庫。
對分詞后的訓(xùn)練集數(shù)據(jù)進(jìn)行DF、IG-DF、TF-IDF和ImpTF-IDF-CHI 4類特征抽取方法測試,生成各自對應(yīng)的特征詞表。通過特征詞表,實(shí)現(xiàn)對文本集數(shù)據(jù)的降維文本表示。將原本一篇數(shù)千字的科技論文,使用特征詞表中出現(xiàn)的詞匯進(jìn)行表達(dá),過濾特征詞表中未出現(xiàn)的非特征詞,從而達(dá)到降維、優(yōu)化文本分類計(jì)算的效果。特征表中的詞匯數(shù)量就是特征維度。特征維度的選取對文本分類效果具有決定性影響。為更好地對比分析4類特征抽取方法的效果,通過分組選取不同特征維度進(jìn)行測試對比的方式,找出最優(yōu)的特征抽取方法。每種方法為一組,分別進(jìn)行特征維度為100、150、200、250、3 000、3 200等16次特征抽取實(shí)驗(yàn)。通過向量空間模型(VSM)將降維后的文本集進(jìn)行文本向量化表示,供分類器進(jìn)行文本分類運(yùn)算。分類算法采用樸素貝葉斯分類算法[20]。
對分類結(jié)果的評價(jià)指標(biāo)主要有準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、F1值(F1-measure)及上述指標(biāo)的宏觀平均值[21]。
圖1 特征抽取及文本分類實(shí)驗(yàn)流程
DF、IG-DF、TF-IDF和ImpTF-IDF-CHI 4種特征抽取方法在樸素貝葉斯分類下的應(yīng)用評價(jià)結(jié)果如圖2和表2所示。
(1)ImpTF-IDF-CHI方法相較TF-IDF方法,改進(jìn)效果明顯,無論從準(zhǔn)確率與精確率,還是從召回率與F1值而言,均存在較大優(yōu)勢。在采用相同特征數(shù)量進(jìn)行對比實(shí)驗(yàn)中,ImpTF-IDF-CHI方法的4個(gè)評價(jià)指標(biāo)均大幅優(yōu)于TF-IDF方法。ImpTF-IDF-CHI方法的16組實(shí)驗(yàn)的平均準(zhǔn)確率為94.07%,平均F1值為0.844,而TF-IDF方法的平均準(zhǔn)確率只有78.00%,平均F1值為0.566%。
(2)ImpTF-IDF-CHI方法相較IG-DF方法,結(jié)果更加穩(wěn)定。由于進(jìn)行信息增益計(jì)算的特征詞必須滿足文檔詞頻超過預(yù)設(shè)的閾值,從而避免數(shù)據(jù)稀疏性問題。通過反復(fù)實(shí)驗(yàn),在全部文本集中,滿足超過閾值的全部特征詞數(shù)為1 000詞左右,所以在實(shí)驗(yàn)中IG-DF方法的對比實(shí)驗(yàn)截止到特征詞數(shù)為1 000。由實(shí)驗(yàn)結(jié)果可以看出,IG-DF方法的不足在于特征抽取詞的分類正確率波動太大,在本實(shí)驗(yàn)中,在特征詞數(shù)為1 000時(shí)效果最好,但特征詞數(shù)較少時(shí),則效果較差,正確率方差為6.2%。IG-DF方法還面臨數(shù)據(jù)稀疏性問題。在本實(shí)驗(yàn)中通過反復(fù)迭代設(shè)置閾值測試,最終確定閾值為190文檔頻率時(shí),才能完全避免稀疏性問題。同時(shí),閾值的大小與避免稀疏性存在一定正相關(guān)性,但絕非嚴(yán)格遞進(jìn)關(guān)系,如當(dāng)閾值取200文檔頻率時(shí),反而有些文檔無法用IG-DF方法抽取出的特征詞來表示,導(dǎo)致該文本為空的現(xiàn)象。ImpTF-IDF-CHI方法與之相比,穩(wěn)定性優(yōu)勢較為突出,本實(shí)驗(yàn)中在特征詞數(shù)量為250時(shí)效果最好,而整體上,在實(shí)際應(yīng)用中任取某一組特征數(shù)量進(jìn)行文本分類任務(wù),其效果都較好。
(3)ImpTF-IDF-CHI方法相較DF方法,準(zhǔn)確率、精確率和F1值都較高且穩(wěn)定,但平均召回率(95.27%)略低于DF(96.27%),說明DF方法與樸素貝葉斯文本分類方法的組合,在應(yīng)對長文本分類任務(wù)時(shí)有不錯(cuò)的表現(xiàn)。但從表3可以看出,DF方法僅從統(tǒng)計(jì)維度進(jìn)行考量,提取的前N個(gè)特征詞往往不具有該分類的主題代表性,如“研究”“表”“分析”“采用”“圖”等。相比之下,ImpTF-IDF-CHI方法抽取的Top N個(gè)詞就具有一定的主題代表性。
(4)ImpTF-IDF-CHI方法與3種傳統(tǒng)方法整體比較,4單位評價(jià)指標(biāo)中,3單位均為第一,且3單位指標(biāo)的方差均為最小。在較為重要的平均準(zhǔn)確率對比中,ImpTF-IDF-CHI方法高出第二名4個(gè)百分點(diǎn),同時(shí)16次測試的準(zhǔn)確率方差只有0.667%(方差最小說明最為穩(wěn)定)。從圖2中也可以看出,ImpTF-IDF-CHI方法曲線較為平滑。綜合加權(quán)統(tǒng)計(jì)指標(biāo)F1值高且接近于1,意味著精確率與召回率雙高且較為平衡。ImpTF-IDFCHI方法的F1值領(lǐng)先第二名0.074,近8個(gè)百分點(diǎn)。另外,ImpTF-IDF-CHI方法抽取的主題詞在4種方法中代表性最強(qiáng)(見表3)。
因此,綜合比較可以得出:ImpTF-IDF-CHI方法在4種特征抽取方法中正確率最高、穩(wěn)定性最好,與其他3種方法相比具有明顯的優(yōu)越性。
圖2 DF、IG-DF、TF-IDF和ImpTF-IDF-CHI方法的準(zhǔn)確率、F1值、精確率和召回率對比
表2 DF、IG-DF、TF-IDF和ImpTF-IDF-CHI的平均準(zhǔn)確率、F1值、精確率和召回率對比
本文針對相近農(nóng)業(yè)科研領(lǐng)域文獻(xiàn)的文本特征信息高度重合的特點(diǎn),以及傳統(tǒng)的文本特征抽取方法存在的不足,對TF-IDF算法進(jìn)行優(yōu)化并加以應(yīng)用驗(yàn)證,提出了ImpTF-IDF-CHI方法,通過對照實(shí)驗(yàn)證明其與其他3種傳統(tǒng)特征抽取方法相比具有較高的正確性與可靠性。ImpTF-IDF-CHI方法主要從特征詞的重要性、代表性等因素考慮,通過使用相對詞頻與引入貢獻(xiàn)因子等手段,提升特征詞詞頻加權(quán)的代表性;同時(shí),在構(gòu)造函數(shù)中加入了卡方檢驗(yàn)因子,強(qiáng)化特征詞的分類特征一致性,使得同一分類下的特征詞,在加權(quán)得分上更加聚合。
表3 4種特征抽取方法的Top 40特征詞對比
首先本文用于實(shí)驗(yàn)的文本語料僅限于中文,尚未證明加權(quán)改進(jìn)方法對英文等語種文獻(xiàn)是否同樣有效;其次,本文的文本分類任務(wù)是二元分類,盡管目前需要對科技文獻(xiàn)進(jìn)行二元分類的應(yīng)用場合依然很多,但要滿足需求的多元化,需要繼續(xù)進(jìn)一步優(yōu)化方法及實(shí)現(xiàn),以便適應(yīng)多元分類需求,拓展ImpTF-IDF-CHI方法的應(yīng)用范圍;最后,詞語在文檔中位置不同,對文本特征的貢獻(xiàn)度是不一樣的,這也是需要在今后對該項(xiàng)技術(shù)進(jìn)一步修改時(shí)要考慮的。