路永和 彭燕虹(中山大學(xué)資訊管理學(xué)院 廣東廣州 510006)
·信息組織與服務(wù)·
融合實用性與科學(xué)性的互聯(lián)網(wǎng)信息分類體系構(gòu)建*
路永和彭燕虹
(中山大學(xué)資訊管理學(xué)院廣東廣州510006)
摘要:
分類體系是信息組織的有效形式,傳統(tǒng)文獻(xiàn)分類體系難以適用分類對象的轉(zhuǎn)變,實用性不足,已有的網(wǎng)絡(luò)分類體系則缺乏科學(xué)性。構(gòu)建融合實用性與科學(xué)性的互聯(lián)網(wǎng)信息分類體系,能夠有效滿足用戶信息需求,且是自動文本分類技術(shù)研究的基礎(chǔ)。文章分別以中圖法、新浪門戶為例,研究傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的優(yōu)缺點,提出互聯(lián)網(wǎng)信息分類體系的實用性、科學(xué)性以及均衡性設(shè)計原則,基于三個設(shè)計原則構(gòu)建了互聯(lián)網(wǎng)信息分類體系。為了驗證所構(gòu)建的分類體系的有效性,通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)易門戶以及騰訊網(wǎng)的語料作為實驗數(shù)據(jù),與復(fù)旦語料庫的分類體系進(jìn)行對比實驗。實驗結(jié)果表明,相比于復(fù)旦語料庫的分類體系,文章所提出的互聯(lián)網(wǎng)信息分類體系具有更高的實用性,且能更為全面地涵蓋各種互聯(lián)網(wǎng)信息,類目之間交叉度小,各個類目信息量接近,文本分類效果更為理想。關(guān)鍵詞:
互聯(lián)網(wǎng)信息;分類體系;中圖法;語料庫伴隨著網(wǎng)絡(luò)信息的指數(shù)增長,海量信息所帶來的信息冗余,使得越來越多的信息用戶無法有效獲取所需信息。特別是在用戶無法明確得知關(guān)鍵詞以進(jìn)行信息檢索的情況下,如何幫助用戶在信息海洋中更加快速有效地獲取需求信息,具有一定的研究價值。信息分類是信息組織的有效途徑之一,以中圖法、杜威分類法為代表的傳統(tǒng)文獻(xiàn)分類體系能夠有效組織大量的文獻(xiàn)信息,網(wǎng)絡(luò)環(huán)境下以各個門戶網(wǎng)站分類體系為代表的網(wǎng)絡(luò)分類體系可以組織海量的網(wǎng)絡(luò)信息,但傳統(tǒng)文獻(xiàn)分類體系過分強調(diào)類目體系嚴(yán)謹(jǐn)科學(xué),體系龐大、術(shù)語生僻;網(wǎng)絡(luò)分類體系注重體系實用性,但存在措詞隨意,類目之間科學(xué)性欠佳等問題。良好的分類體系是實現(xiàn)自動文本分類的基礎(chǔ),如果能對網(wǎng)絡(luò)中的文檔進(jìn)行處理,使其形成良好的分類,有助于人們組織、挖掘、檢索文本信息。同時,伴隨著文本分類技術(shù)的發(fā)展,越來越多的學(xué)者迫切需要文本分類語料庫以支撐其實驗研究,而最便捷最龐大的語料獲取來源即為互聯(lián)網(wǎng),但這些互聯(lián)網(wǎng)信息需要一個有效的分類體系將其囊括。分類體系作為構(gòu)建文本分類語料庫的前提,分類體系的好壞,直接影響了一個文本分類語料庫的優(yōu)劣,繼而影響自動文本分類技術(shù)的研究。構(gòu)建融合實用性與科學(xué)性的互聯(lián)網(wǎng)分類體系,除了能夠有效滿足用戶信息需求這一實用性要求,還能夠促進(jìn)自動文本分類技術(shù)的進(jìn)步。
一直以來,學(xué)者們都試圖尋找一個更適用于互聯(lián)網(wǎng)環(huán)境的分類體系。陳樹年、張琪玉等先后提出過互聯(lián)網(wǎng)環(huán)境下的分類體系框架,主要劃分了一、二級類目,力求涵蓋所有互聯(lián)網(wǎng)信息,但其分類體系過多直接引入傳統(tǒng)文獻(xiàn)分類法的類目,如陳樹年的體系大綱中所出現(xiàn)的“圖書館與參考資料”、“工程技術(shù)”等類目,且較少考慮現(xiàn)實情況下的網(wǎng)絡(luò)信息資源分布,體系重點不明晰,與用戶直接使用的指南性網(wǎng)絡(luò)分類體系有所不同。反觀現(xiàn)有的門戶網(wǎng)站分類體系,其基于點擊率構(gòu)建、體系適用范圍較窄、類名措詞隨意性大、歧義度高、類目之間交叉明顯、網(wǎng)絡(luò)信息混亂、用戶查找困難重重。不僅導(dǎo)致用戶在瀏覽不同網(wǎng)站的過程中存在明顯的閱讀障礙,更使得用戶無法通過分類體系有效獲取所需信息,常常出現(xiàn)如點擊某一類目后,出現(xiàn)大量與需求信息完全無關(guān)的內(nèi)容等問題。由傳統(tǒng)文獻(xiàn)分類體系直接改造而來的分類體系框架以及各個門戶網(wǎng)站的自編分類體系,無法有效應(yīng)對海量網(wǎng)絡(luò)信息環(huán)境下的用戶信息需求,建立通用性高、更加符合網(wǎng)絡(luò)信息資源分布現(xiàn)狀、適合網(wǎng)絡(luò)信息組織與傳播的互聯(lián)網(wǎng)信息分類體系具有一定的現(xiàn)實意義。
傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的分類對象不同決定了傳統(tǒng)文獻(xiàn)分類法對于互聯(lián)網(wǎng)信息的不適用性,但兩者都是對于知識、信息的組織,這一共性決定了網(wǎng)絡(luò)信息分類能夠借鑒傳統(tǒng)文獻(xiàn)分類法。傳統(tǒng)文獻(xiàn)分類法一般以學(xué)科為中心建立分類體系,將有關(guān)主題的文獻(xiàn)集中到學(xué)科之下,如《中國圖書館分類法》(下文簡稱中圖法)。傳統(tǒng)文獻(xiàn)分類體系更傾向于科學(xué)性,依據(jù)學(xué)科屬性進(jìn)行知識體系組織,強調(diào)類目體系覆蓋全面、穩(wěn)定,類目命名準(zhǔn)確嚴(yán)謹(jǐn)。但存在結(jié)構(gòu)過于龐大、缺乏簡明性,劃分太細(xì)、缺乏實用性,操作復(fù)雜、缺乏易用性,體系僵化、缺乏靈活性,單線排列、缺乏多維性等多種問題。而網(wǎng)絡(luò)分類法以主題為中心或主題結(jié)合學(xué)科的方式組織分類體系,如新浪門戶、網(wǎng)易采用主題與學(xué)科結(jié)合方式,建立以事物對象為中心的分類體系。網(wǎng)絡(luò)信息分類法更傾向于依據(jù)用戶需求來設(shè)置類目體系,特別是某些實用性很強的網(wǎng)站,如淘寶網(wǎng)。網(wǎng)絡(luò)信息分類體系具有更高的實用性,類目名稱通俗易懂,但存在著類目交叉明顯,如“新聞”一級類目下的“國內(nèi)”、“深度報道”,用戶無法明確選擇哪個渠道點擊瀏覽信息,降低網(wǎng)站訪問效率,科學(xué)性明顯不足。對此不少學(xué)者提出了自己的建議,陳樹年提出建立網(wǎng)上信息的知識分類系統(tǒng),必須遵循面向網(wǎng)絡(luò)信息資源、面向網(wǎng)絡(luò)技術(shù)環(huán)境、面向網(wǎng)絡(luò)用戶的原則,突出其實用性和易用性。黃如花提出網(wǎng)絡(luò)信息組織模式應(yīng)該以用戶為中心,遵循實用性和易用性原則,綜合運用自然語言和人工語言(分類語言、主題語言),充分利用新興技術(shù)和人們經(jīng)驗的積累。王麗珺等提出網(wǎng)絡(luò)信息分類體系應(yīng)具備動態(tài)性、多維性、實用性和易用性原則。鄭慶勝等認(rèn)為在構(gòu)建網(wǎng)絡(luò)信息分類體系時應(yīng)注意分類體系的實用性、全面性、規(guī)律性、統(tǒng)一性和特殊性。
基于上述對傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的綜合分析,并考慮到網(wǎng)絡(luò)分類體系分類對象的轉(zhuǎn)移以及當(dāng)前網(wǎng)絡(luò)信息本身所呈現(xiàn)的特點:數(shù)量多、內(nèi)容龐雜;變化快、穩(wěn)定性差;類型多、范圍寬、用途廣;信息組織特殊、控制性差,本文采用以事物對象為中心的方式構(gòu)建知識體系,并繼承傳統(tǒng)分類體系科學(xué)性、類目體系全面的優(yōu)點,進(jìn)一步改進(jìn)和完善現(xiàn)有網(wǎng)絡(luò)信息分類體系設(shè)計原則,總結(jié)提出以下三個原則:(1)實用性原則,即要求類目設(shè)置方便用戶使用。各大門戶在設(shè)立分類體系時一個重要的原則就是方便網(wǎng)絡(luò)用戶的查找,互聯(lián)網(wǎng)分類體系區(qū)別于傳統(tǒng)文獻(xiàn)分類體系,其目的是有效地組織網(wǎng)絡(luò)信息,并最大效能地滿足網(wǎng)絡(luò)信息用戶的需求。只有滿足實用性,才能制定出更加符合用戶需求的體系,使用戶更快更準(zhǔn)地查詢到需要的信息;(2)科學(xué)性原則,其要求類目體系不僅能夠全面涵蓋幾乎任何主題的網(wǎng)絡(luò)信息,且各個類目具有明顯主題范圍,能夠明顯區(qū)分類目的主題內(nèi)涵與外延,大類與子類之間具有邏輯性。目前大部分的互聯(lián)網(wǎng)分類體系只是基于其本身網(wǎng)站的點擊率設(shè)計,類目體系全面性不足,大量互聯(lián)網(wǎng)信息無法實現(xiàn)有效分類,大大弱化了信息的利用率;同時,大量類目重復(fù)設(shè)置,影響了用戶的準(zhǔn)確判斷。堅持科學(xué)性原則,有利于構(gòu)建更完善的互聯(lián)網(wǎng)分類體系,且各個類目特征明顯,類目上下級符合邏輯,有助于后續(xù)語料收集、語料訓(xùn)練等機器自動學(xué)習(xí)的實現(xiàn);(3)均衡性原則,即要求分類體系各個類目訪問頻率相近。從信息論角度來看,可以把網(wǎng)站信息分類體系類比為一個信息通道。一般來說,通道的利用率要高,這要求每個類別包含的元素要盡量均衡,即內(nèi)容多分得細(xì),內(nèi)容少分得粗。若不引入類目體系均衡原則,則可能有的類目只有兩三層,有的類目則多達(dá)十幾層,有時用戶從分類途徑查找某個類名,往往要鏈接十多個頁面,既費時又費力。堅持類目體系均衡原則,有助于體系更加簡潔、更加方便。
以分類體系設(shè)計原則為基礎(chǔ),構(gòu)建初步互聯(lián)網(wǎng)信息分類體系。在初步分類體系基礎(chǔ)上,采用網(wǎng)絡(luò)爬蟲從新浪網(wǎng)抓取不同頻道的信息并人工識別后將其作為訓(xùn)練語料和測試語料,進(jìn)行文本分類實驗測試。依據(jù)測試結(jié)果,對初步互聯(lián)網(wǎng)信息分類體系進(jìn)行修改調(diào)整,最終得到各個一級類目分類準(zhǔn)確率均高于90%的互聯(lián)網(wǎng)信息分類體系。該分類體系共有13個一級類目,各個一級類目之下具有2-8個二級類目(見表1)。
為了檢驗此分類體系對于互聯(lián)網(wǎng)信息的有效程度,我們利用目前已有的文本分類體系進(jìn)行對比實驗。目前采用網(wǎng)絡(luò)信息作為語料測試文本分類效果的分類體系主要有:復(fù)旦大學(xué)文本分類語料庫的分類體系(以下簡稱復(fù)旦分類體系)和搜狗文本分類語料庫的分類體系(以下簡稱搜狗分類體系)。復(fù)旦分類體系包含20個類目:Art、Literature、Education、Philosophy、History、Space、Energy、Electronics、Communication、Computer、Mine、Transport、Enviorn-ment、Agriculture、Economy、Law、Medical、Military、Politics、Sports。搜狗分類體系包含9個類目:IT、財經(jīng)、健康、教育、軍事、旅游、體育、文化、招聘。由于搜狗分類體系的類目較少,類別全面性不足,諸如娛樂、游戲等相關(guān)主題的語料,無法被涵蓋,因此本文采用類目更為全面的復(fù)旦分類體系作為實驗對比體系。
表1 互聯(lián)網(wǎng)信息分類體系
4.1實驗流程
首先通過網(wǎng)絡(luò)爬蟲抓取語料,并將抓取的語料依據(jù)不同分類體系進(jìn)行人工分類,將人工分類所得語料分為訓(xùn)練集與測試集;最后應(yīng)用文本分類技術(shù),采用KNN分類器進(jìn)行分類測試。采用KNN分類過程中,主要利用余弦相似度計算以計算各個文本向量空間,設(shè)定閥值為20%,即測試文檔與類目之間相似程度超過20%,則輸出該類別。依據(jù)測試文檔與不同類目相似程度的不同,按照相似程度從高到低排序,得到測試文檔的第一相似類目、第二相似類目和第三相似類目。考慮到當(dāng)前一個互聯(lián)網(wǎng)信息文檔中涵蓋多種主題的現(xiàn)實情況,故而將第一相似類目、第二相似類目、第三相似類目統(tǒng)稱前三相似類目,能夠有效反映語料的真實分類情況。因而,在傳統(tǒng)的文本分類評價指標(biāo)——分類準(zhǔn)確率的基礎(chǔ)上進(jìn)行擴展,提出了兩個分類準(zhǔn)確率評價指標(biāo),包括第一相似類目分類準(zhǔn)確率(即傳統(tǒng)的文本分類分類率,見公式1)以及前三相似類目分類準(zhǔn)確率(見公式2)。具體實驗流程如圖1所示。
4.2實驗數(shù)據(jù)
由于本文互聯(lián)網(wǎng)信息分類體系主要參考中圖法和新浪網(wǎng)分類體系構(gòu)建,為保障對比所用語料公平性,本文實驗采用的語料來自網(wǎng)易門戶與騰訊網(wǎng),通過網(wǎng)站首頁層層遍歷抓取,保證實驗語料能真實反映網(wǎng)絡(luò)語料分布現(xiàn)狀,抓取所得語料總數(shù)為21614條。
抓取所得的語料,需先進(jìn)行人工分類,即通過人工識別某一語料歸屬于哪個類目,以作為可用的語料,剔除不可用的語料,得到實驗所需的語料集。其中,可用語料率=該體系可用語料數(shù)量/抓取所得語料總數(shù)量。人工分類統(tǒng)計后,可得到復(fù)旦分類體系與互聯(lián)網(wǎng)信息分類體系的語料情況(見表2)。
表2 復(fù)旦語料庫的分類體系與互聯(lián)網(wǎng)信息分類體系的語料情況
由語料情況可知,復(fù)旦分類體系可用語料率僅為53.63%,大量娛樂、游戲、時尚、神秘學(xué)等相關(guān)互聯(lián)網(wǎng)信息無法找到相應(yīng)類目;而互聯(lián)網(wǎng)信息分類體系可用語料率達(dá)84.37%,無法分類的語料主要集中為語料涵蓋主題過多,人工無法明確識別類目的語料。因而,相比于復(fù)旦分類體系,本文構(gòu)建的互聯(lián)網(wǎng)信息分類體系實用性更高,具有包括娛樂、游戲、時尚等多個復(fù)旦語料庫分類體系所沒有的類目,符合實用性原則;同時,也體現(xiàn)出互聯(lián)網(wǎng)信息分類體系能夠更加全面的覆蓋多種互聯(lián)網(wǎng)信息,符合科學(xué)性原則所要求的類目體系全面。
本文實驗中的訓(xùn)練語料、測試語料依據(jù)各個類目語料總數(shù)大約1:1劃分,根據(jù)抓取信息的實際情況,不同類目的訓(xùn)練語料、測試語料數(shù)量有所不同。復(fù)旦語料庫分類體系總訓(xùn)練語料數(shù)為5802條,總測試語料數(shù)為5790條(具體情況見表3);互聯(lián)網(wǎng)信息分類體系總訓(xùn)練語料數(shù)為9142條,總測試語料數(shù)為9094條(具體情況見表4)。
由訓(xùn)練與測試情況可知,復(fù)旦分類體系各個類目的語料數(shù)量差異較大,語料數(shù)量多于1000的類目僅有3個,語料數(shù)量低于200的高達(dá)11個,相應(yīng)其訓(xùn)練語料數(shù)量將低于100,會極大的影響后續(xù)文本分類實驗;相比于復(fù)旦分類體系,互聯(lián)網(wǎng)信息分類體系各個類目的語料數(shù)量較為均衡,語料數(shù)量多于1000的類目有7個,語料數(shù)量低于200的僅有2個。由此可知,互聯(lián)網(wǎng)信息分類體系各個類目包含的語料數(shù)量相對比較均衡,諸如“復(fù)旦分類體系”中劃分的Military(軍事)、Politics(政治)類目在互聯(lián)網(wǎng)信息分類體系中,均為event(時事)的子類,而互聯(lián)網(wǎng)信息分類體系的訓(xùn)練集、測試集情況也顯示Military(軍事)、Politics(政治)類目語料數(shù)量較少,符合均衡性原則。
圖1 互聯(lián)網(wǎng)分類體系有效性實驗流程
4.3實驗結(jié)果
通過實驗,可分別得到復(fù)旦分類體系以及互聯(lián)網(wǎng)信息分類體系各個類目的測試結(jié)果(見表5、表6)。
由兩種分類體系的測試結(jié)果可知,互聯(lián)網(wǎng)信息分類體系第一相似類目分類準(zhǔn)確率高于90%的類目達(dá)5個,低于50%的僅有1個,而復(fù)旦語料庫分類體系高于90%的僅有1個,低于50%的有10個;互聯(lián)網(wǎng)信息分類體系前三相似類目分類準(zhǔn)確率高于90%的類目有9個,高于80%的有12個,僅有1個低于80%,而復(fù)旦語料庫分類體系高于90%的僅有4個,高于80%的有11個,低于80%的有9個。由此可知,互聯(lián)網(wǎng)信息分類體系類目設(shè)置具有更高的合理性,類目之間交叉度更低,各個類目特征明顯,符合科學(xué)性原則所要求的類目之間相互獨立。
表3 復(fù)旦分類體系的訓(xùn)練集、測試集情況
表4 互聯(lián)網(wǎng)信息分類體系的訓(xùn)練集、測試集情況
表5 復(fù)旦語料庫分類體系各個類目的測試結(jié)果
表6 互聯(lián)網(wǎng)信息分類體系各個類目的測試結(jié)果
對于整體數(shù)據(jù)集,利用文本分類評價指標(biāo)——宏平均準(zhǔn)確率進(jìn)行評價,即每個類的分類準(zhǔn)確率的算術(shù)平均值。由于前面各個類別考慮了第一相似類目分類準(zhǔn)確率、前三相似類目分類準(zhǔn)確率,故而此處考慮第一相似類目宏平均準(zhǔn)確率以及前三相似類目宏平均準(zhǔn)確率(復(fù)旦分類體系與互聯(lián)網(wǎng)信息分類體系的宏平均準(zhǔn)確率見表7)。
表7 復(fù)旦語料庫分類體系與互聯(lián)網(wǎng)信息分類體系的宏平均準(zhǔn)確率對比
對比可知,盡管互聯(lián)網(wǎng)信息分類體系所含語料數(shù)目為18236,復(fù)旦分類體系所含語料數(shù)目僅為11592,互聯(lián)網(wǎng)信息分類體系語料數(shù)大大多于復(fù)旦分類體系,即互聯(lián)網(wǎng)信息分類體系所包含的干擾信息大大多于復(fù)旦分類體系,但其第一相似類目宏平均準(zhǔn)確率、前三相似類目宏平均準(zhǔn)確率均仍高于復(fù)旦分類體系,驗證了本文所構(gòu)建的互聯(lián)網(wǎng)信息分類體系的有效性。
針對當(dāng)前現(xiàn)有的各大網(wǎng)站自建體系科學(xué)性不高,用戶無法通過分類體系有效獲取所需信息,甚至誤導(dǎo)用戶的現(xiàn)狀,本文在對比了傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法的特點基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)信息分類法——實用性以及傳統(tǒng)文獻(xiàn)分類法的優(yōu)點——科學(xué)性,提出了適用于構(gòu)建互聯(lián)網(wǎng)信息分類體系的設(shè)計原則,并初步構(gòu)建了具有13個一級類目的互聯(lián)網(wǎng)信息分類體系。該互聯(lián)網(wǎng)信息分類體系以事物為中心進(jìn)行知識組織,在貫徹網(wǎng)絡(luò)信息分類體系實用性原則的基礎(chǔ)上,提高了分類體系的科學(xué)性與均衡性。同時,實驗結(jié)果表明,對比復(fù)旦語料庫的分類體系,本文所提出的互聯(lián)網(wǎng)信息分類體系具有一定的有效性,既能有效涵蓋更多的互聯(lián)網(wǎng)信息,且能夠保證更高的分類準(zhǔn)確率。具體而言,互聯(lián)網(wǎng)信息分類體系可用語料率達(dá)84.37%,遠(yuǎn)高于復(fù)旦語料庫分類體系的可用語料率53.63%,涵蓋多個較高實用價值的類目,符合實用性原則;同時,較全地覆蓋網(wǎng)絡(luò)信息,能夠使更多的網(wǎng)絡(luò)信息找到相應(yīng)類別。其前三相似類目分類準(zhǔn)確率高于90%的類目有9個,占體系總類目數(shù)的69.23%,而復(fù)旦語料庫分類體系中高于90%的類目占體系總類目數(shù)的比率僅為20%,互聯(lián)網(wǎng)信息分類體系各個類目特征更加明顯、相互獨立、交叉度低,符合科學(xué)性原則。同時,各個類目涵蓋的語料數(shù)量相近,語料數(shù)量低于200的僅有2個,而復(fù)旦語料庫分類體系的語料數(shù)量低于200的高達(dá)11個,“Economy”類目語料數(shù)量設(shè)置多于這11個類目的語料總和,表明互聯(lián)網(wǎng)信息分類體系各個類目所包含的網(wǎng)絡(luò)信息量接近,符合均衡性原則。同時,互聯(lián)網(wǎng)信息分類體系具有更高的分類準(zhǔn)確率,前三相似類目分類準(zhǔn)確率達(dá)96.50%,具有較好的自動文本分類效果,其能夠有效解決當(dāng)下網(wǎng)站自建體系類目交叉明顯,類目科學(xué)性不強的問題,幫助用戶更加便利快捷地查找到需求信息。
盡管本文提出了一個具有較好的文本分類效果的體系框架,但仍存在一些不足:本文所提出的互聯(lián)網(wǎng)信息分類體系,其主要停留在一級類目體系的構(gòu)建上,但實際應(yīng)用過程中,用戶需要層層遍歷體系以指導(dǎo)其進(jìn)行信息獲取。因而,下一步將會更加深入地研究各個類目的子類目,以期尋求科學(xué)的方法將各個大類層層細(xì)分。同時,結(jié)合自動文本分類技術(shù),在此分類體系的基礎(chǔ)上,實現(xiàn)測試語料自動分類,力求構(gòu)建一個具有自學(xué)習(xí)能力的文本分類平臺,實現(xiàn)子類目自劃分、語料數(shù)量自增長。
參考文獻(xiàn):
[1]王興蘭,宋文.基于知識組織體系的自動分類研究[J].圖書館論壇,2013,33(6):8-13.
[2]陳樹年.搜索引擎及網(wǎng)絡(luò)信息資源的分類組織[J].圖書情報工作,2000(4):31-37.
[3]張琪玉.網(wǎng)絡(luò)信息檢索工具的分類體系——網(wǎng)絡(luò)信息檢索工具發(fā)展的方向與提高競爭力的途徑(連載三)[J].江蘇圖書館學(xué)報,2002(4):7-11.
[4]蔡厚勇.論圖書館數(shù)字化過程中的信息分類體系重建[J].大學(xué)圖書情報學(xué)刊,2001(3):1-3.
[5]歐潔,俞學(xué)寧,朱禮軍,等.基于網(wǎng)易的網(wǎng)絡(luò)信息分類體系研究[J].圖書館學(xué)研究,2012(1):50-53.
[6]王忠紅.網(wǎng)絡(luò)信息環(huán)境下的傳統(tǒng)分類法[J].圖書情報工作,1999(2):37-39.
[7]鐘瑩.傳統(tǒng)文獻(xiàn)分類法與網(wǎng)絡(luò)信息分類法之比較[J].學(xué)理論,2010(2):118-120.
[8]中國圖書館分類法[EB/OL].[2014-07-28].http://clc.nlc.gov.cn/ztfdsb.jsp.
[9]白國應(yīng).論文獻(xiàn)分類法的系統(tǒng)特征[J].圖書情報工作,1998(11):7-10.
[10]崔慕岳,劉延章,張中秋.《中圖法》組織網(wǎng)絡(luò)信息的可行性、不適應(yīng)性及其現(xiàn)代化改造[J].鄭州大學(xué)學(xué)報(哲學(xué)社會科學(xué)報),2001(6):137-140.
[11]新浪門戶導(dǎo)航頁[EB/OL].[2014-08-25].http://news.sina.com.cn/guide/.
[12]劉星.試論網(wǎng)絡(luò)信息分類中存在的問題及對策[J].圖書館工作與研究,2008(2):43-45.
[13]魯曉明,王博文,詹劉寒.淘寶網(wǎng)商品信息組織分析[J].圖書情報工作,2013,57(增刊2):244-248.
[14]黃如花.網(wǎng)絡(luò)信息組織的發(fā)展趨勢[J].中國圖書館學(xué)報,2003,29(4):15-19.
[15]王麗珺,湯亮亮.網(wǎng)絡(luò)信息分類體系構(gòu)建策略研究[J].中國科技信息,2009(23):115-116.
[16]鄭慶勝,易曉陽.從新浪等網(wǎng)站看網(wǎng)絡(luò)信息分類體系的建立——兼論綜合性中文網(wǎng)站分類體系之建立[J].圖書館建設(shè),2003(1):69-71.
[17] 史學(xué)斌.網(wǎng)絡(luò)信息分類體系[J].圖書館,2002(2):33-35.
[18]常璐.對網(wǎng)絡(luò)環(huán)境下信息分類法的思考[J].科技情報開發(fā)與經(jīng)濟,2011,21(8):30-33.
[19]宛玲,趙喜英.中文網(wǎng)絡(luò)信息分類組織分析[J].圖書館理論與實踐,2001(1):46-56.
[20] 復(fù)旦大學(xué)文本分類語料庫[EB/OL].[2014-12-25].http://www.nlpir.org/?action-viewnews-itemid-103.
[21]搜狗文本分類語料庫[EB/OL].[2014-12-25].http://www.sogou.com/labs/dl/c.html.
·用戶服務(wù)與研究·
中圖分類號:
G2503文獻(xiàn)標(biāo)識碼:
ADOI:
10.11968/tsygb.1003-6938.2015072作者簡介:
路永和(1962-),男,中山大學(xué)資訊管理學(xué)院副教授;彭燕虹(1992-),女,中山大學(xué)資訊管理學(xué)院碩士研究生。*本文系
國家自然科學(xué)基金項目“面向文本分類的多學(xué)科協(xié)同建模理論與實驗研究”(項目編號:71373291)研究成果之一。收稿日期:
2015-06-16;責(zé)任編輯:魏志鵬The Classification System Construction for Internet Information both Practical and Scientific
Abstract
The classification system is an effective method of information organization.The traditional classification system can not adapt to the transformation of classification object and is no longer practical;at the same time,the existing network classification system is not scientific.An Internet information classification system both practical and scientific can not only effectively meet the users'information demand,but can also promote the development of automatic text classification.Taking Chinese Library Classification and Sina portal for examples respectively,this paper studies the advantages and disadvantages between traditional document classification and taxonomy of network information,come up with the design principles of the internet information classification system,namely practical, scientific and balance.Based on these three design principles,an internet information classification system was built.In order to verify the validity of the classification system,the web crawler is used to grab corpus of www.163.com and www.qq.com which are as experimental data,and Fudan Corpus classification system is used for the comparative experiment.Experimental results show that,compared to the Fudan Corpus classification system,the proposed Internet Information Classification System has a higher practicality,and can more comprehensively cover all kinds of Internet information,little intersections among categories,more approach between the information of each category,the text classification efficiency is quietly improved.Key words
internet information;classification system;chinese library classification;corpus