基于文本信息分析的情報技術(shù)研究

2020-09-10 15:56:01胡堯強

看世界·學術(shù)下半月 2020年11期

關(guān)鍵詞：研究

胡堯強

摘要：文本信息作為情報分析的重要載體，對我國情報技術(shù)的發(fā)展具有非常重要的影響?；诖?，本文就針對情報技術(shù)中文本信息分析的相關(guān)內(nèi)容進行了深入的探究，旨在推動我國情報學的全面發(fā)展。

關(guān)鍵詞：文本信息;情報技術(shù);研究

一、簡述文本信息分析的概念及重要意義

文本信息分析的具體含義，主要是指運用模型理論對文本信息實施統(tǒng)計、分析、理解、轉(zhuǎn)換與生成的過程。【1】通過對情報信息來源的具體分析，我們可以從中了解到情報來源的主要渠道是通過十大文獻源及其他相關(guān)資料來獲取的，這其中包含期刊論文、會議論文、政府出版物以及產(chǎn)品樣本等，這些文獻資料中蘊含著情報工作所需要的大量信息資料。

文獻信息作為情報研究工作中極為重要的處理對象，其通常是以文本形式呈現(xiàn)出來的，對文本信息分析的處理流程主要是以檢索為基礎(chǔ)的序化以及信息、知識和情報之間的轉(zhuǎn)化，文本信息分析的主要目標是能夠更方便快捷的找出情報工作所需的信息資料，并運用相關(guān)知識對信息實施分析處理，由此得出最終的情報信息。

伴隨科技水平的不斷發(fā)展，推動了文本信息分析工作的信息化管理，同時也對情報專家提出了更為嚴格的要求，如何靈活的運用現(xiàn)代化信息技術(shù)來對文本信息進行收集與整合，從而準確快速的找出文本信息中有價值的情報資料，是每個情報專家需要迫切解決的一大問題。

二、基于本文信息分析的情報技術(shù)探究

從語言層面探究文本信息分析的處理過程

文本信息主要是借助自然語言來描述與展現(xiàn)的，而文本信息分析從處理單位的層面出發(fā)，可以分為詞語分析、句子分析、語段分析以及篇章分析，從分析的層面出發(fā)，文本信息則可以劃分為語音分析、語法分析、語形分析、語用分析以及語義分析。對此，我們可以從以下幾點進行詳細研究：

（一）語法角度探究

通過對文字信息語法實施研究分析后，就可以進行針對性的信息抽取，通過對信息抽取技術(shù)的靈活運用，就可以順利的展開后續(xù)工作，如信息庫的建設(shè)、列表式搜索、跨語言信息檢索以及輔助審稿等。語法分析主要是針對句子進行分析，其主要包含句子內(nèi)部結(jié)構(gòu)分析和句子相似度匹配分析。針對相似句子的判斷依據(jù)主要是從詞形相似度、句型結(jié)構(gòu)相似度以及詞序相似度等方面進行考量的，并以此為基礎(chǔ)，構(gòu)建出相關(guān)的向量空間法、依存結(jié)構(gòu)法以及編輯距離法。

（二）語義角度探究

通過對文字信息語義實施研究分析后，就可以進行針對性的知識抽取，知識抽取是以知識工程實施的，在構(gòu)建具體的知識庫后，便可以進行后續(xù)的精細式知識組織、知識推理以及知識連接等具體工作。語義分析的相關(guān)概念主要體現(xiàn)在以詞法分析和語法分析為前提標準，通過對知識庫中語義知識的合理運用，將語法結(jié)構(gòu)描述轉(zhuǎn)化為以邏輯和概念等知識表示為基礎(chǔ)的語義表示，通過對領(lǐng)域知識的靈活運用將句子的語義加以分析整理，并在此基礎(chǔ)上用過判斷及推理的方式，展開后續(xù)的知識抽取與發(fā)現(xiàn)、觀點與流派搜索等實際工作?！?】

（三）語用角度探究

在經(jīng)過具體的語用研究分析之后，就可以展開后續(xù)的風格型搜索、學者自動評價以及意見挖掘等高級處理。就目前而言，大部分科學評價都是通過論文、項目、著作以及專利等信息資料實施統(tǒng)計的。而學位論文的網(wǎng)絡(luò)評價，則是從學術(shù)作風及學術(shù)品德等角度來進行具體的評價工作的。

（四）詞法角度探究

文本信息的詞法主要包體現(xiàn)在自動分詞、詞性標注以及詞頻統(tǒng)計等方面，通過對數(shù)據(jù)適時預(yù)處理后，盡可以進行抽取特征詞構(gòu)建矩陣向量，借助向量空間模型、支持向量機以及潛在語義標引等模型加以計算，從而實現(xiàn)分類、聚類與共詞分析等目的。

三、從智能層面探究文本信息分析的處理方法

在進行具體的文本信息處理工作時，我們不能忽視情報與智能之間存在的關(guān)聯(lián)性，處理的過程離不開智能，而處理的目標則是為了獲取有價值的情報信息，情報學的核心目的在于如何加強對智能的科學運用。因此，情報學的發(fā)展進步是無法脫離智能而獨立進行的。人工智能與計算機定性相關(guān)的較為常見的處理方法主要包括神經(jīng)網(wǎng)絡(luò)、支持向量機、模糊決策樹、潛在語義分析等。下面我們就針對文本信息分析的幾種智能處理方法進行了詳細的研究。

（一）決策樹

決策樹是以實例為基點的歸納學習算法，它可以針對一組無規(guī)則、無次序的事例推理出決策樹表示方式的分類規(guī)則。通過自頂向下的遞歸方式，將決策樹內(nèi)部節(jié)點的屬性值進行比較，并依據(jù)不同的屬性值來對該節(jié)點向下的分支加以判斷，在決策樹的葉節(jié)點得出最終結(jié)論。決策樹被廣泛運用于文本分類、數(shù)據(jù)挖掘、機器翻譯和知識發(fā)現(xiàn)等技術(shù)領(lǐng)域。

（二）支持向量機

支持向量機主要是由貝爾實驗室研究小組所提出的一個技術(shù)理論，它是以計算學習理論的結(jié)構(gòu)風險最小化原則為基礎(chǔ)的，可以有效的解決線性不可分的問題。在實際的分類問題中，支持向量機技術(shù)原理主要體現(xiàn)在通過在高維空間中尋找一個超平面作為兩類的分割，以此來保障錯誤分割率控制在最小值。支持向量機主要應(yīng)用于文本分類和數(shù)據(jù)挖掘等技術(shù)領(lǐng)域。

（三）貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)絡(luò)作為一種圖形模式，其主要作用是用來表示變量間的連接概率的，它能夠準確的發(fā)現(xiàn)數(shù)據(jù)之間的內(nèi)部關(guān)系。貝葉斯理論明確了信任函數(shù)在數(shù)學中的計算方法，其具備相對穩(wěn)定的數(shù)學基礎(chǔ)，與此同時它還展現(xiàn)了信任度跟隨證據(jù)而變化的增量學習特征。貝葉斯可應(yīng)用于文本分類、態(tài)勢估計以及熱點監(jiān)測等技術(shù)領(lǐng)域?！?】

（四）遺傳算法

遺傳算法，主要是基于某一隨機而生的抑或特定的初識群體出發(fā)，依據(jù)一定的操作準則，如選擇、復(fù)制、變異以及交叉等，在逐步的迭代計算后，依據(jù)不同個體的適應(yīng)度值，實現(xiàn)優(yōu)勝劣汰。遺傳算法的特點主要體現(xiàn)在直接對結(jié)構(gòu)對象實施操作，不存在求導(dǎo)與函數(shù)連續(xù)性的具體限定，具備內(nèi)在的隱并行性及良好的全局尋優(yōu)性能，通過對概率化尋優(yōu)方式的巧妙運用，可以自動獲取搜索環(huán)節(jié)中的相關(guān)知識并以此來對優(yōu)化過程進行指導(dǎo)。遺傳算法從數(shù)學層面來看，屬于一種概率性搜索算法，而從工程學層面來看，則屬于一種自適應(yīng)的迭代尋優(yōu)過程。遺傳算法主要被應(yīng)用于情報采集、文獻聚類、知識工程以及信息抽取等技術(shù)領(lǐng)域。

（五）神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的技術(shù)原理主要是模仿人腦神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu)和某部分工作機制，運用多種神經(jīng)元構(gòu)建網(wǎng)絡(luò)，最終實現(xiàn)大規(guī)模并行計算的求解方法。每個神經(jīng)元的輸出都連接著另一個神經(jīng)元的輸入。神經(jīng)元的輸出值是通過神經(jīng)元輸入與閾值的加權(quán)函數(shù)來共同計算得出的。神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于文本分類、智能檢索、文本聚類、自動分詞以及數(shù)據(jù)挖掘等技術(shù)領(lǐng)域。

結(jié)語：

綜上所述，文本信息作為情報分析的重要來源，對情報學的整體發(fā)展具有非常重要的價值。因此，相關(guān)部門應(yīng)具備與時俱進的發(fā)展眼光，結(jié)合先進的現(xiàn)代化技術(shù)，來不斷完善與創(chuàng)新情報分析的相關(guān)技術(shù)，實現(xiàn)情報技術(shù)領(lǐng)域的不斷突破。

參考文獻：

[1]遲玉琢.2018年我國情報學研究進展[J].山東圖書館學刊，2019（04）：24-31+54.

[2]張云，楊建林.從學科交叉視角看國內(nèi)情報學的學科地位與發(fā)展思考[J].情報理論與實踐，2019，42（04）：18-23.

[3]王鵬.“互聯(lián)網(wǎng)+”環(huán)境下的科技情報發(fā)展趨勢及團隊建設(shè)[J].競爭情報，2018，14（03）：23-28.