李浩塵 謝勁松
[摘要]本文通過(guò)開(kāi)展大數(shù)據(jù)環(huán)境下審計(jì)取證定位及其方向選擇問(wèn)題研究,旨在嘗試為人工智能審計(jì)軟件設(shè)計(jì)開(kāi)發(fā)提供新思路,為審計(jì)證據(jù)定量研究提供新途徑,為快速準(zhǔn)確獲取審計(jì)證據(jù)探索新方法。
[關(guān)鍵詞]大數(shù)據(jù) ? ?審計(jì)取證 ? ?定位 ? ?研究
隨著計(jì)算機(jī)、物聯(lián)網(wǎng)等技術(shù)的應(yīng)用與普及,網(wǎng)絡(luò)空間中人、機(jī)、物交互、融合產(chǎn)生和獲取的數(shù)據(jù)規(guī)模與速度極大提高,由此人類社會(huì)步入大數(shù)據(jù)時(shí)代。在這種情況下,如何在海量數(shù)據(jù)中挖掘到與被審計(jì)單位相關(guān)的各種有用信息,準(zhǔn)確高效地獲取審計(jì)證據(jù),是審計(jì)人員必須面對(duì)和思考的問(wèn)題。由于研究范圍僅涉及證據(jù)收集切入點(diǎn)選擇等問(wèn)題,因此,通過(guò)引入信息生成傳遞及決策樹(shù)模型,將重點(diǎn)放在對(duì)同一經(jīng)濟(jì)活動(dòng)信息集合中信息鏈環(huán)上的上/下位信息及其相互關(guān)聯(lián)等方面。
一、上/下位信息概念、成因及其表現(xiàn)形態(tài)
(一)從信息生成規(guī)律分析
審計(jì)中審計(jì)主體接觸到的各種信息,均屬于被審計(jì)單位相關(guān)經(jīng)濟(jì)活動(dòng)的自在信息、自有信息和記錄信息集合。其中,自在信息是經(jīng)濟(jì)活動(dòng)以信息方式向外部世界顯示的存在和特征,在轉(zhuǎn)化為人類大腦記憶或者機(jī)器智能、信息系統(tǒng)信息及通過(guò)一定載體記錄為文字、符號(hào)、電子數(shù)據(jù)等信息之前,人類意識(shí)不到它,更談不上認(rèn)識(shí)它。這類信息遵循了物質(zhì)世界物理學(xué)定律,在時(shí)空上位置指向唯一。如未經(jīng)計(jì)量的用戶照明、動(dòng)力等電能。這種隨時(shí)間變化處理的信息,是經(jīng)濟(jì)活動(dòng)信息集合中的底層信息(初始信息),是自有信息和記錄信息的唯一來(lái)源,是認(rèn)識(shí)信息時(shí)空序列的客觀依據(jù)。在數(shù)字化時(shí)代,這些信息通過(guò)交互式應(yīng)用系統(tǒng)(如Web系統(tǒng)、互聯(lián)計(jì)算機(jī)集群——云系統(tǒng)、電子商務(wù)系統(tǒng)等)、嵌入式應(yīng)用系統(tǒng)(如移動(dòng)電話中使用的軟件)、數(shù)據(jù)采集系統(tǒng)、批處理系統(tǒng)運(yùn)行順序輸出生成記錄信息。如電網(wǎng)企業(yè)通過(guò)集中抄表終端(或公用變壓器采集終端)對(duì)低壓電力用戶電能數(shù)據(jù)和配電變壓器用電量及運(yùn)行參數(shù)的實(shí)時(shí)采集的數(shù)據(jù);通過(guò)單片機(jī)(主控MCU模塊,又稱中心單元)將實(shí)時(shí)采集數(shù)據(jù)經(jīng)過(guò)處理、控制,輸出、上傳到采集終端器和主站數(shù)據(jù)庫(kù)等數(shù)據(jù)。這些數(shù)據(jù)保持了經(jīng)濟(jì)活動(dòng)發(fā)展蹤跡,體現(xiàn)了被審計(jì)事項(xiàng)的時(shí)序構(gòu)成,組成了信息集合原子性(不可分割)、序列化鏈環(huán)。這種同一信息集合中含義相互關(guān)聯(lián)、相互承續(xù),時(shí)空位置相鄰、生成順序鄰接的信息稱為鏈環(huán)信息。
當(dāng)鏈環(huán)信息成為審計(jì)對(duì)象時(shí),審計(jì)主體會(huì)根據(jù)審計(jì)假設(shè)或命題信息需要,將審計(jì)取證切入點(diǎn)或者審計(jì)觀察點(diǎn)前后相連的鏈環(huán)信息劃分為上位信息與下位信息。這種劃分是信息含義上的劃分,與信息載體獨(dú)立與否無(wú)關(guān)。其中,上位信息是下位信息的部分或全部來(lái)源,下位信息是上位信息含義的承續(xù),是上位信息這個(gè)“因”或“前提”基礎(chǔ)上產(chǎn)生的“結(jié)果”。審計(jì)中,如果上位信息得到查實(shí),那么與其相關(guān)聯(lián)的下位信息自然也就得到查實(shí)。反之,下位信息所蘊(yùn)含的上位信息就不可能得到查實(shí)。查證屬實(shí)、符合經(jīng)濟(jì)活動(dòng)時(shí)空次序的上位信息屬于確定性信息,而確定性信息是形成審計(jì)證據(jù)的基礎(chǔ);下位信息與當(dāng)下審計(jì)命題或假設(shè)無(wú)關(guān),是另一事項(xiàng)信息,相對(duì)于特定被審計(jì)事項(xiàng)而言,它屬于非相關(guān)信息,而非相關(guān)信息不能作為證據(jù)使用。如果下位信息可以證成上位信息,實(shí)質(zhì)上就是錯(cuò)誤預(yù)設(shè)了下位信息已經(jīng)隱含了上位信息被證明的事實(shí),用需要證明的事實(shí)去證明事實(shí)自身,其邏輯推理的結(jié)果必然是死循環(huán),違背了邏輯規(guī)律。
為便于理解,舉例說(shuō)明。如審計(jì)主體在審查某國(guó)有企業(yè)員工出差費(fèi)用報(bào)銷的真實(shí)性時(shí),記載這項(xiàng)經(jīng)濟(jì)活動(dòng)的記賬憑證以及相關(guān)的明細(xì)賬、總賬記錄等下位信息就不能作為證明員工出差的證據(jù)使用,作為證據(jù)使用的只能是員工出差申請(qǐng)單以及車船票、住宿費(fèi)發(fā)票等上位信息。
從信息生成來(lái)源考察所獲得的上/下位信息,屬于實(shí)質(zhì)性的上/下位信息,它是審計(jì)取證定位及方向選擇的客觀依據(jù)。
(二)從計(jì)算機(jī)軟硬件體系結(jié)構(gòu)中數(shù)據(jù)流的規(guī)律分析
在現(xiàn)階段計(jì)算機(jī)的計(jì)算模型下,無(wú)論是傳統(tǒng)的控制流計(jì)算模型即計(jì)算機(jī)內(nèi)的數(shù)據(jù)按指令循序操作模式,還是大數(shù)據(jù)處理平臺(tái)上以數(shù)據(jù)流為核心的數(shù)據(jù)流計(jì)算模型即新型數(shù)據(jù)驅(qū)動(dòng)方式處理生成的數(shù)據(jù),都是按上一個(gè)數(shù)據(jù)計(jì)算處理完成,將結(jié)果傳遞給下一個(gè)計(jì)算單元操作執(zhí)行這一順序進(jìn)行的。各種信息系統(tǒng)在需求描述、設(shè)計(jì)、開(kāi)發(fā)以及運(yùn)行中均遵循了經(jīng)濟(jì)活動(dòng)的規(guī)律,體現(xiàn)了實(shí)際業(yè)務(wù)流程,具有嚴(yán)密的邏輯性。編程語(yǔ)言也提供了相應(yīng)的實(shí)現(xiàn)語(yǔ)句。例如,C++程序設(shè)計(jì)語(yǔ)言就提供了多種不同的控制流語(yǔ)句,其中順序執(zhí)行的語(yǔ)句規(guī)定:第一條語(yǔ)句首先執(zhí)行,然后是第二條語(yǔ)句,以此類推。現(xiàn)階段,被審計(jì)單位各種交互式應(yīng)用系統(tǒng)、嵌入式控制系統(tǒng)、批處理系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、集成式系統(tǒng)等,所采用的計(jì)算機(jī)語(yǔ)言和解決實(shí)際問(wèn)題的算法,都是按經(jīng)濟(jì)活動(dòng)時(shí)序關(guān)系或程序設(shè)計(jì)語(yǔ)言事前確定的方向和有限規(guī)則操作步驟設(shè)計(jì)運(yùn)行的,反映了被審計(jì)單位經(jīng)濟(jì)活動(dòng)數(shù)據(jù)處理的過(guò)程與流程,體現(xiàn)了經(jīng)濟(jì)活動(dòng)信息含義的遞歸關(guān)系,如貨幣資金=庫(kù)存現(xiàn)金+銀行存款+其他貨幣資金,總是從“庫(kù)存現(xiàn)金”到“銀行存款”和“其他貨幣資金”的值計(jì)算“貨幣資金”的值。
計(jì)算機(jī)軟硬件體系結(jié)構(gòu)中數(shù)據(jù)流所形成的上/下位信息屬于形式上的上/下位信息,它是審計(jì)主體認(rèn)識(shí)實(shí)質(zhì)性上/下位信息的結(jié)構(gòu)化、形式化載體。
(三)從智能化審計(jì)軟件推理過(guò)程分析
隨著人工智能(Artificial Intelligence,AI)技術(shù)的快速發(fā)展及其在金融、交通、商業(yè)、電信、電力等領(lǐng)域的廣泛應(yīng)用,被審計(jì)單位生產(chǎn)經(jīng)營(yíng)活動(dòng)過(guò)程中人、機(jī)、物交互、融合所產(chǎn)生的并在互聯(lián)網(wǎng)上獲得的數(shù)據(jù)也將越來(lái)越多。適應(yīng)這些大容量、多類型、集中化存儲(chǔ)的海量數(shù)據(jù)的智能化審計(jì)軟件,也將得到快速開(kāi)發(fā)與應(yīng)用。智能審計(jì)軟件所采用的從初始事實(shí)(證據(jù))出發(fā),運(yùn)用知識(shí)庫(kù)中特定領(lǐng)域的基本原理、常識(shí)或經(jīng)驗(yàn)知識(shí),通過(guò)推理機(jī)逐步推出與審計(jì)命題或?qū)徲?jì)假設(shè)相關(guān)的審計(jì)結(jié)論的推理過(guò)程,系統(tǒng)性、結(jié)構(gòu)化地體現(xiàn)了應(yīng)用領(lǐng)域的規(guī)律和規(guī)則,反映了事實(shí)(前提)與結(jié)論、上位信息與下位信息的邏輯關(guān)系。如對(duì)某供電企業(yè)配網(wǎng)設(shè)備檢修工程設(shè)計(jì)變更(簽證)事項(xiàng)的真實(shí)性進(jìn)行審計(jì)時(shí),智能化審計(jì)軟件會(huì)依據(jù)知識(shí)庫(kù)中有關(guān)配網(wǎng)設(shè)備檢修工程以及設(shè)計(jì)變更(簽證)深/淺層知識(shí),按以下步驟收集審查信息,固化相關(guān)證據(jù):第一步,收集審查設(shè)計(jì)(簽證)工程名稱及變更卷冊(cè)號(hào)、圖號(hào)信息;第二步,收集審查設(shè)計(jì)(簽證)事項(xiàng)內(nèi)容、相關(guān)施工措施、紀(jì)要或協(xié)議信息;第三步,收集審查變更圖紙、照片、示意圖信息;第四步,收集審查變更工程量信息;第五步收集審查變更費(fèi)用計(jì)算書信息;第六步,收集審查設(shè)計(jì)變更工程安全質(zhì)量稽查信息;第七步,收集審查設(shè)計(jì)變更工程監(jiān)理、中間(隱蔽)工程驗(yàn)收及工程竣工驗(yàn)收等信息。至于該工程設(shè)計(jì)變更后續(xù)的結(jié)算(決算)、財(cái)務(wù)轉(zhuǎn)資等信息,由于屬于上述流程中的下位信息,因而不得作為證明本事項(xiàng)的證據(jù)使用。
這種基于實(shí)質(zhì)和形式化上/下位信息,通過(guò)智能化審計(jì)軟件推理過(guò)程所確認(rèn)的上/下位信息,屬于審計(jì)主體認(rèn)識(shí)上的上/下位信息,是形成審計(jì)證據(jù)的基礎(chǔ)。
二、不同形態(tài)的上/下位信息及其含義遞歸關(guān)系分析
不同形態(tài)的上/下位信息之間既相互聯(lián)系又互相區(qū)別。實(shí)質(zhì)性的上/下位信息真實(shí)地反映了被審計(jì)單位經(jīng)濟(jì)活動(dòng)實(shí)際,是審計(jì)證據(jù)取舍的依據(jù);而形式上的上/下位信息則是審計(jì)主體實(shí)施審計(jì)搜索、識(shí)別的載體與對(duì)象;認(rèn)識(shí)上的上/下位信息則是審計(jì)主體已經(jīng)獲取到、最終能夠形成審計(jì)證據(jù)的相關(guān)信息,這類信息既可以證成審計(jì)事項(xiàng),也可能因?yàn)榕c經(jīng)濟(jì)活動(dòng)不符,導(dǎo)致審計(jì)失敗。
信息的形成是從底層向高層聚合的,具有類似樹(shù)形的結(jié)構(gòu)。從樹(shù)形結(jié)構(gòu)底層的葉子節(jié)點(diǎn)所代表的信息源開(kāi)始也就是信息生產(chǎn)者如文件或者傳感器采集設(shè)備生成的數(shù)據(jù)開(kāi)始的上位信息,然后通過(guò)配準(zhǔn)、匯集、關(guān)聯(lián)和計(jì)算等信息加工,將底層數(shù)據(jù)或信息融合成更加抽象的高層信息表示,逐次完成既定融合目標(biāo)任務(wù),直至根節(jié)點(diǎn),形成某一經(jīng)濟(jì)活動(dòng)的信息集合,在融合的過(guò)程中形成自下而上的多叉樹(shù)形結(jié)構(gòu),如圖1所示。
多叉樹(shù)信息遞歸結(jié)構(gòu)圖中,某一經(jīng)濟(jì)活動(dòng)信息集合組成的信息網(wǎng)中,任一獨(dú)立載體或載體中不同描述段所記載的記錄信息或自有信息可視為該信息網(wǎng)中的節(jié)點(diǎn),節(jié)點(diǎn)之間的連接弧表示節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的直接影響。葉節(jié)點(diǎn)與根節(jié)點(diǎn)之間的層次距離為節(jié)點(diǎn)深度。結(jié)構(gòu)圖中含有的節(jié)點(diǎn)和弧越多,表明相應(yīng)的經(jīng)濟(jì)活動(dòng)信息越復(fù)雜。結(jié)構(gòu)圖中的信息節(jié)點(diǎn)主要由信息節(jié)點(diǎn)之間的上位/下位關(guān)系連接,這種關(guān)系體現(xiàn)了經(jīng)濟(jì)活動(dòng)各信息節(jié)點(diǎn)之間信息內(nèi)容的承繼關(guān)系,表明信息是從上位節(jié)點(diǎn)逐層向下位節(jié)點(diǎn)加工融合傳遞的,上位信息是下位信息的具體呈現(xiàn)。同一事項(xiàng)的下位信息與所有的上位信息輸出點(diǎn),構(gòu)成下位信息因果網(wǎng)。而因果網(wǎng)具有上位/下位關(guān)系的兩個(gè)信息節(jié)點(diǎn)共享同一經(jīng)濟(jì)活動(dòng)部分信息,且下位信息繼承了同一經(jīng)濟(jì)活動(dòng)的全部或部分上位信息。葉節(jié)點(diǎn)與根節(jié)點(diǎn)之間的深度越大即與根節(jié)點(diǎn)的層次距離越遠(yuǎn),所蘊(yùn)含的經(jīng)濟(jì)活動(dòng)信息就越具體且數(shù)量也越大,而越接近根節(jié)點(diǎn)信息量則越少。
在結(jié)構(gòu)圖中,第四層9-18號(hào)葉節(jié)點(diǎn)(包括6號(hào)節(jié)點(diǎn))均為上位節(jié)點(diǎn)信息又稱初始信息,這些信息均由其他系統(tǒng)(互聯(lián)網(wǎng))提供或者本系統(tǒng)生成,在信息集合中最接近經(jīng)濟(jì)活動(dòng)真相,是經(jīng)濟(jì)活動(dòng)信息集合中信息量最大的節(jié)點(diǎn)。例如,通過(guò)傳感器從被審計(jì)單位經(jīng)濟(jì)活動(dòng)中采集并發(fā)送的各種實(shí)時(shí)數(shù)據(jù);人們通過(guò)感覺(jué)器官感知后儲(chǔ)存、記憶的自有信息或自在信息發(fā)生時(shí)第一時(shí)間轉(zhuǎn)換為錄音、錄像、文字、數(shù)據(jù)等的記錄信息。第二層、第三層中2、3、4、5、7、8號(hào)非葉節(jié)點(diǎn)為中間層次節(jié)點(diǎn),相對(duì)于1號(hào)根節(jié)點(diǎn),他們?yōu)樯衔还?jié)點(diǎn),而與第四層9-18號(hào)葉節(jié)點(diǎn)相比較又換位為下位節(jié)點(diǎn)。
上位信息和下位信息的分界點(diǎn)是通過(guò)人機(jī)對(duì)話方式輸入到智能審計(jì)軟件中的審計(jì)命題或?qū)徲?jì)假設(shè)相對(duì)應(yīng)的信息。在一組描述同一經(jīng)濟(jì)活動(dòng)的信息集合中,上位信息是下位信息生成之前的信息,是形成下位信息的前提信息;而下位信息則是上位信息的后續(xù)信息,承續(xù)了上位信息的相關(guān)含義。之所以上位信息可以成為審計(jì)命題或假設(shè)的證據(jù)而下位信息不能作為證據(jù)使用,關(guān)鍵在于下位信息本身就是需要證明的事項(xiàng),是未經(jīng)核實(shí)(查實(shí))的信息,如果使用未經(jīng)核實(shí)(查實(shí))的信息來(lái)推知上位信息,顯然違背了人類認(rèn)知科學(xué)和邏輯推理規(guī)律。例如,審查某項(xiàng)固定資產(chǎn)計(jì)提折舊有無(wú)差錯(cuò)時(shí),某計(jì)提折舊業(yè)務(wù)序列中的下位信息為待證計(jì)提折舊的事實(shí),而上位信息則是計(jì)提折舊的固定資產(chǎn)原值、折舊率等前端業(yè)務(wù)信息,折舊計(jì)提結(jié)果所影響的折舊、成本、費(fèi)用明細(xì)賬以及總分類賬金額的變化則是下位信息。作為證明折舊計(jì)提事項(xiàng)真實(shí)性的審計(jì)證據(jù),應(yīng)該是引起折舊計(jì)提事項(xiàng)發(fā)生的原因——上位信息,而不是它的結(jié)果——下位信息。
三、審計(jì)取證定位及其方向性選擇
審計(jì)取證方向及其定位方法要點(diǎn)是:審計(jì)證據(jù)取證必須以確定的審計(jì)命題或者審計(jì)假設(shè)所需要收集的被審計(jì)事項(xiàng)信息為起點(diǎn),從上(前)往下(后)或者由下(后)往上(前),通過(guò)對(duì)相關(guān)信息的正向或逆向溯源,收集上位信息,查清被審計(jì)事項(xiàng)真相的方法。審計(jì)取證定位及方向性選擇過(guò)程如圖2所示。
(一)確定被審計(jì)事項(xiàng)所需信息的位置特征
首先,以某一具體審計(jì)命題或?qū)徲?jì)假設(shè)定位切入點(diǎn)(觀察點(diǎn)),再根據(jù)切入點(diǎn)(觀察點(diǎn))定義上/下位信息。具體做法就是在數(shù)據(jù)清洗、填充、修改、標(biāo)準(zhǔn)化、類型轉(zhuǎn)化等預(yù)處理基礎(chǔ)上,對(duì)照應(yīng)用領(lǐng)域規(guī)則、業(yè)務(wù)流程或者范例庫(kù)中所記載的相同經(jīng)濟(jì)活動(dòng)相似情節(jié)、過(guò)程等特征,利用計(jì)算機(jī)檢索算法來(lái)確定。這一位置特征與同一經(jīng)濟(jì)活動(dòng)信息集中的對(duì)被審計(jì)事項(xiàng)起證明作用的信息相對(duì)應(yīng)的字符位置相關(guān),通常表現(xiàn)為上、下位兩種位置:表示在被審計(jì)事項(xiàng)所需信息的上(前)邊或者下(后)邊。上/下邊位置應(yīng)根據(jù)經(jīng)濟(jì)活動(dòng)自在信息的順序而不是其記錄信息或者自有信息所記載(記憶)的順序來(lái)確定。其次,選擇被審計(jì)事項(xiàng)信息的各種鄰接節(jié)點(diǎn)字符特征,這樣做是為了能細(xì)粒度地提取所在上/下位節(jié)點(diǎn)信息,它有多種選擇方式,如上下兩個(gè)字符或上/下一個(gè)或多個(gè)字符以及下一個(gè)或多個(gè)字符。信息細(xì)粒度應(yīng)根據(jù)審計(jì)范圍或?qū)徲?jì)目標(biāo)甚至審計(jì)事項(xiàng)的重要程度靈活掌握。
(二)審計(jì)取證方向選擇
被審計(jì)事項(xiàng)信息位置特征確定后,接下來(lái)就要選擇審計(jì)取證方向。從信息定義考察,被審計(jì)事項(xiàng)上/下位信息都蘊(yùn)含了信息,但下位信息只是被審計(jì)事項(xiàng)原有含義上的新增或重復(fù)信息,對(duì)于被審計(jì)事項(xiàng)來(lái)說(shuō)是明確確定的,不存在未被消除的隨機(jī)不確定性因素。因被審計(jì)事項(xiàng)的下位信息不能作為證明其真實(shí)性的證據(jù)使用,因而被審計(jì)事項(xiàng)的上位信息可獨(dú)立或者相互印證地證明被審計(jì)事項(xiàng)的真實(shí)性。也就是說(shuō),被審計(jì)事項(xiàng)的上位信息,根據(jù)證明需要可以成為審計(jì)證據(jù)。在數(shù)據(jù)結(jié)構(gòu)中與被審計(jì)事項(xiàng)無(wú)直接關(guān)聯(lián)的其他節(jié)點(diǎn)信息,由于違背了審計(jì)證據(jù)的相關(guān)性規(guī)定,也不能成為證據(jù)。仍以圖1為例,若節(jié)點(diǎn)4確定為被審計(jì)事項(xiàng),那么葉節(jié)點(diǎn)9、10、11就可以用作節(jié)點(diǎn)4的證據(jù)節(jié)點(diǎn),而與節(jié)點(diǎn)4相關(guān)聯(lián)的上層節(jié)點(diǎn)2,則不是節(jié)點(diǎn)4的證據(jù)節(jié)點(diǎn),除此之外,其他節(jié)點(diǎn)也不能收集、固化為節(jié)點(diǎn)4的證據(jù)。
(三)審計(jì)取證路徑選擇
被審計(jì)事項(xiàng)自在信息通過(guò)一定工具和技術(shù)轉(zhuǎn)換為人們能夠理解和認(rèn)識(shí)的不同系統(tǒng)性質(zhì)的自有信息或記錄信息后,審計(jì)主體可以選擇不同的信息獲取渠道來(lái)查清相關(guān)經(jīng)濟(jì)活動(dòng),但取證路徑必須遵循經(jīng)濟(jì)活動(dòng)內(nèi)在規(guī)律。例如,制造企業(yè)生產(chǎn)與存貨活動(dòng)發(fā)生領(lǐng)料、生產(chǎn)加工、銷售產(chǎn)品等業(yè)務(wù)后,相應(yīng)地也會(huì)產(chǎn)生產(chǎn)品生產(chǎn)、材料(產(chǎn)品)出入庫(kù)、成本計(jì)算等信息,審計(jì)主體可以根據(jù)構(gòu)成這些不同業(yè)務(wù)體系信息的時(shí)空次序,選擇性地收集相關(guān)證據(jù)。
(四)審計(jì)取證方法選擇
審計(jì)取證關(guān)鍵技術(shù)有關(guān)鍵詞提取、主題提取、內(nèi)容抓取等,這里僅從思路上介紹幾種方法。
1.基于范例的推理方法。建立審計(jì)范例庫(kù),根據(jù)關(guān)鍵詞索引,從審計(jì)范例庫(kù)中檢索出(聯(lián)想到)與審計(jì)中面臨問(wèn)題最類似(相關(guān))的范例,進(jìn)行差別比較和解答改編,通過(guò)聯(lián)想(或類比),將解決過(guò)去問(wèn)題的經(jīng)驗(yàn)包括解答和解決過(guò)程用于解決當(dāng)前問(wèn)題。
2.中文文本關(guān)鍵短語(yǔ)提取方法?;诮y(tǒng)計(jì)的關(guān)鍵短語(yǔ)提取,如利用統(tǒng)計(jì)方法,用詞頻TF、詞權(quán)重TF-IDF以及首位置信息作為統(tǒng)計(jì)特征,對(duì)候選短語(yǔ)進(jìn)行評(píng)估,提出文本中關(guān)鍵短語(yǔ);基于混合模型的關(guān)鍵短語(yǔ)抽取,即一種在隱馬爾科夫模型和最大熵模型的基礎(chǔ)上提出的一種無(wú)向圖學(xué)習(xí)模型;利用決策樹(shù)進(jìn)行中文文本關(guān)鍵短語(yǔ)的自動(dòng)抽取;改進(jìn)的Seg Phrase算法等。
3.對(duì)完整或非完整數(shù)據(jù)庫(kù)的查詢方法。如PSKYline-join算法、SQL Server數(shù)據(jù)庫(kù)T-SQL查詢方法、基于Key/Value數(shù)據(jù)庫(kù)的查詢方法等。
(作者單位:國(guó)家電網(wǎng)有限公司 ?國(guó)網(wǎng)湖北省電力有限公司,郵政編碼:430077,電子郵箱:xiejs19621xjs@sina.com)
主要參考文獻(xiàn)
蔡圓媛.大數(shù)據(jù)環(huán)境下基于知識(shí)整合的語(yǔ)義計(jì)算技術(shù)與應(yīng)用[M].北京:北京理工大學(xué)出版社, 2018
高濟(jì).人工智能高級(jí)技術(shù)導(dǎo)論[M].北京:高等教育出版社, 2009
謝亞妮,李響,黃兆坤,鐘鳴,雷鳴濤.一種基于Key/Value數(shù)據(jù)庫(kù)的查詢方法[J].信息化研究, 2019(3)