任 杰
(中國(guó)水利電力物資集團(tuán)有限公司, 北京 100043)
近年來(lái), 我國(guó)的社會(huì)發(fā)展與經(jīng)濟(jì)建設(shè)取得了舉世矚目的成績(jī). 社會(huì)的發(fā)展過(guò)程離不開(kāi)工程建設(shè), 工程建設(shè)招標(biāo)和投標(biāo)是在市場(chǎng)經(jīng)濟(jì)條件下進(jìn)行工程建設(shè)的一種經(jīng)濟(jì)活動(dòng), 其實(shí)質(zhì)是一種市場(chǎng)競(jìng)爭(zhēng)行為. 在甲方市場(chǎng)的條件下, 招標(biāo)人可以通過(guò)招標(biāo)活動(dòng)在眾多投標(biāo)人中選定報(bào)價(jià)合理、工期較短、信譽(yù)良好的承包商、供應(yīng)商來(lái)承擔(dān)工程建設(shè)任務(wù)[1]. 工程建設(shè)的招投標(biāo)不僅具有高報(bào)價(jià)、高復(fù)雜性和高競(jìng)爭(zhēng)性等問(wèn)題, 還存在人工評(píng)標(biāo)效率低和識(shí)別圍標(biāo)、串標(biāo)行為難的問(wèn)題[2,3]. 這些問(wèn)題都在不同程度上阻礙了工程的建設(shè)和企業(yè)的發(fā)展,同時(shí)也給招標(biāo)投標(biāo)的工作帶來(lái)了不小的挑戰(zhàn). 因此招標(biāo)投標(biāo)的各個(gè)環(huán)節(jié)是否能夠遵守高效、客觀、科學(xué)、公平、公正、公開(kāi)的原則至關(guān)重要[4].
目前招投標(biāo)領(lǐng)域正在由紙質(zhì)化招標(biāo)向電子化招標(biāo)的方向發(fā)展, 這也為利用計(jì)算機(jī)分析電子化招投標(biāo)文件提供了可能. 首先, 利用計(jì)算機(jī)對(duì)標(biāo)書進(jìn)行評(píng)估, 可以實(shí)現(xiàn)對(duì)標(biāo)書的預(yù)選, 為人工評(píng)分提供了參考和客觀依據(jù); 其次, 計(jì)算機(jī)的應(yīng)用與分析為構(gòu)建電子化招投標(biāo)系統(tǒng)和標(biāo)書文本分析工作提供了條件; 最后, 利用計(jì)算機(jī)分析招投標(biāo)過(guò)程信息和背景信息, 可以為識(shí)別圍標(biāo)、串標(biāo)行為提供參考. 但是目前招投標(biāo)實(shí)踐中, 標(biāo)書評(píng)估主要還是依靠人工評(píng)標(biāo), 缺少全面、科學(xué)的技術(shù)輔助手段. 招投標(biāo)研究領(lǐng)域中, 利用大數(shù)據(jù)分析標(biāo)書并識(shí)別圍標(biāo)、串標(biāo)的技術(shù)仍然不完善, 缺乏通用性. 這主要是因?yàn)橥稑?biāo)過(guò)程具有高復(fù)雜性, 現(xiàn)有的方法僅僅針對(duì)一個(gè)或兩個(gè)指標(biāo)進(jìn)行定量分析, 這顯然是不夠的. 標(biāo)書文本的分析不僅要考慮內(nèi)部、外部等多個(gè)指標(biāo), 還需將定量分析與定性分析相結(jié)合, 從而實(shí)現(xiàn)更加全面、完整、科學(xué)的標(biāo)書評(píng)估.
隨著深度學(xué)習(xí)在NLP 領(lǐng)域的發(fā)展, 利用NLP 進(jìn)行自然語(yǔ)言理解(natural language understanding, NLU)和自然語(yǔ)言生成(natural language generation, NLG)已經(jīng)越來(lái)越普遍[5]. 文本是語(yǔ)言信息的主要載體, 利用文本信息進(jìn)行挖掘并提取關(guān)鍵信息, 對(duì)于人們快速準(zhǔn)確地獲取文本內(nèi)容具有重要的作用. 語(yǔ)義相似度計(jì)算(semantic textual similarity)是聯(lián)系文本信息表示和潛在上層應(yīng)用之間的紐帶[6], 重復(fù)率常用于大型網(wǎng)頁(yè)和巨量文本的量化計(jì)算[7,8]. 在相似度和重復(fù)率的實(shí)踐上, 目前Simahash 算法和Shingling 算法[9]被認(rèn)為是當(dāng)前最好的算法之一[10,11]. 采用這兩種算法計(jì)算投標(biāo)文件間的相似度與重復(fù)率, 可以為標(biāo)書文本的評(píng)估和識(shí)別圍標(biāo)、串標(biāo)行為提供量化指標(biāo).
本文提出了基于文本分析的標(biāo)書評(píng)估模型, 從定量分析和定性分析兩個(gè)方面分別處理標(biāo)書文本, 實(shí)現(xiàn)對(duì)標(biāo)書的綜合評(píng)估. 本文第1 節(jié)介紹評(píng)估模型的框架和基本思路, 第2 節(jié)介紹涉及到的關(guān)鍵算法與改進(jìn), 第3 節(jié)介紹模型的評(píng)估指標(biāo)及計(jì)算方法, 第4 節(jié)進(jìn)行實(shí)際案例分析, 第5 節(jié)總結(jié)評(píng)估模型, 提出不足與展望.
當(dāng)前招投標(biāo)研究領(lǐng)域主要存在兩個(gè)主要問(wèn)題:(1) 識(shí)別圍標(biāo)、串標(biāo)行為主要依賴評(píng)標(biāo)現(xiàn)場(chǎng)進(jìn)行人工識(shí)別和判斷, 但是評(píng)標(biāo)現(xiàn)場(chǎng)時(shí)間有限, 并且圍標(biāo)和串標(biāo)行為往往不易發(fā)現(xiàn), 缺少有效的機(jī)器輔助手段; (2) 當(dāng)前評(píng)標(biāo)工作中, 利用計(jì)算機(jī)分析標(biāo)書時(shí)缺少有效合理的評(píng)價(jià)指標(biāo)和評(píng)價(jià)方法, 現(xiàn)有評(píng)價(jià)指標(biāo)往往側(cè)重于對(duì)少數(shù)幾個(gè)方面進(jìn)行定量分析, 缺少結(jié)合定量分析與定性分析的全面評(píng)價(jià)體系.
本文提出了基于文本分析的標(biāo)書綜合評(píng)估模型,模型通過(guò)基于定量分析的文本評(píng)估和基于定性分析的文本評(píng)級(jí)實(shí)現(xiàn)對(duì)標(biāo)書的綜合評(píng)估. 文本評(píng)估模型是通過(guò)定量分析計(jì)算5 項(xiàng)指標(biāo)及權(quán)重得到標(biāo)書評(píng)分, 通過(guò)評(píng)分對(duì)標(biāo)書進(jìn)行排序, 為實(shí)際評(píng)標(biāo)工作中的標(biāo)書評(píng)分提供參考. 文本評(píng)級(jí)模型是通過(guò)定性分析利用7 項(xiàng)指標(biāo)分別對(duì)標(biāo)書文本進(jìn)行評(píng)級(jí)得到評(píng)級(jí)結(jié)果, 通過(guò)評(píng)級(jí)結(jié)果識(shí)別投標(biāo)企業(yè)是否疑似出現(xiàn)圍標(biāo)、串標(biāo)行為, 模型識(shí)別再結(jié)合人工核查確認(rèn)最終的識(shí)別結(jié)果, 模型為評(píng)標(biāo)工作中識(shí)別圍標(biāo)、串標(biāo)行為提供參考. 文本評(píng)估和文本評(píng)級(jí)的結(jié)果分別實(shí)現(xiàn)了對(duì)標(biāo)書的定量計(jì)算和定性分析, 兩者結(jié)果綜合集成后即可實(shí)現(xiàn)對(duì)標(biāo)書的綜合評(píng)估, 標(biāo)書評(píng)估模型框架圖見(jiàn)圖1.
圖1 標(biāo)書評(píng)估模型框架圖
本文的研究語(yǔ)料來(lái)源于中國(guó)水利電力物資集團(tuán)有限公司工程建設(shè)中的招投標(biāo)文件, 投標(biāo)文件通常包含投標(biāo)函部分、商務(wù)標(biāo)部分和技術(shù)標(biāo)部分. 由于投標(biāo)文件是非結(jié)構(gòu)化文本數(shù)據(jù), 而且文件中不僅含有大量的文字信息, 還有表格和圖片信息. 這些非結(jié)構(gòu)化信息給開(kāi)標(biāo)現(xiàn)場(chǎng)的評(píng)標(biāo)帶來(lái)了不少困難, 尤其是投標(biāo)企業(yè)出現(xiàn)圍標(biāo)、串標(biāo)行為時(shí), 評(píng)標(biāo)專家難以在評(píng)標(biāo)現(xiàn)場(chǎng)短時(shí)間內(nèi)進(jìn)行定量或定性識(shí)別. 《中華人民共和國(guó)招投標(biāo)法》《招投標(biāo)實(shí)施條例》《招投標(biāo)實(shí)施細(xì)則》等法律法規(guī)規(guī)定了對(duì)出現(xiàn)圍標(biāo)、串標(biāo)行為的處罰條例, 但是缺少于圍標(biāo)、串標(biāo)行為的界定標(biāo)準(zhǔn).
在文本分析方面, 構(gòu)建招投標(biāo)過(guò)程文件查重對(duì)比模型, 通過(guò)基于NLP 的權(quán)重改進(jìn)的Simhash 算法和Shingling 算法對(duì)投標(biāo)文件進(jìn)行分析, 得到投標(biāo)文件之間的相似度和重復(fù)率. 再通過(guò)匹配和對(duì)比得到招標(biāo)文件目錄的匹配度、資質(zhì)與報(bào)價(jià)的一致性和投標(biāo)價(jià)格的上(下)浮率指標(biāo). 這些指標(biāo)通過(guò)定量分析為評(píng)標(biāo)專家的評(píng)標(biāo)工作提供更加客觀、準(zhǔn)確、科學(xué)的依據(jù), 同時(shí)也為識(shí)別圍標(biāo)、串標(biāo)的行為提供了參考.
在行為分析方面, 構(gòu)建異常檢測(cè)模型, 針對(duì)投標(biāo)企業(yè)在投標(biāo)過(guò)程中出現(xiàn)的異常行為進(jìn)行分析, 從而識(shí)別企業(yè)是否存在圍標(biāo)、串標(biāo)的嫌疑. 其中異常行為包括:故意廢標(biāo)、開(kāi)標(biāo)前幾家企業(yè)同時(shí)撤回標(biāo)書、不同企業(yè)的保證金出自同一賬戶、投標(biāo)文件簽名字跡一致、標(biāo)書出現(xiàn)明顯的錯(cuò)誤等.
在背景分析方面, 構(gòu)建企業(yè)資質(zhì)審查模型, 首先建立基于知識(shí)圖譜的文本知識(shí)庫(kù), 實(shí)現(xiàn)知識(shí)的智能存儲(chǔ)、智能關(guān)聯(lián)、智能推理, 通過(guò)企業(yè)與項(xiàng)目之間的關(guān)系, 形成網(wǎng)狀的知識(shí)結(jié)構(gòu), 利用知識(shí)問(wèn)答、實(shí)體查詢、關(guān)系查詢、邏輯推理等功能, 實(shí)現(xiàn)對(duì)企業(yè)關(guān)聯(lián)度的分析計(jì)算. 然后利用基于OCR 技術(shù)的企業(yè)資質(zhì)審查模型, 對(duì)投標(biāo)企業(yè)資質(zhì)進(jìn)行審查, 通過(guò)OCR 識(shí)別自動(dòng)抽取投標(biāo)文件中的企業(yè)資質(zhì)等證書圖片信息, 獲取證書的名稱、編號(hào)和印章信息, 將證書名稱和編號(hào)上傳至查驗(yàn)網(wǎng)站進(jìn)行真?zhèn)尾轵?yàn), 再對(duì)印章信息進(jìn)行真實(shí)性查驗(yàn), 確定證書的真實(shí)性和有效性. 然后利用政府的公開(kāi)信息查詢企業(yè)是否出現(xiàn)違規(guī)、失信等情況, 得到企業(yè)的信用度.
基于文本分析的標(biāo)書綜合評(píng)估模型在傳統(tǒng)的評(píng)估指標(biāo)上加入文本方面、行為方面和背景方面的綜合分析, 構(gòu)成了更加全面、客觀的標(biāo)書綜合評(píng)估模型, 模型的評(píng)估指標(biāo)框架圖見(jiàn)圖2.
圖2 評(píng)估指標(biāo)框架圖
標(biāo)書文本分析的核心技術(shù)為文本相似度和重復(fù)率計(jì)算, 文本相似度是定性分析兩個(gè)文本是否具有相似性, 文本重復(fù)率是定量計(jì)算兩個(gè)文本的重復(fù)程度.
傳統(tǒng)的文本相似度是通過(guò)計(jì)算文本特征詞所構(gòu)成的特征向量的夾角余弦值實(shí)現(xiàn)的, 面對(duì)長(zhǎng)文本, 傳統(tǒng)的方法由于整個(gè)特征向量的維度高, 導(dǎo)致計(jì)算的時(shí)間和空間復(fù)雜度都很高. 面對(duì)幾萬(wàn)字的標(biāo)書, 傳統(tǒng)的相似度計(jì)算方法效率過(guò)低.
Simhash 算法解決了無(wú)法處理長(zhǎng)文本的問(wèn)題, 并常常被用于實(shí)踐, Simhash 是一種局部敏感哈希, 局部敏感是指假如兩個(gè)字符串具有一定的相似性, 這種相似性在哈希之后仍然會(huì)被保持, 這種特性常用于海量文本之間的相似度計(jì)算, 最早被Google 應(yīng)用于對(duì)海量文本進(jìn)行去重處理[12]. Simhash 是一種降維的思想, 它將高維的向量映射成低維的向量并得到一個(gè)Simhash 值,即一個(gè)n位的指紋, 而相似文檔的指紋之間只存在少量的不同, 因此通過(guò)計(jì)算n位指紋的海明距離即可判斷文本之間的相似度[13,14].
Simhash 算法是由Manku、Jain、Sarma 3 位Google 工程師提出并通過(guò)實(shí)驗(yàn)驗(yàn)證了采用64 位的指紋時(shí), 文本間的海明距離取k=3作為閾值來(lái)判斷文本的相似是合理的. 由于參數(shù)k的取值直接影響算法的準(zhǔn)確率和召回率, 這兩個(gè)指標(biāo)大致呈現(xiàn)反比關(guān)系, 實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)k=3時(shí), 算法的準(zhǔn)確率和召回率均在75% 左右,并且達(dá)到了較好的均衡[15], 適用于標(biāo)書文本的相似度計(jì)算. 除此之外, Simhash 算法通過(guò)降維的思想將高維特征向量映射成唯一的二值Simhash 值, 降低了計(jì)算復(fù)雜度, 提升了算法效率.
傳統(tǒng)的Simhash 算法在權(quán)重計(jì)算時(shí)通常直接設(shè)置為1 或者特征詞的詞頻, 這就無(wú)法體現(xiàn)出詞匯的分布特征, 導(dǎo)致信息的丟失和準(zhǔn)確率降低. 為了解決傳統(tǒng)Simhash 算法中權(quán)重計(jì)算不充分的問(wèn)題, 受文獻(xiàn)[16]的啟發(fā), 本文在權(quán)重計(jì)算中使用詞頻-逆向文件頻率(TF-IDF)和信息熵的基礎(chǔ)上, 加入了特征詞偏向性權(quán)重, 并人為判斷特征項(xiàng)是否能夠作為算法特征項(xiàng)進(jìn)行計(jì)算, 最終形成了基于熵-特征詞偏向性加權(quán)的Simhash算法, 具體計(jì)算方法如下.
(1)詞頻-逆向文件頻率定義為:
其中,t f(tk,dj)代表詞頻, 是指特征項(xiàng)tk在文本dj中的詞頻,id f(tk)代表逆向文件頻率, 是指語(yǔ)料庫(kù)中文件總數(shù)與出現(xiàn)特征詞tk的文件數(shù)量的比值的對(duì)數(shù).
(2)左右信息熵和熵量分別定義為:
其中,w為單詞,Hl(w)為單詞的左熵,P(aw|w)為單詞左側(cè)出現(xiàn)不同詞的頻率,a表示與w結(jié)合的詞.Hr(w)為單詞的右熵.Hk(w)為熵量.
(3)特征詞偏向性權(quán)重定義為:
其中,ai是特征項(xiàng)所屬的標(biāo)書部分(標(biāo)書通常分為: 投標(biāo)函部分、商務(wù)標(biāo)部分、技術(shù)標(biāo)部分)的權(quán)重, 該權(quán)重是通過(guò)對(duì)評(píng)標(biāo)專家對(duì)各部分重要性排序通過(guò)層次分析法計(jì)算獲得.
(4)基于熵-特征詞偏向性加權(quán)公式:
上述公式的物理意義是: 特征項(xiàng)tk在文檔dj中出現(xiàn)次數(shù)越多, 在所有文檔中出現(xiàn)次數(shù)越少, 信息量越大,所屬標(biāo)書部分重要性程度越高, 則其對(duì)應(yīng)的權(quán)重越大.
(5)特征項(xiàng)的二次選擇
經(jīng)過(guò)上述步驟計(jì)算出來(lái)的特征項(xiàng)及對(duì)應(yīng)的權(quán)重在帶入Simhash 算法進(jìn)行計(jì)算之前, 需要結(jié)合標(biāo)書文本的特殊性和本次投標(biāo)所屬行業(yè)關(guān)鍵信息的專業(yè)性利用預(yù)定的閾值進(jìn)行人工二次選擇, 通過(guò)二次選擇提高特征項(xiàng)的準(zhǔn)確性和代表性, 從而提高Simhash 算法的計(jì)算效果.
(6) Simhash 值和海明距離的計(jì)算
Simhash 算法主要有2 個(gè)主要步驟: 計(jì)算simhash值和計(jì)算文本間的海明距離.
1) 計(jì)算Simhash 值.
首先, 對(duì)于給定的標(biāo)書文本, 利用停用詞表過(guò)濾掉符號(hào)、助詞、語(yǔ)氣詞等無(wú)效字符, 然后通過(guò)分詞庫(kù)進(jìn)行分詞, 將文本轉(zhuǎn)換為一些特征詞的集合(a1,a2,···,an),集合中各元素的權(quán)重(w1,w2,···,wn)為該特征詞在文本中的詞頻. 然后, 通過(guò)hash 計(jì)算將集合中每個(gè)特征詞映射為長(zhǎng)度為n的二進(jìn)制數(shù)hash 值[17], 再將二進(jìn)制數(shù)中的0 變?yōu)?1, 并乘以權(quán)重. 最后把乘以權(quán)重后的特征集合按位累加, 得到一個(gè)n位的文本特征值(即文本的指紋). 遍歷文本特征值的每一位, 當(dāng)該位值大于0 時(shí)賦值為1, 小于等于0 時(shí)賦值為0, 即可得到降維后的文本的Simhash 值, 算法流程圖見(jiàn)圖3.
圖3 Simhash 算法流程圖
2) 計(jì)算海明距離(Hamming distance).
由于相似文本的指紋信息只有少量的不同, 因此可以通過(guò)計(jì)算文本的指紋信息即Simhash 值的相似程度來(lái)判斷文本的相似程度. 海明距離表示兩個(gè)文本Simhash 值每一個(gè)索引位置值不同的數(shù)量, 假設(shè)兩個(gè)文本(a1,a2,···,an)與(b1,b2,···,bn)的Simhash 值長(zhǎng)度為n,i表示第i位, 則文本a和b之間的海明距離計(jì)算公式為:
其中, ?表示異或運(yùn)算.
Simhash 算法中, 首先將文本信息映射得到指紋信息, 再通過(guò)計(jì)算海明距離H(a,b)來(lái)判斷相似度. 在實(shí)踐中, 通常認(rèn)為兩個(gè)文本的海明距離H(a,b)≤3時(shí)文本是相似的, 本文采用H(a,b)=3作為判斷相似性的閾值.海明距離H(a,b)是文本評(píng)級(jí)模型的指標(biāo)之一.
Shingling 算法是一種降低特征維度去檢測(cè)文本相似性的方法[18]. Shingling 算法是將文本的相似性轉(zhuǎn)化為詞語(yǔ)集合的相似性, 首先將文本M劃分成一些大小為w的連續(xù)子序列的集合(w1,w2,···,wn)稱為S(M,w),再通過(guò)兩個(gè)集合的交集除以并集的計(jì)算方式表示文本的相似性[19,20], 則文本A和B的相似性定義為:
式(8) 得到的rw(A,B)是文本的相似系數(shù)即文本A和B的重復(fù)率, 重復(fù)率是標(biāo)書文本評(píng)估的指標(biāo)之一.
基于文本分析的標(biāo)書綜合評(píng)估模型由文本評(píng)估模型和文本評(píng)級(jí)模型組成, 兩者的計(jì)算結(jié)果共同實(shí)現(xiàn)了對(duì)標(biāo)書的綜合評(píng)估.
在傳統(tǒng)的評(píng)標(biāo)中, 通常是評(píng)標(biāo)專家對(duì)投標(biāo)文件的3 個(gè)主要部分: 商務(wù)標(biāo)部分、技術(shù)標(biāo)部分和報(bào)價(jià)部分進(jìn)行打分, 每部分得分與權(quán)重相乘后累加即可得到專家評(píng)分結(jié)果. 在這個(gè)過(guò)程中, 圍標(biāo)、串標(biāo)行為的識(shí)別往往依靠評(píng)分專家的主觀判斷, 缺少客觀的評(píng)定指標(biāo).
基于文本分析的標(biāo)書綜合評(píng)估模型分為標(biāo)書文本評(píng)估和文本評(píng)級(jí). 文本評(píng)估模型是在傳統(tǒng)的評(píng)分指標(biāo)“商務(wù)標(biāo)部分X1”“技術(shù)標(biāo)部分X2”“價(jià)格得分X3”的基礎(chǔ)上加入了基于Shingling 算法計(jì)算得到的標(biāo)書文本的“重復(fù)率X4”和投標(biāo)文件要求的招標(biāo)文件目錄與真實(shí)目錄的“匹配度X5”. 其中X1、X2得分是參考專家經(jīng)驗(yàn)計(jì)算得到的,X3、X4、X5是模型評(píng)分.
本實(shí)驗(yàn)中標(biāo)書的評(píng)標(biāo)基準(zhǔn)價(jià)采用平均值法, 評(píng)標(biāo)基準(zhǔn)價(jià)的計(jì)算方法[21]為:
C(評(píng)標(biāo)基準(zhǔn)價(jià))=A(所有有效標(biāo)書的平均價(jià)格) (9)
價(jià)格得分X3的計(jì)算方法是: 當(dāng)投標(biāo)報(bào)價(jià)=C時(shí), 該標(biāo)書的價(jià)格分為100 分; 投標(biāo)報(bào)價(jià)>C時(shí), 每高于評(píng)標(biāo)基準(zhǔn)價(jià)1%, 扣1 分; 投標(biāo)報(bào)價(jià) 重復(fù)率指標(biāo)X4的計(jì)算方法是: 當(dāng)重復(fù)率F≤n%時(shí),得100 分; 當(dāng)重復(fù)率F>n%時(shí), 每高于重復(fù)率1%, 扣2 分, 本文取n=5. 當(dāng)重復(fù)率得分<0 時(shí), 記0 分. 目錄匹配度指標(biāo)X5是把招標(biāo)文件對(duì)于投標(biāo)文件的要求目錄中的各級(jí)標(biāo)題提取關(guān)鍵詞, 利用關(guān)鍵詞與真實(shí)目錄進(jìn)行字符串匹配, 匹配度的計(jì)算公式為: 匹配度X5的計(jì)算方法是: 當(dāng)P=100% 時(shí), 得100 分;當(dāng)P<100%, 每少1%, 扣5 分. 當(dāng)匹配度得分<0 時(shí), 記0 分. 為了獲取到指標(biāo)Xi在評(píng)標(biāo)過(guò)程中所占的權(quán)重, 本實(shí)驗(yàn)通過(guò)調(diào)查問(wèn)卷的方法收集了5 位評(píng)標(biāo)專家對(duì)5 個(gè)指標(biāo)中兩兩相比時(shí)的相對(duì)重要性排序, 然后通過(guò)層次分析法(analytic hierarchy process, AHP)獲取了指標(biāo)Xi對(duì)應(yīng)的權(quán)重ai. 文本評(píng)估得分的計(jì)算公式為: 文本評(píng)估模型通過(guò)對(duì)5 項(xiàng)指標(biāo)進(jìn)行定量計(jì)算, 得到了指標(biāo)權(quán)重, 并進(jìn)一步得到各標(biāo)書的得分. 文本評(píng)估模型的指標(biāo)權(quán)重是基于評(píng)標(biāo)專家的經(jīng)驗(yàn), 采用半定量的層次分析法確定. 文本評(píng)估模型的各項(xiàng)指標(biāo)綜合了傳統(tǒng)評(píng)估指標(biāo)、重復(fù)率和目錄匹配度, 是一種更加全面的評(píng)價(jià)方法, 具有一定的通用性. 文本評(píng)估模型的指標(biāo)列表見(jiàn)表1. 表1 文本評(píng)估模型的指標(biāo)列表 在傳統(tǒng)的評(píng)標(biāo)中, 招投標(biāo)行為是否出現(xiàn)圍標(biāo)、串標(biāo)行為往往是通過(guò)評(píng)標(biāo)專家現(xiàn)場(chǎng)進(jìn)行人工識(shí)別, 一方面效率較低且難以發(fā)現(xiàn)圍標(biāo)、串標(biāo)行為的有效證據(jù),另一方面, 人工難以有效的挖掘標(biāo)書的深層次信息. 文本評(píng)級(jí)模型識(shí)別圍標(biāo)串標(biāo)行為的方法是通過(guò)7 個(gè)指標(biāo)對(duì)標(biāo)書分別進(jìn)行評(píng)級(jí), 進(jìn)行風(fēng)險(xiǎn)等級(jí)劃分, 最終綜合7 個(gè)評(píng)級(jí)結(jié)果, 通過(guò)綜合評(píng)級(jí)式(18)得到最終的標(biāo)書評(píng)級(jí), 7 個(gè)指標(biāo)分別是: 利用基于權(quán)重改進(jìn)的Simhash 算法得到的兩個(gè)標(biāo)書文本全文之間的相似度指標(biāo)Y1和標(biāo)書文本的技術(shù)標(biāo)部分(技術(shù)標(biāo)是投標(biāo)的關(guān)鍵性內(nèi)容) 的相似度指標(biāo)Y2. 定義H(A,B)(即海明距離)為標(biāo)書文本A和B之間的相似度, 則Y1和Y2評(píng)級(jí)公式為: 基于知識(shí)圖譜的投標(biāo)企業(yè)關(guān)聯(lián)度指標(biāo)Y3, 通過(guò)外部系統(tǒng)中的知識(shí)圖譜獲取兩個(gè)企業(yè)間工程建設(shè)項(xiàng)目、資金等信息往來(lái)情況. 定義C(A,B)為企業(yè)A和企業(yè)B的項(xiàng)目往來(lái)次數(shù), 則Y3的評(píng)級(jí)公式為: 投標(biāo)企業(yè)的企業(yè)資質(zhì)與投標(biāo)價(jià)格的一致性指標(biāo)Y4,通過(guò)投標(biāo)企業(yè)的標(biāo)書獲取報(bào)價(jià)、總資產(chǎn)、已完成同類項(xiàng)目數(shù)量, 定義投標(biāo)企業(yè)的報(bào)價(jià)排序?yàn)閍、企業(yè)總資產(chǎn)排序?yàn)閎和已完成同類項(xiàng)目數(shù)量排序?yàn)閏, 則Y4評(píng)級(jí)公式為: 投標(biāo)價(jià)的價(jià)格上(下)浮率指標(biāo)Y5, 文獻(xiàn)[22]驗(yàn)證了圍標(biāo)、串標(biāo)的企業(yè)通常由一定數(shù)量的相同或相似報(bào)價(jià)的企業(yè)和一定數(shù)量的遠(yuǎn)低于正常報(bào)價(jià)的企業(yè)共同組成, 這些企業(yè)從價(jià)格方面使得評(píng)標(biāo)基準(zhǔn)價(jià)向組織圍標(biāo)、串標(biāo)的企業(yè)靠近. 本實(shí)驗(yàn)的投標(biāo)價(jià)A相對(duì)于基準(zhǔn)價(jià)C價(jià)格上(下)浮率為F(A,C), 則Y5的評(píng)級(jí)公式為: 基于政府信息公開(kāi)的投標(biāo)企業(yè)誠(chéng)信度指標(biāo)Y6, 通過(guò)政府公開(kāi)信息查詢網(wǎng)站獲取投標(biāo)企業(yè)的社會(huì)信用情況、資金狀況和違法違規(guī)情況的負(fù)面記錄數(shù)量J(A),并進(jìn)行評(píng)級(jí),Y6的評(píng)級(jí)公式為: 基于異常行為的指標(biāo)Y7, 異常行為是指: 文件混裝、未按照要求撰寫投標(biāo)文件等故意廢標(biāo)的情況; 不同標(biāo)書的簽名字跡一致; 截標(biāo)前多家企業(yè)同時(shí)撤回標(biāo)書; 不同企業(yè)的投標(biāo)保證金出自同一賬戶等. 企業(yè)A異常行為的數(shù)量記為M(A), 其Y7評(píng)級(jí)公式為: 其中,R(·)表示所有可能的情況中使得括號(hào)內(nèi)條件成立的情況的個(gè)數(shù). 文本評(píng)估模型的創(chuàng)新之處在于該模型考慮了文本層面的分析、企業(yè)關(guān)聯(lián)分析、背景分析與行為分析等因素, 通過(guò)7 個(gè)指標(biāo)的評(píng)級(jí)結(jié)果綜合分析得到識(shí)別圍標(biāo)串標(biāo)的結(jié)果, 為圍標(biāo)、串標(biāo)行為的檢測(cè)提供了支撐,文本評(píng)級(jí)指標(biāo)列表見(jiàn)表2. 表2 文本評(píng)級(jí)模型的指標(biāo)列表 標(biāo)書評(píng)估實(shí)踐中, 最重要的兩個(gè)步驟是對(duì)標(biāo)書進(jìn)行評(píng)分得到排序和識(shí)別圍標(biāo)、串標(biāo)行為, 從而確定最終入圍的標(biāo)書. 但在技術(shù)研究中, 往往只少數(shù)文獻(xiàn)對(duì)某些方面進(jìn)行了分析, 并未考慮到標(biāo)書分析的全面性和客觀性問(wèn)題. 本文提出的標(biāo)書評(píng)估模型分別從文本評(píng)估(指標(biāo)X1–X5)和文本評(píng)級(jí)(指標(biāo)Y1–Y7)兩個(gè)方面進(jìn)行標(biāo)書的定量計(jì)算和定性分析. 文本評(píng)估(X項(xiàng))是在傳統(tǒng)的評(píng)分指標(biāo)中加入了“重復(fù)率X4”和“目錄匹配度X5”, 并利用層次分析法獲得指標(biāo)對(duì)應(yīng)的權(quán)重, 從定量計(jì)算方面實(shí)現(xiàn)對(duì)文本的評(píng)分, 確認(rèn)投標(biāo)企業(yè)的標(biāo)書得分排序. 文本評(píng)級(jí)(Y項(xiàng))是利用7 項(xiàng)指標(biāo)的定性評(píng)級(jí)結(jié)果判斷投標(biāo)企業(yè)是否出現(xiàn)疑似圍標(biāo)、串標(biāo)的行為, 結(jié)合人工進(jìn)行核查, 為文本評(píng)估(X項(xiàng))提供圍標(biāo)、串標(biāo)的參考, 兩者共同實(shí)現(xiàn)對(duì)標(biāo)書的綜合評(píng)估.綜合評(píng)估本質(zhì)是將兩個(gè)不同方面的計(jì)算結(jié)果進(jìn)行結(jié)合, 但是這種結(jié)合又加入了人工的核查, 增大了模型的準(zhǔn)確性和可靠性. 本節(jié)將中國(guó)水利電力物資集團(tuán)有限公司工程建設(shè)中兩個(gè)招投標(biāo)項(xiàng)目的文本和數(shù)據(jù)作為實(shí)際案例數(shù)據(jù)進(jìn)行實(shí)驗(yàn), 通過(guò)基于文本分析的標(biāo)書綜合評(píng)估模型的計(jì)算結(jié)果與真實(shí)結(jié)果進(jìn)行對(duì)比, 展示本文模型的有效性. 在文本評(píng)估中的指標(biāo)X4(重復(fù)率), 文本評(píng)級(jí)中的指標(biāo)Y1(全文相似度)、Y2(技術(shù)標(biāo)部分相似度)、Y3(企業(yè)關(guān)聯(lián)度) 是描述兩文本之間的關(guān)系, 當(dāng)某項(xiàng)目有A1,A2,···,An共n個(gè)企業(yè)進(jìn)行投標(biāo), 在計(jì)算Ai的這4 個(gè)指標(biāo)時(shí), 要將Ai與其他n?1個(gè)企業(yè)進(jìn)行比較, 共有n?1個(gè)結(jié)果, 結(jié)果應(yīng)當(dāng)選擇數(shù)值屬性最不利于該企業(yè)的實(shí)驗(yàn)數(shù)據(jù)作為Ai在該指標(biāo)的數(shù)據(jù)值. 此外, 實(shí)驗(yàn)數(shù)據(jù)中的招標(biāo)項(xiàng)目的投標(biāo)企業(yè)個(gè)數(shù)通常為4–8 個(gè), 所以計(jì)算的復(fù)雜度是合理的. 實(shí)際案例數(shù)據(jù)分別采用“某電廠入廠次干道”項(xiàng)目和“某電站公用及輔機(jī)控制設(shè)備”項(xiàng)目的案例數(shù)據(jù). “某電廠入廠次干道”招標(biāo)項(xiàng)目共有4 家企業(yè)進(jìn)行投標(biāo), 即共有4 份標(biāo)書文本. 經(jīng)過(guò)標(biāo)書文本的數(shù)據(jù)處理得到“某電廠入廠次干道”項(xiàng)目的指標(biāo)數(shù)據(jù)與綜合評(píng)估結(jié)果, 見(jiàn)表3. 其中有3 家企業(yè)的標(biāo)書被識(shí)別為“正?!? 1 家企業(yè)的標(biāo)書被識(shí)別為“疑似圍標(biāo)、串標(biāo)”. 投標(biāo)企業(yè)4 被識(shí)別為“疑似圍標(biāo)、串標(biāo)”, 這是由于投標(biāo)企業(yè)4 的文本評(píng)級(jí)結(jié)果中有兩項(xiàng)評(píng)級(jí)為“–1”, 根據(jù)文本評(píng)級(jí)式(18), 故被識(shí)別為“疑似圍標(biāo)、串標(biāo)”. 表3 “某電廠入廠次干道”項(xiàng)目的指標(biāo)數(shù)據(jù)與綜合評(píng)估結(jié)果 “某電廠入廠次干道”項(xiàng)目的招標(biāo)文件規(guī)定了根據(jù)評(píng)標(biāo)分?jǐn)?shù)選擇評(píng)分最高的3 家企業(yè)作為“晉級(jí)”企業(yè).實(shí)驗(yàn)數(shù)據(jù)也采用評(píng)分排序前3 的企業(yè)為“晉級(jí)”企業(yè),進(jìn)入候選標(biāo)書名單. 經(jīng)過(guò)綜合評(píng)估結(jié)果與專家評(píng)標(biāo)結(jié)果和評(píng)標(biāo)報(bào)告進(jìn)行對(duì)比, 發(fā)現(xiàn)實(shí)驗(yàn)評(píng)分結(jié)果與專家評(píng)標(biāo)的真實(shí)評(píng)分結(jié)果吻合, 識(shí)別圍標(biāo)、串標(biāo)結(jié)果為評(píng)分結(jié)果提供參考, 為人為識(shí)別圍標(biāo)、串標(biāo)行為提供依據(jù),實(shí)驗(yàn)結(jié)果見(jiàn)表4. 表4 “某電廠入廠次干道”項(xiàng)目模型數(shù)據(jù)和真實(shí)數(shù)據(jù)表 對(duì)“某電站公用及輔機(jī)控制設(shè)備”項(xiàng)目標(biāo)書文本進(jìn)行處理, 項(xiàng)目共有6 家企業(yè)進(jìn)行投標(biāo), 經(jīng)過(guò)標(biāo)書文本的處理, 最終得到“某電站公用及輔機(jī)控制設(shè)備”項(xiàng)目的指標(biāo)數(shù)據(jù)與綜合評(píng)估結(jié)果分析, 見(jiàn)表5. 經(jīng)過(guò)綜合評(píng)估結(jié)果與專家評(píng)標(biāo)結(jié)果和評(píng)標(biāo)報(bào)告進(jìn)行對(duì)比, 發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果與專家的真實(shí)結(jié)果吻合, 實(shí)驗(yàn)結(jié)果見(jiàn)表6. 表5 “某電站公用及輔機(jī)控制設(shè)備”項(xiàng)目的指標(biāo)數(shù)據(jù)與綜合評(píng)估結(jié)果 表6 “某電站公用及輔機(jī)控制設(shè)備”項(xiàng)目模型數(shù)據(jù)和真實(shí)數(shù)據(jù)表 通過(guò)2 個(gè)項(xiàng)目共10 個(gè)標(biāo)書的案例分析, 并將實(shí)驗(yàn)結(jié)果與真實(shí)結(jié)果進(jìn)行對(duì)比, 發(fā)現(xiàn)通過(guò)標(biāo)書綜合評(píng)估模型的計(jì)算結(jié)果與真實(shí)結(jié)果吻合, 表明了基于文本分析的標(biāo)書綜合評(píng)估模型的在本節(jié)2 個(gè)項(xiàng)目案例分析上的有效性. 該模型的評(píng)估從定量計(jì)算和定性分析兩個(gè)方面分別實(shí)現(xiàn)了文本評(píng)估和文本評(píng)級(jí), 兩者的結(jié)果共同構(gòu)成了綜合評(píng)估的結(jié)果. 在實(shí)踐中, 文本評(píng)估模型為專家打分提供數(shù)據(jù)支持, 提高了人工評(píng)標(biāo)的效率;文本評(píng)級(jí)模型能夠?yàn)檎型稑?biāo)過(guò)程中圍標(biāo)、串標(biāo)行為的識(shí)別提供依據(jù), 大大提升識(shí)別圍標(biāo)、串標(biāo)行為的效率和效果, 識(shí)別為疑似或高度疑似存在圍標(biāo)、串標(biāo)行為的企業(yè)標(biāo)書需進(jìn)行人工核查, 得到圍標(biāo)、串標(biāo)行為的識(shí)別結(jié)果. 招投標(biāo)是工程建設(shè)中的重要環(huán)節(jié), 高效地識(shí)別圍標(biāo)、串標(biāo)行為是招投標(biāo)過(guò)程的一大難題, 在實(shí)踐領(lǐng)域人工識(shí)別圍標(biāo)、串標(biāo)行為效率較低、成本高, 在研究領(lǐng)域缺少全面、完善的評(píng)估方法. 本文的創(chuàng)新點(diǎn)在于提出了融合文本評(píng)估和文本評(píng)級(jí)的綜合評(píng)估模型, 模型基于定量計(jì)算和定性分析兩個(gè)方面進(jìn)行標(biāo)書處理,同時(shí)將Shingling 算法和改進(jìn)的Simhash 算法用于標(biāo)書文本分析之中. 通過(guò)建立基于文本分析的標(biāo)書綜合評(píng)估模型, 提取文本的數(shù)據(jù)信息, 對(duì)標(biāo)書建立文本評(píng)估模型和文本評(píng)級(jí)模型, 實(shí)現(xiàn)了對(duì)標(biāo)書的定量和定性的分析, 進(jìn)而實(shí)現(xiàn)對(duì)標(biāo)書的綜合評(píng)估. 該模型不僅能夠?yàn)闃?biāo)書評(píng)估提供更加客觀、合理的得分依據(jù), 為識(shí)別投標(biāo)企業(yè)圍標(biāo)串標(biāo)行為提供有效的參考, 還能提高標(biāo)書評(píng)分的效率. 除此之外, 也能為構(gòu)建電子化招投標(biāo)系統(tǒng)和建立標(biāo)書分析模型提供條件與準(zhǔn)備. 基于文本分析的標(biāo)書綜合評(píng)估模型對(duì)工程建設(shè)項(xiàng)目中的標(biāo)書評(píng)標(biāo)工作具有重要的意義, 基于標(biāo)書數(shù)據(jù)形成的知識(shí)圖譜也為電子化招投標(biāo)中屬性關(guān)系的建立和未來(lái)的深度探索提供有力的支撐. 基于文本分析的標(biāo)書綜合評(píng)估模型仍可在以下幾個(gè)方面進(jìn)行改進(jìn): 首先, 隨時(shí)招投標(biāo)領(lǐng)域向電子化方向發(fā)展, 標(biāo)書評(píng)估中用到的評(píng)估指標(biāo)還需要根據(jù)國(guó)家政策法規(guī)、招投標(biāo)實(shí)際情況、招投標(biāo)工程領(lǐng)域等方面進(jìn)行補(bǔ)充和完善; 其次, 針對(duì)較多數(shù)量的標(biāo)書, 需要采取更加高效、快速的方法識(shí)別文本之間的相似度和重復(fù)率; 最后, 需要采取不同的方法論證本文模型的有效性和可解釋性.3.2 文本評(píng)級(jí)模型
3.3 綜合評(píng)估
4 實(shí)際案例分析
5 結(jié)論與展望