吳瑞紅, 呂學(xué)強(qiáng), 李 卓, 舒 燕
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100101;2.北京拓爾思信息技術(shù)股份有限公司, 北京 100101)
問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)提取
吳瑞紅1, 呂學(xué)強(qiáng)1, 李 卓1, 舒 燕2
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100101;
2.北京拓爾思信息技術(shù)股份有限公司, 北京 100101)
基于互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)和問(wèn)句理解的關(guān)系, 提出針對(duì)互動(dòng)問(wèn)答社區(qū)問(wèn)句進(jìn)行多字詞表達(dá)抽取, 并基于互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)的特點(diǎn), 提出適用于互動(dòng)問(wèn)答社區(qū)的多字詞表達(dá)提取方法.該方法在利用互信息和停用詞表的方法從問(wèn)句中抽取候選多字詞表達(dá)的基礎(chǔ)上, 將候選多字詞表達(dá)分為正確串、殘缺串、冗余串和錯(cuò)誤串4類(lèi), 借助搜索引擎對(duì)查詢(xún)串的優(yōu)化和候選多字詞表達(dá)在互聯(lián)網(wǎng)上的檢索結(jié)果, 設(shè)計(jì)候選多字詞表達(dá)校正方法, 實(shí)現(xiàn)對(duì)多字詞表達(dá)的提取.以新浪愛(ài)問(wèn)知識(shí)人問(wèn)題庫(kù)中的問(wèn)句進(jìn)行實(shí)驗(yàn), 結(jié)果表明, 多字詞表達(dá)抽取的準(zhǔn)確率、召回率和F值分別達(dá)到84%,52%和0.64, 驗(yàn)證了該方法的有效性.
多字詞表達(dá); 問(wèn)句理解; 互信息; 搜索引擎
多字詞表達(dá)(MWEs)指內(nèi)部結(jié)合緊密、使用穩(wěn)定、整體表示一個(gè)概念意義, 可作為一個(gè)固定短語(yǔ)使用的信息單元[1].多字詞表達(dá)廣泛存在于詞典中, 因其組成結(jié)構(gòu)多樣、成分復(fù)雜, 因此其提取是大規(guī)模自然語(yǔ)言處理技術(shù)發(fā)展的關(guān)鍵問(wèn)題之一[2].多字詞表達(dá)也廣泛存在于日常交流中, 如食物宜忌、紅糖姜茶等, 這些多字詞表達(dá)在信息檢索、本體構(gòu)建、文本對(duì)齊和機(jī)器翻譯等領(lǐng)域應(yīng)用廣泛.
近年來(lái), 隨著互聯(lián)網(wǎng)的迅速發(fā)展, 互動(dòng)問(wèn)答社區(qū)應(yīng)運(yùn)而生, 互動(dòng)問(wèn)答社區(qū)的問(wèn)句中蘊(yùn)含大量的縮略語(yǔ)、歇后語(yǔ)、成語(yǔ)和慣用表達(dá)等多字詞表達(dá), 它們是問(wèn)句理解[3]的核心.由于給出回答的用戶(hù)人數(shù)眾多且回答質(zhì)量參差不齊, 因此對(duì)回答質(zhì)量進(jìn)行自動(dòng)判斷對(duì)用戶(hù)更加重要, 問(wèn)句理解是進(jìn)行這項(xiàng)工作的首要任務(wù), 問(wèn)句中多字詞表達(dá)提取也因此變得尤為緊迫.
針對(duì)多字詞表達(dá)提取的研究, 早期主要集中在詞語(yǔ)搭配方式上[4].Pecina[5]在MWEs測(cè)評(píng)提供的3種標(biāo)準(zhǔn)語(yǔ)料上針對(duì)德語(yǔ)中的Adj-N和PP-Veb搭配做實(shí)驗(yàn), 比較了55種不同的關(guān)聯(lián)方法, 實(shí)驗(yàn)表明, 應(yīng)用統(tǒng)計(jì)方法對(duì)多個(gè)不同的搭配進(jìn)行融合比單個(gè)搭配抽取效果更好.文獻(xiàn)[6]研究表明, 互信息方法和對(duì)數(shù)似然比方法優(yōu)于其他統(tǒng)計(jì)方法.隨著語(yǔ)言學(xué)規(guī)則的發(fā)展, 統(tǒng)計(jì)方法與語(yǔ)言學(xué)規(guī)則相結(jié)合的方法被大量應(yīng)用到多字詞表達(dá)抽取中.Ramisch等[7]以英語(yǔ)中人工構(gòu)建的Verb-Particle結(jié)構(gòu)和德語(yǔ)中人工構(gòu)建的Adj-N進(jìn)行實(shí)驗(yàn), 發(fā)現(xiàn)加入語(yǔ)言學(xué)規(guī)則要比單純使用統(tǒng)計(jì)方法的效果更好; Al-Haj等[8]針對(duì)希伯來(lái)語(yǔ)提出結(jié)合語(yǔ)言學(xué)形態(tài)規(guī)則和句法規(guī)則對(duì)多字詞表達(dá)進(jìn)行抽取, 結(jié)果表明, 應(yīng)用語(yǔ)言學(xué)規(guī)則與統(tǒng)計(jì)結(jié)合的抽取效果更好; Tsvetkov等[9]針對(duì)希伯來(lái)語(yǔ)-英語(yǔ)語(yǔ)料中提出了雙語(yǔ)語(yǔ)料中語(yǔ)言學(xué)特征的融合方法, 提高了多字詞表達(dá)抽取的準(zhǔn)確率; 文獻(xiàn)[10]通過(guò)引入詞典, 同樣提高了識(shí)別的準(zhǔn)確率; Duan等[11]針對(duì)雙語(yǔ)語(yǔ)料中多字詞表達(dá)抽取, 從生物基因得到啟發(fā), 提出了一種生物啟發(fā)的多字詞表達(dá)抽取方法, 將最長(zhǎng)公共子序列和語(yǔ)言學(xué)方法進(jìn)行融合, 提高了雙語(yǔ)多字詞表達(dá)提取的效果.劉榮等[1]利用高頻詞和互信息對(duì)特定領(lǐng)域進(jìn)行了多字詞表達(dá)提取.文獻(xiàn)[12]針對(duì)特定領(lǐng)域, 利用統(tǒng)計(jì)量和語(yǔ)言學(xué)規(guī)則提取多字詞表達(dá); 胡玉溪[13]針對(duì)中英文雙語(yǔ)語(yǔ)料對(duì)多字詞表達(dá)進(jìn)行研究, 取得了一定的進(jìn)展.
上述方法均以較規(guī)范的語(yǔ)料庫(kù)作為研究對(duì)象, 對(duì)互動(dòng)問(wèn)答社區(qū)這種大眾參與的非正規(guī)文本語(yǔ)料中多字詞表達(dá)提取不完全適用.本文首次提出針對(duì)互動(dòng)問(wèn)答社區(qū)問(wèn)句進(jìn)行多字詞表達(dá)抽取, 且充分結(jié)合互動(dòng)問(wèn)答社區(qū)及社區(qū)問(wèn)句中多字詞表達(dá)的特征提出互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)抽取的方法.
互動(dòng)問(wèn)答社區(qū)即“互動(dòng)式知識(shí)問(wèn)答分享平臺(tái)”, 是目前備受關(guān)注的網(wǎng)絡(luò)應(yīng)用, 其內(nèi)容來(lái)源于用戶(hù), 并服務(wù)于用戶(hù).新浪愛(ài)問(wèn)知識(shí)人是中國(guó)第一個(gè)中文互動(dòng)型問(wèn)答產(chǎn)品, 為用戶(hù)提供發(fā)表提問(wèn)、解答問(wèn)題和搜索答案等服務(wù).以愛(ài)問(wèn)知識(shí)人為例, 分析問(wèn)句特點(diǎn)如下:
圖1 問(wèn)句在搜索引擎中的檢索結(jié)果Fig.1 Retrieval result of the questions in search engines
1) 互動(dòng)問(wèn)答社區(qū)屬于互聯(lián)網(wǎng)應(yīng)用, 社區(qū)中的問(wèn)句也屬于互聯(lián)網(wǎng)資源, 這些問(wèn)句均可通過(guò)搜索引擎在互聯(lián)網(wǎng)上找到與其相同或相關(guān)的資源.如問(wèn)題: “得了白內(nèi)障, 怎么辦”在百度搜索引擎中的部分檢索結(jié)果如圖1所示.
2) 互動(dòng)問(wèn)答社區(qū)中的真實(shí)問(wèn)題與傳統(tǒng)問(wèn)答系統(tǒng)中的問(wèn)題不同, 傳統(tǒng)問(wèn)答系統(tǒng)中的問(wèn)題一般直切主題, 而互動(dòng)問(wèn)答社區(qū)中的真實(shí)問(wèn)題一般會(huì)先對(duì)要提問(wèn)主題的一段場(chǎng)景進(jìn)行描述, 然后加一個(gè)或幾個(gè)與所述場(chǎng)景相關(guān)的問(wèn)題.
例1“我家女兒6.5歲, 前兩天帶她測(cè)了骨齡和成長(zhǎng)激素, 醫(yī)生說(shuō)她的骨齡與年齡相符, 根據(jù)測(cè)試結(jié)果孩子只能長(zhǎng)到1.53~1.55 cm, 不知這種測(cè)試準(zhǔn)不準(zhǔn)確? 能不能改變? 應(yīng)該怎樣才能讓她再長(zhǎng)高一點(diǎn)?”
例2“大家好, 我有過(guò)敏性鼻炎, 原來(lái)一直沒(méi)有明顯癥狀, 但從去年開(kāi)始一直犯不停, 尤其是在辦公室, 尷尬極了!我也知道這個(gè)病不是能夠徹底治愈的, 但是希望大家出主意, 能減緩癥狀即可, 不至于在辦公室鼻涕流不停就行了.拜托了!”
由此可見(jiàn), 互動(dòng)問(wèn)答社區(qū)的問(wèn)句與一般問(wèn)句不同, 蘊(yùn)含豐富的提問(wèn)背景信息, 用戶(hù)為了清晰、準(zhǔn)確地描述所在場(chǎng)景, 通常會(huì)選擇豐富的多字詞表達(dá)進(jìn)行闡述, 因此多字詞表達(dá)對(duì)互動(dòng)問(wèn)答社區(qū)中的問(wèn)句理解具有重要作用.
3) 問(wèn)句中表達(dá)不規(guī)范, 語(yǔ)言描述簡(jiǎn)練、隨意.
例3“以前不知道從幾歲開(kāi)始 我的2棵虎牙都有點(diǎn)向外生長(zhǎng) 有點(diǎn)暴起 可現(xiàn)在我都22了 這段時(shí)間我發(fā)現(xiàn)我又在長(zhǎng)大牙 這到?jīng)]什么 不過(guò)下面的還好 上面兩邊的大牙都在向外長(zhǎng) 而且很斜 現(xiàn)在都已經(jīng)頂?shù)娇谇槐诹?吃東西有時(shí)候要咬到 影響太大了 有高手給我提提建議呀 要不要去拔掉 但是我想 大牙對(duì)于吃東西那么重要 要是拔掉了 以后老了就沒(méi)牙了 老火啊”.
例3中用戶(hù)的表達(dá)非常隨意: 沒(méi)有添加任何標(biāo)點(diǎn)符號(hào), 而且存在多處句子成分不完整的情況, 如:“不過(guò)下面的還好”、“要不要去拔掉”等.由于漢語(yǔ)語(yǔ)法的復(fù)雜性和現(xiàn)有漢語(yǔ)詞法、句法理論體系的不完備, 對(duì)表達(dá)不規(guī)范的問(wèn)句做詞法、句法、語(yǔ)義分析準(zhǔn)確率非常低, 所以在互動(dòng)問(wèn)答社區(qū)中的多字詞表達(dá)研究中, 傳統(tǒng)相對(duì)正規(guī)的語(yǔ)料上基于語(yǔ)言學(xué)規(guī)則提取多字詞表達(dá)的方法并不適用.
4) 問(wèn)句中出現(xiàn)大量普通文本語(yǔ)料中不常出現(xiàn)或出現(xiàn)頻率較低的詞語(yǔ), 如: 高手、幫忙、解答和咨詢(xún)等.
多字詞表達(dá)蘊(yùn)含于問(wèn)句中, 多字詞表達(dá)具有如下特點(diǎn):
1) 多字詞表達(dá)由術(shù)語(yǔ)、命名實(shí)體、專(zhuān)有名詞和縮略語(yǔ)等組成, 利用現(xiàn)有分詞工具[14]進(jìn)行分詞時(shí), 準(zhǔn)確率較低, 通常被切分成多個(gè)單元.
例4“磷酸 肌 酸 激酶 英文 名 CK 結(jié)果 1596 狀態(tài) 單位 U/L 參考范圍 24~195 肌 酸 激酶 同工酶 英文 名 CK-MB 37 U/L & lt; 24 是 心臟病 嗎 ? ? 是 檢查 出來(lái) 的”.
例4中, 多字詞表達(dá)“磷酸肌酸激酶”被切分成“磷酸”、“肌”、“酸”、“激酶”; “肌酸激酶同工酶”被切分成“肌”、“酸”、“激酶”、“同工酶”.
2) 由于問(wèn)句中用戶(hù)表達(dá)不規(guī)范和多字詞表達(dá)成分復(fù)雜, 此時(shí)的多字詞表達(dá)一般很難找到規(guī)范語(yǔ)料庫(kù)中多字詞表達(dá)的搭配規(guī)則.
例5“不/d 知道/v 安/g 基酸/n 對(duì)/p 乙肝/n 有/v 沒(méi)/d 有/v 害處/n ?/w 還/d 請(qǐng)/v 各/r 位/q 專(zhuān)家/n 指點(diǎn)/v!”.
例6“我/r 老婆/n 懷孕/v 八/m 個(gè)/q 月/n 了/y, /w 一直/d 喝/g 的/u 都/d 是/v 圣/g 元/q 的/u, /w 現(xiàn)在/t 優(yōu)/g 聰/g 都/d 出/v 問(wèn)題/n 了/y,/w 不知/v 優(yōu)/g 博/g 孕婦/n 奶粉/n 到底/d 有/v 沒(méi)/d 有/v 問(wèn)題/n, /w 急/ad 死/v 人/n 了/y, /w 請(qǐng)/v 各位/r 知道/v 的/u 多多/d 指教/v !/w 謝謝/v !/w”.
圖2 多字詞表達(dá)“白內(nèi)障”在搜索引擎中的檢索結(jié)果Fig.2 Retrieval result of the MEWs “cataract”
一般語(yǔ)料中的多字詞表達(dá)遵循一定的搭配規(guī)律, 如n+v型等的詞性搭配規(guī)律.例5和例6中, “安/g 基酸/n”的詞性構(gòu)成規(guī)則為“g+n”, “圣/g 元/q”的詞性構(gòu)成規(guī)則為“g+q”, “優(yōu)/g 聰/g”的詞性構(gòu)成規(guī)則為“g+g”, “優(yōu)/g 博/g 孕婦/n 奶粉/n”的詞性構(gòu)成規(guī)則為“g+g+n+n”.問(wèn)句中多字詞表達(dá)不遵循一般多字詞表達(dá)詞性構(gòu)成規(guī)則.
3) 由于互動(dòng)問(wèn)答社區(qū)的問(wèn)句屬于互聯(lián)網(wǎng)資源, 問(wèn)句中蘊(yùn)含的多字詞表達(dá)在互聯(lián)網(wǎng)上有其相關(guān)的資源, 如問(wèn)句“得了白內(nèi)障, 怎么辦”中的多字詞表達(dá)“白內(nèi)障”在搜索引擎中的檢索結(jié)果如圖2所示.
從問(wèn)句中多字詞表達(dá)的構(gòu)成特點(diǎn)1)可見(jiàn), 多字詞表達(dá)一般由多個(gè)有序詞串組合而成, 組成多字詞表達(dá)的多個(gè)有序詞串在語(yǔ)料庫(kù)中出現(xiàn)的頻次較大, 其間的結(jié)合緊密度也較大; 而不能組成多字詞表達(dá)的有序詞串在語(yǔ)料庫(kù)中出現(xiàn)的頻次較小, 其間的結(jié)合緊密度也較小, 因此通過(guò)計(jì)算有序詞串間的結(jié)合緊密度可判定有序詞串是否組成多字詞表達(dá).
詞串間的結(jié)合緊密度通過(guò)互信息體現(xiàn), 受候選詞串各自詞頻及其共現(xiàn)詞頻的影響, 而在語(yǔ)料中存在一些類(lèi)似“高手幫忙”、“怎么回事”的詞, 這些詞出現(xiàn)頻次較高, 但缺乏實(shí)際區(qū)分性意義, 本文將這些詞統(tǒng)稱(chēng)為問(wèn)句型停用詞.在結(jié)合緊密度較高的一部分詞組中, 不可避免地包含有問(wèn)句型停用詞, 因此, 為了提高多字詞表達(dá)抽取的準(zhǔn)確率, 本文結(jié)合問(wèn)句特點(diǎn)構(gòu)建問(wèn)句型停用詞表對(duì)詞串進(jìn)行過(guò)濾.用以上方法生成的詞串中含有很多公共子串, 為了提高多字詞表達(dá)抽取的準(zhǔn)確率, 減少對(duì)后續(xù)工作的影響, 需要對(duì)候選詞串進(jìn)行合并, 進(jìn)而得到候選多字詞表達(dá).
2.1基于互信息的詞串生成
互信息能較好地度量詞串間的結(jié)合緊密程度, 對(duì)于詞串X和Y, 互信息計(jì)算方法如下:
(1)
多字詞表達(dá)至少包含2個(gè)字, 根據(jù)劉榮等[12]的統(tǒng)計(jì), 2~4個(gè)切分單元構(gòu)成的多字詞表達(dá)已占94%, 本文以2~4個(gè)切分單元為主要研究對(duì)象.為此, 將二元互信息擴(kuò)展為多元詞串內(nèi)部的互信息.對(duì)于多元詞串內(nèi)部的互信息, 采用Magerman等[15]提出的廣義互信息概念進(jìn)行計(jì)算, 對(duì)于詞串x1…xn(2≤n≤4), 互信息計(jì)算公式為
(2)
互信息越高, 表明X和Y相關(guān)性越大, 詞串X和Y組成多字詞表達(dá)的可能性就越大.通過(guò)該方法可初步選定共現(xiàn)可能性較大的詞串.設(shè)置閾值, 將互信息值大于設(shè)定閾值的詞串作為候選詞串, 過(guò)濾掉小于該閾值的詞串.
2.2問(wèn)句型停用詞過(guò)濾
由互動(dòng)問(wèn)答社區(qū)問(wèn)句中的特點(diǎn)4)可知, 在互動(dòng)問(wèn)答社區(qū)問(wèn)句文本中, 存在很多不同于新聞?wù)Z料等普通文本語(yǔ)料的常用搭配, 這些搭配出現(xiàn)的頻次較高, 且內(nèi)部結(jié)合緊密度也較高, 但這些搭配缺乏實(shí)際意義, 并不是多字詞表達(dá), 它們對(duì)多字詞表達(dá)提取帶來(lái)干擾.如問(wèn)句: “我兒子得了腸炎, 請(qǐng)高手幫忙?急急!!”, 此句中“高手幫忙”會(huì)被識(shí)別, 在問(wèn)句中還有很多類(lèi)似的搭配.人工觀察語(yǔ)料中出現(xiàn)的此類(lèi)停用詞, 可結(jié)合常用停用詞和問(wèn)句中的停用詞構(gòu)建適合問(wèn)句特征的停用詞表.為了減少這些詞語(yǔ)對(duì)多字詞表達(dá)提取帶來(lái)的影響, 可利用構(gòu)建的停用詞表, 將含停用詞的候選詞串刪除.
2.3融合公共子串的候選多字詞表達(dá)生成
經(jīng)過(guò)詞串生成和停用詞過(guò)濾后的詞串中存在大量的公共子串, 若不對(duì)其進(jìn)行處理, 會(huì)產(chǎn)生眾多無(wú)意義的詞串, 不僅會(huì)降低識(shí)別的準(zhǔn)確率, 而且會(huì)產(chǎn)生大量重復(fù)計(jì)算.候選詞串合并包含: 1) 具有包含關(guān)系的子串合并; 2) 具有公共子串的相鄰候選串合并.具有公共子串的相鄰候選詞串是指將候選詞串按照其在語(yǔ)料中首次出現(xiàn)的順序排序后, 相鄰具有公共子串的詞串.互為包含關(guān)系的子串是指兩詞串之間存在包含與被包含的關(guān)系, 如在本文中互為包含關(guān)系的子串體現(xiàn)在部分三字詞詞串被四字詞詞串包含, 部分二字詞詞串被三字詞詞串或四字詞詞串包含.這部分詞串合并方法為: 將被四字詞詞串包含的三字詞詞串刪除, 被三字詞串和四字詞詞串包含的二字詞詞串刪除.
具有公共子串的相鄰詞串合并: 為了減少合并的次數(shù), 降低計(jì)算的復(fù)雜度需先對(duì)四字詞詞串進(jìn)行合并, 然后是三字詞詞串和二字詞詞串.對(duì)于去除了互為包含關(guān)系的子串, 先將候選詞串按照其在語(yǔ)料中出現(xiàn)的順序排序, 然后合并窗口為window, 合并方法為: 在window個(gè)詞串范圍內(nèi),n字詞詞串stri=“ti,1ti,2…ti,n”, stri+1=“ti+1,1ti+1,2…ti+1,n”, 其中ti,j(1≤i 分析得到的候選多字詞表達(dá), 存在如下4類(lèi)詞串. 1) 正確串: 內(nèi)部結(jié)合緊密、使用穩(wěn)定、完整的、具有獨(dú)立意義的多字詞表達(dá), 如“非結(jié)合膽紅素”、“氯化鈉滴眼液”等. 2) 殘缺串: 完整多字詞表達(dá)的一部分詞串, 一般不具備獨(dú)立語(yǔ)義, 在語(yǔ)言結(jié)構(gòu)上不具備完整結(jié)構(gòu), 如“丙氨酸氨基轉(zhuǎn)移酶”被處理成“丙氨酸氨基轉(zhuǎn)移”、“乳酸左氧氟沙星”被處理成“乳酸左氧氟沙”. 3) 冗余串: 完整多字詞表達(dá)是其子串, 有的具有獨(dú)立語(yǔ)義, 有的不具有獨(dú)立語(yǔ)義, 如“參考范圍”被處理成“106參考范圍”、“女貞子”被處理成“女貞子12克”. 4) 錯(cuò)誤串: 不具備任何語(yǔ)義的串或包含錯(cuò)別字的串.如“瓶六味”、“勁椎病”等. 多字詞表達(dá)校正是指對(duì)候選多字詞表達(dá)進(jìn)行類(lèi)型判別和更正, 包括對(duì)正確串的識(shí)別、殘缺串的補(bǔ)全、冗余串中蘊(yùn)含正確串的抽取和錯(cuò)誤串的去除.根據(jù)互動(dòng)問(wèn)答社區(qū)是互聯(lián)網(wǎng)資源的特點(diǎn)和問(wèn)句中多字詞表達(dá)的構(gòu)成特點(diǎn)可知, 問(wèn)句中多字詞表達(dá)抽取不適合用語(yǔ)言學(xué)規(guī)則進(jìn)行抽取, 因此, 本文利用問(wèn)句中多字詞表達(dá)在互聯(lián)網(wǎng)資源中有其相關(guān)檢索結(jié)果的特點(diǎn), 提出一種新思路: 結(jié)合不同類(lèi)型候選多字詞表達(dá)在搜索引擎中查詢(xún)優(yōu)化和搜索結(jié)果中的分布特征進(jìn)行多字詞表達(dá)校正. 3.1基于互聯(lián)網(wǎng)的多字詞表達(dá)類(lèi)型判別 候選多字詞表達(dá)類(lèi)型判別是指區(qū)分出候選多字詞表達(dá)的類(lèi)型, 包括正確串、冗余串、殘缺串和錯(cuò)誤串4種類(lèi)型. 搜索引擎在對(duì)查詢(xún)串進(jìn)行檢索前, 通常先對(duì)查詢(xún)串進(jìn)行優(yōu)化, 這些優(yōu)化方式包括查詢(xún)擴(kuò)展和重構(gòu)等.查詢(xún)優(yōu)化對(duì)多字詞表達(dá)抽取具有很大幫助; 重構(gòu)可將部分冗余串進(jìn)行切分, 也能對(duì)部分殘缺串進(jìn)行一定補(bǔ)足.搜索引擎返回的搜索結(jié)果是與查詢(xún)串最相關(guān)的信息, 問(wèn)句及其中的多字詞表達(dá)來(lái)源于互聯(lián)網(wǎng), 可借助查詢(xún)返回結(jié)果校正多字詞表達(dá).將候選多字詞表達(dá)作為查詢(xún)串在搜索引擎中進(jìn)行檢索, 獲取候選多字詞表達(dá)在搜索引擎檢索結(jié)果中的前20條結(jié)果標(biāo)題及摘要信息, 作為搜索結(jié)果語(yǔ)料. 3.1.1 候選多字詞表達(dá)在搜索結(jié)果中的出現(xiàn)規(guī)律 記待判別類(lèi)型的候選多字詞表達(dá)為candiateExp, 對(duì)每個(gè)候選多字詞表達(dá)進(jìn)行如下定義. 定義1將candiateExp的搜索結(jié)果語(yǔ)料按中英文標(biāo)點(diǎn)符號(hào)和空格進(jìn)行劃分后形成的單元稱(chēng)為詞串單元. 定義2將candiateExp搜索結(jié)果語(yǔ)料劃分成詞串單元后, 該詞串單元在所有詞串單元中出現(xiàn)的次數(shù)稱(chēng)為詞串單元頻次. 定義3詞串單元-頻次對(duì)集合定義為SenPairSet={〈s1,c1〉,〈s2,c2〉,…,〈sn,cn〉}, 其中:n為candiateExp搜索結(jié)果語(yǔ)料中詞串單元的個(gè)數(shù);si(1≤i≤n)為任一詞串單元;ci為詞串單元si的頻次; len(si)為si的長(zhǎng)度. 定義4切分單元來(lái)源于兩種切分方法: 正向切分和逆向切分.正向切分指將candiateExp從左向右刪除字, 直至僅剩下兩個(gè)字; 逆向切分指將candiateExp從右向左刪除字, 直至僅剩下兩個(gè)字.將每次刪除后剩下的單元稱(chēng)為切分單元. 定義5切分單元-頻次對(duì)集合記為CandiateExpSet, 獲取candiateExp的切分單元及切分單元在candiateExp搜索結(jié)果語(yǔ)料中的頻次, 形成candiateExp的切分單元-頻次對(duì)集合,CandiateExpSet={〈splitCan1,splitCanNum1〉,〈splitCan2,splitCanNum2〉,…,〈splitCann,splitCanNumn〉},其中: splitCanj(1≤j≤n)為candiateExp的任一切分單元; splitCanNumj為splitCanj(1≤j≤n)在candiateExp搜索結(jié)果中出現(xiàn)的頻次;n為切分單元的總個(gè)數(shù). 正確多字詞表達(dá)是一種具有穩(wěn)定性、特指性的語(yǔ)義概念單元, 它通常會(huì)被互聯(lián)網(wǎng)知識(shí)庫(kù)收錄, 表現(xiàn)在檢索結(jié)果中是該多字詞表達(dá)的下一個(gè)詞串單元中包含“百科”二字; 還有一部分正確多字詞表達(dá)雖未被互聯(lián)網(wǎng)知識(shí)庫(kù)收錄, 但卻在檢索結(jié)果中多次獨(dú)立成為一個(gè)詞串單元, 可利用這兩條規(guī)則對(duì)正確多字詞表達(dá)進(jìn)行判別.冗余串中包含正確多字詞表達(dá), 搜索引擎在對(duì)冗余串進(jìn)行檢索時(shí), 會(huì)對(duì)其進(jìn)行一定的切分, 使冗余串作為一個(gè)整體在檢索結(jié)果中出現(xiàn)的頻次會(huì)很低, 而冗余串的切分單元在搜索結(jié)果中出現(xiàn)的頻次會(huì)相對(duì)較高.殘缺串是正確多字詞表達(dá)的子串, 將其在搜索引擎中檢索時(shí), 搜索引擎會(huì)對(duì)殘缺串進(jìn)行一定的補(bǔ)全, 表現(xiàn)在檢索結(jié)果上是殘缺串可能在一定的窗口范圍內(nèi), 與詞串單元存在被包含關(guān)系, 且該詞串單元在搜索結(jié)果中多次獨(dú)立出現(xiàn); 此外, 殘缺串在搜索結(jié)果語(yǔ)料中出現(xiàn)的次數(shù)相對(duì)較高, 且殘缺串的切分單元出現(xiàn)次數(shù)均大于或等于殘缺串的出現(xiàn)次數(shù).錯(cuò)誤串不含有任何語(yǔ)義或包含錯(cuò)別字, 其在搜索結(jié)果中的出現(xiàn)規(guī)律不明顯, 因此不作為單獨(dú)類(lèi)型進(jìn)行判斷. 3.1.2 基于規(guī)則的候選多字詞表達(dá)類(lèi)型判別 根據(jù)不同類(lèi)型候選多字詞表達(dá)在搜索結(jié)果中出現(xiàn)的規(guī)律, 候選多字詞表達(dá)類(lèi)型判別較易解決. 1) 正確多字詞表達(dá)判別規(guī)則. 正確多字詞表達(dá)在搜索結(jié)果中出現(xiàn)的規(guī)律有兩個(gè)特點(diǎn), 相應(yīng)判別規(guī)則為: ① 在candiateExp搜索結(jié)果語(yǔ)料劃分成的詞串單元中, candiateExp為一個(gè)詞串單元, 且candiateExp緊鄰的下一個(gè)詞串單元包含“百科”二字, 則candiateExp為正確多字詞表達(dá); ② 若存在candidateExp∈SenPairSet, 即在SenPairSet集合中存在si, 使得candidateExp=si; 且SenPairSet集合中ci高于一定閾值FreqThreshold, 則candidateExp為正確多字詞表達(dá). 2) 殘缺串判別規(guī)則. 記c(candidateExp)為candidateExp在檢索結(jié)果中出現(xiàn)的頻次, 殘缺串在搜索結(jié)果中出現(xiàn)的規(guī)律也有兩個(gè)特點(diǎn), 殘缺串類(lèi)型判別規(guī)則為: ① 若集合SenPairSet存在〈si,ci〉, 使得candidateExp是si的子串,ci高于一定閾值FreqThreshold, 且len(si)-len(candidateExp) ② 在candidateExp的CandidateExpSet集合中, ?splitCanNumi≥c(candidateExp)(1≤i≤n), 且c(candidateExp)>FreqThreshold, 則candidateExp為殘缺串. 3) 冗余串判別規(guī)則. 冗余串在搜索結(jié)果中出現(xiàn)的頻次較低, 將在檢索結(jié)果中出現(xiàn)頻次低于閾值threshold的候選多字詞表達(dá)判斷為冗余串.綜合考慮候選多字詞表達(dá)在切分后所有切分單元出現(xiàn)的次數(shù), 候選多字詞表達(dá)為冗余串的類(lèi)型判斷閾值為 其中: threshold為candiateExp的類(lèi)型判斷閾值, 1≤j≤n;n為切分單元總個(gè)數(shù).若候選多字詞表達(dá)在搜索結(jié)果中出現(xiàn)規(guī)律不符合正確串、殘缺串和冗余串的判定規(guī)則, 則將其刪除, 不作為研究對(duì)象. 4) 候選多字詞表達(dá)類(lèi)型判別算法. 綜合以上候選多字詞表達(dá)判別的規(guī)則, 候選多字詞表達(dá)類(lèi)型判別算法如下. 輸入: 候選多字詞表達(dá); 輸出: 已分類(lèi)的候選多字詞表達(dá); ① 讀入一條候選多字詞表達(dá)candidateExp; ② 將candidateExp作為查詢(xún)串在搜索引擎中進(jìn)行搜索, 獲取搜索結(jié)果的前20條標(biāo)題和摘要信息作為搜索結(jié)果語(yǔ)料; ③ 對(duì)搜索結(jié)果語(yǔ)料進(jìn)行切分, 并獲取candidateExp的SenPairSet集合; ④ 判斷candidateExp出現(xiàn)的特點(diǎn)是否符合正確串判別規(guī)則, 如果符合, 判定candidateExp為正確串, 轉(zhuǎn)⑨; 否則轉(zhuǎn)⑤; ⑤ 對(duì)candidateExp進(jìn)行切分, 統(tǒng)計(jì)切分單元頻次并構(gòu)建candidateExp的CandiateExpSet集合; ⑥ 判斷candidateExp出現(xiàn)的特點(diǎn)是否符合殘缺串的判別規(guī)則, 若符合, 判定candidateExp為殘缺串, 轉(zhuǎn)⑨; 否則轉(zhuǎn)⑦; ⑦ 根據(jù)式(3)計(jì)算冗余串類(lèi)型判斷閾值threshold; ⑧ 如果candidateExp在搜索結(jié)果中出現(xiàn)的次數(shù)小于threshold, 則判斷其為冗余串; 否則將其刪除; ⑨ 如果讀完最后一個(gè)候選多字詞表達(dá), 則退出; 否則轉(zhuǎn)①, 讀入下一條候選多字詞表達(dá). 3.2殘缺串和冗余串的糾正 殘缺串和冗余串的糾正是將殘缺串和冗余串中蘊(yùn)含的正確多字詞表達(dá)抽取出來(lái).根據(jù)正確多字詞表達(dá)是冗余串的子串特點(diǎn), 在冗余串的切分單元集合中, 必存在被包含的多字詞表達(dá).因此, 對(duì)冗余串進(jìn)行切分, 將切分出的子串作為殘缺串進(jìn)行處理. 殘缺串的糾正是根據(jù)殘缺串相鄰出現(xiàn)字與殘缺串間的共現(xiàn)程度進(jìn)行擴(kuò)展, 若殘缺串與其相鄰字共現(xiàn)程度較大, 則認(rèn)為該殘缺串與相鄰字同屬于一個(gè)多字詞表達(dá).因此, 可用相鄰差率的概念衡量?jī)蓚€(gè)詞串的共現(xiàn)程度, 相鄰差率是指一個(gè)詞串在語(yǔ)料中出現(xiàn)的頻數(shù)與相鄰字出現(xiàn)頻數(shù)的絕對(duì)差占該詞串頻數(shù)的比率.左、右相鄰差分別為詞串左側(cè)的相鄰差率和詞串右側(cè)的相鄰差率, 分別統(tǒng)計(jì)串左、右兩側(cè)相鄰出現(xiàn)的字及其頻數(shù), 記詞串str出現(xiàn)的頻數(shù)為f(str), 其左側(cè)相鄰出現(xiàn)的字l_str及其頻數(shù)為f(l_str), 則左相鄰差率leftRate計(jì)算方法為 同理, 串str右側(cè)相鄰出現(xiàn)的字r_str及其頻數(shù)為f(r_str), 右相鄰差率rightRate計(jì)算方法為 rightRate=|f(str)-f(r_str)|/f(str). (5) 對(duì)殘缺串str的所有相鄰差率進(jìn)行計(jì)算后, 形成左相鄰差率集合: leftRateSet={leftRate1,leftRate2,…,leftRateln}, 其中l(wèi)n為左相鄰差率的個(gè)數(shù).則左相鄰差率的閾值選取方法為 同理, 右相鄰差率閾值選擇方法為 其中rn為右相鄰差率的個(gè)數(shù).若str的相鄰差率小于閾值, 則向相應(yīng)邊界添加一個(gè)字, 然后迭代計(jì)算其左右相鄰差率, 直至大于閾值或迭代次數(shù)大于一定次數(shù), 將擴(kuò)展出的詞串作為糾正的多字詞表達(dá). 對(duì)殘缺串進(jìn)行補(bǔ)全時(shí)可能會(huì)由一個(gè)串得到多個(gè)串, 因此需要對(duì)得到的多字詞表達(dá)在原問(wèn)句語(yǔ)料庫(kù)中進(jìn)行驗(yàn)證, 將不屬于原語(yǔ)料庫(kù)中的多字詞表達(dá)刪除, 最終得到多字詞表達(dá)列表. 實(shí)驗(yàn)選用新浪愛(ài)問(wèn)知識(shí)人中健康與醫(yī)學(xué)領(lǐng)域已解決問(wèn)題的154 003個(gè)問(wèn)句作為實(shí)驗(yàn)對(duì)象, 從中提取多字詞表達(dá). 4.1實(shí)驗(yàn)結(jié)果 本文采用多字詞表達(dá)抽取的準(zhǔn)確率(precision,P)、召回率(recall,R)和F值(F-measure,F)評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià), 計(jì)算方法為: 實(shí)驗(yàn)中, 過(guò)濾掉在語(yǔ)料中出現(xiàn)次數(shù)小于3的字符串.選用多組實(shí)驗(yàn)對(duì)參數(shù)進(jìn)行最優(yōu)選擇, 最終選定結(jié)果為: 互信息閾值經(jīng)過(guò)實(shí)驗(yàn)觀察, 選取-10作為閾值; 詞串合并窗口window為4; 判斷詞串單元獨(dú)立出現(xiàn)次數(shù)的閾值FreqThreshold=4, 判斷為殘缺串在搜索結(jié)果中出現(xiàn)的次數(shù)最低為10, 窗口window為3; 殘缺串補(bǔ)全迭代次數(shù)最多為4次.本文未將分詞詞表中已有的詞列入考察范圍, 實(shí)驗(yàn)共獲取候選多字詞表達(dá)10 326個(gè), 經(jīng)過(guò)本文方法處理, 最終獲得9 822個(gè)多字詞表達(dá). 為驗(yàn)證本文方法的有效性, 參考文獻(xiàn)[1]并結(jié)合本文語(yǔ)料的特點(diǎn), 選用文獻(xiàn)[1]中提出的互信息和停用詞過(guò)濾方法作為對(duì)比實(shí)驗(yàn).隨機(jī)從實(shí)驗(yàn)得到的多字詞表達(dá)列表中抽取1 000個(gè)多字詞表達(dá), 人工標(biāo)注其正確的個(gè)數(shù), 并計(jì)算其準(zhǔn)確率; 再隨機(jī)從實(shí)驗(yàn)語(yǔ)料中抽取1 000個(gè)多字詞表達(dá), 統(tǒng)計(jì)其在實(shí)驗(yàn)抽取的多字詞表達(dá)中正確識(shí)別的個(gè)數(shù), 計(jì)算其召回率.準(zhǔn)確率、召回率和F值的計(jì)算結(jié)果列于表1. 表1 實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results 實(shí)驗(yàn)過(guò)程中, 在對(duì)候選多字詞表達(dá)類(lèi)型進(jìn)行判別時(shí), 被剔除的候選多字詞表達(dá)共有13個(gè), 其余均被判別到3個(gè)類(lèi)別中; 分別從正確串、冗余串、殘缺串類(lèi)別中各隨機(jī)抽取500個(gè)多字詞表達(dá), 統(tǒng)計(jì)其識(shí)別的準(zhǔn)確率, 結(jié)果列于表2. 表2 3個(gè)類(lèi)別的準(zhǔn)確率對(duì)比Table 2 Three categories of precision comparison 選取部分候選多字詞表達(dá)和其經(jīng)過(guò)本文候選多字詞表達(dá)類(lèi)型判斷、糾正后的結(jié)果列于表3. 表3 實(shí)驗(yàn)抽取的部分多字詞表達(dá)對(duì)比Table 3 MWEs comparison of experimental results 4.2實(shí)驗(yàn)分析 由表1可見(jiàn), 對(duì)比實(shí)驗(yàn)存在準(zhǔn)確率和召回率均偏低的問(wèn)題, 而本文方法中, 借助搜索引擎對(duì)候選多字詞表達(dá)進(jìn)行類(lèi)型判別, 并對(duì)其中的冗余串和殘缺串進(jìn)行糾正, 使準(zhǔn)確率和召回率都得到了提高, 表明本文方法具有較好的實(shí)驗(yàn)效果. 由表2和表3可見(jiàn), 對(duì)判別為正確串的多字詞表達(dá), 識(shí)別準(zhǔn)確率較好; 對(duì)殘缺串和冗余串的識(shí)別效果較未進(jìn)行校正的結(jié)果有較大提高.由于將詞頻小于3的候選串過(guò)濾掉, 存在一些僅出現(xiàn)一次的人名、地名、機(jī)構(gòu)名等不能被識(shí)別出來(lái), 導(dǎo)致召回率低; 停用詞表過(guò)濾時(shí), 像“阿”等類(lèi)別字, 對(duì)大部分詞串均是停用詞, 而對(duì)小部分的多字詞表達(dá)如“阿奇霉素”卻不是停用詞, 將這類(lèi)詞作為停用詞, 也是導(dǎo)致召回率低的原因.在分析識(shí)別錯(cuò)誤的多字詞表達(dá)時(shí), 發(fā)現(xiàn)大部分不正確的多字詞表達(dá)類(lèi)似: “谷丙轉(zhuǎn)氨酶58”等冗余串和不具有實(shí)際意義的錯(cuò)誤串, 多字詞表達(dá)后加一個(gè)數(shù)字的情況主要是由于這兩部分經(jīng)常共現(xiàn)的緣故, 而錯(cuò)誤串本身的統(tǒng)計(jì)特征不明顯, 是識(shí)別的難點(diǎn). 綜上所述, 本文首次在互動(dòng)問(wèn)答社區(qū)的問(wèn)句中進(jìn)行多字體表達(dá)提取, 提出了互動(dòng)問(wèn)答社區(qū)問(wèn)句中多字詞表達(dá)提取的方法.在分析互動(dòng)問(wèn)答社區(qū)中用戶(hù)提問(wèn)問(wèn)題特點(diǎn)的基礎(chǔ)上, 結(jié)合這些特點(diǎn)和已有的研究結(jié)果, 采用互信息方法及停用詞表的方法獲取問(wèn)句中的候選多字詞表達(dá).進(jìn)一步分析了候選多字詞表達(dá)的特點(diǎn), 并結(jié)合問(wèn)句中多字詞表達(dá)屬于互聯(lián)網(wǎng)資源的特點(diǎn), 提出了基于搜索引擎的多字詞表達(dá)校正方法.利用搜索引擎對(duì)查詢(xún)串的優(yōu)化和其在互聯(lián)網(wǎng)的搜索結(jié)果, 對(duì)候選多字詞表達(dá)進(jìn)行類(lèi)型判別, 并根據(jù)不同類(lèi)型進(jìn)行糾正, 最終在原語(yǔ)料中對(duì)得到的多字詞表達(dá)進(jìn)行驗(yàn)證, 達(dá)到了較好的實(shí)驗(yàn)效果. [1]劉榮, 王麗娟, 張志平, 等.利用高頻詞和互信息面向特定領(lǐng)域提取多字詞表達(dá) [J].太原理工大學(xué)學(xué)報(bào), 2009, 40(3): 210-214.(LIU Rong, WANG Lijuan, ZHANG Zhiping, et al.The Extraction of Multiword Expression in Special Field with High Frequency Words and Mutual Information [J].Journal of Taiyuan University of Technology, 2009, 40(3): 210-214.) [2]Sag I A, Baldwin T, Bond F, et al.Multiword Expressions: A Pain in the Neck for NLP [C]//Proceedings of the Third International Conference on Computational Linguistics and Intelligent Text Processing.Berlin: Springer, 2002: 1-15. [3]王恒.中文問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn) [D].哈爾濱: 哈爾濱工業(yè)大學(xué), 2008.(WANG Heng.Research and Implement of Chinese Q & A System [D].Harbin: Harbin Institute of Technology, 2008.) [4]Kenneth W C, Hanks P.Word Association Norms, Mutual Information and Lexicography (rev) [J].Comput Linguist, 1990, 16(1): 22-29. [5]Pecina P.A Machine Learning Approach to Multiword Expression Extraction [C]//Proceedings of the LREC 2008 Workshop towards a Shared Task for Multiword Expressions.Marrakech, Morocco: [s.n.], 2008: 54-57. [6]Aline V, Kordoni V, ZHANG Yi, et al.Validation and Evaluation of Automatically Acquired Multiword Expressions for Grammar Engineering [C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).Prague, Chech: [s.n.], 2007: 1034-1043. [7]Ramisch C, Schreiner P, Idiart M, et al.An Evaluation of Methods for the Extraction of Multiword Expressions [C]//Proceedings of the LREC 2008 Workshop towards a Shared Task for Multiword Expressions.Marrakech, Morocco: [s.n.], 2008: 50-53. [8]Al-Haj H, Wintner S.Identifying Multi-word Expressions by Leveraging Morphological and Syntactic Idiosyncrasy [C]//Proceedings of the 23rd International Conference on Computational Linguistics.Beijing: IEEE, 2010: 10-18. [9]Tsvetkov Y, Wintner S.Identification of Multi-word Expressions by Combining Multiple Linguistic Information Sources [C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh, England: [s.n.], 2011: 836-845. [10]Fazly A, Stevenson S.Automatically Constructing a Lexicon of Verb Phrase Idiomatic Combinations [C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL).Trento, Italy: [s.n.], 2006: 337-344. [11]DUAN Jianyong, ZHANG Mei, TONG Lijing, et al.A Hybrid Approach to Improve Bilingual Multiword Expression Extraction [C]//Advances in Knowledge Discovery and Data Mining.Berlin: Springer, 2009: 541-547. [12]劉榮, 王奕凱.利用統(tǒng)計(jì)量和語(yǔ)言學(xué)規(guī)則提取多字詞表達(dá) [J].太原理工大學(xué)學(xué)報(bào), 2011, 42(2): 133-137.(LIU Rong, WANG Yikai.Extracting Multiword Expressions with Statistics and Linguistic Rules [J].Journal of Taiyuan University of Technology, 2011, 42(2): 133-137.) [13]胡玉溪.基于雙語(yǔ)語(yǔ)料的漢語(yǔ)多詞表達(dá)抽取 [D].北京: 北京郵電大學(xué), 2011.(HU Yuxi.Multi-word Expression Extraction Based on Chinese-English Bilingual Corpus [D].Beijing: Beijing University of Posts and Telecommunications, 2011.) [14]ZHANG Huaping, YU Hongkui, XIONG Deyi, et al.HHMM-Based Chinese Lexical Analyzer ICTCLAS [C]//Proceedings of the 2nd SigHan Workshop on Chinese Language Processing.Sapporo, Japan: ACL, 2003: 184-187. [15]Magerman D M, Marcus M P.Parsing a Natural Language Using Mutual Information Statistics [C]//National Conference on Artificial Intelligence.Palo Alto, USA: AAAI, 1990: 984-989. ExtractionofMultiwordExpressionsinQuestionsofQuestionAnsweringCommunities WU Ruihong1, Lü Xueqiang1, LI Zhuo1, SHU Yan2 The multiword expressions (MWEs) in the questions of question answering communities have direct relationship with question interpretation.We first proposed the idea of extracting MWEs from the questions of question answering communities.According to the characteristics of multiword expressions in the questions, we proposed a method of extracting MWEs in questions of question answering communities.In this method, we first used mutual information method and stop words filtering method to get the candidate MWEs.Then we classified the candidate MWEs into four types: right string, incomplete string, redundancy string and error string.At last, with the help of query optimization in search engines and the candidate MWEs retrieval results on the internet, we designed a revising method to get the MWEs.We took the questions in Sina iask question library as the experimental corpus.And the results show that the precision, recall and theF-measure can reach 84%, 52%, 0.64 respectively, which proves the effectiveness of the proposed method. multiword expressions; question interpretation; mutual information; search engine 2013-09-09. 吳瑞紅(1988—), 女, 漢族, 碩士研究生, 從事自然語(yǔ)言處理的研究, E-mail: ruihong0417@163.com. 國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào): 61171159; 61271304)和北京市教委科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目暨北京市自然科學(xué)基金B(yǎng)類(lèi)重點(diǎn)項(xiàng)目(批準(zhǔn)號(hào): KZ201311232037). TP391.1 A 1671-5489(2014)06-1230-09 10.13413/j.cnki.jdxblxb.2014.06.25 韓 嘯)3 多字詞表達(dá)校正
4 實(shí)驗(yàn)結(jié)果與分析
(1.BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,
BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;
2.BeijingTRSInformationTechnologyCo.Ltd.,Beijing100101,China)