傅 彥,徐昭邦,夏虎,周俊臨
(電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院 互聯(lián)網(wǎng)科學(xué)中心,四川 成都 611731)
?
基于逆向匹配的電子商務(wù)網(wǎng)站實(shí)體模板半自動(dòng)構(gòu)建方法
傅 彥,徐昭邦,夏虎,周俊臨
(電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院 互聯(lián)網(wǎng)科學(xué)中心,四川 成都 611731)
Web頁面中的主題信息一般分布比較集中,可利用網(wǎng)頁的這一特性進(jìn)行網(wǎng)頁主題信息的自動(dòng)提取。網(wǎng)頁源代碼中的HTML標(biāo)簽不規(guī)范,使得正向匹配難以生成嵌套結(jié)構(gòu)準(zhǔn)確的DOM樹,該文提出一種通過逆向匹配的方法,構(gòu)建完整的網(wǎng)頁源代碼DOM樹。通過對(duì)DOM樹進(jìn)行剪枝,刪除無關(guān)節(jié)點(diǎn),對(duì)保留下來的信息塊的節(jié)點(diǎn)標(biāo)簽進(jìn)行人工選擇與唯一性判定,從而生成提取模板。該方法能夠?qū)崿F(xiàn)對(duì)電子商務(wù)網(wǎng)站源網(wǎng)頁中的主題信息進(jìn)行提取,是一種半自動(dòng)、通用的方法,可用于信息檢索系統(tǒng)中的信息采集。
逆向匹配;DOM樹;模板構(gòu)建;信息提取
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息量越來越大,越來越多的人選擇從網(wǎng)上獲取自己需要的信息,其中也包括網(wǎng)上購(gòu)物。電子商務(wù)網(wǎng)站上包含了大量信息,用戶可以通過這些網(wǎng)頁獲取商品的主題、參數(shù)等信息,但其中的商品網(wǎng)頁大多屬于深層網(wǎng)絡(luò)[1],不便于被傳統(tǒng)的搜索引擎檢索。
電子商務(wù)網(wǎng)站的實(shí)體模板是用于提取目標(biāo)網(wǎng)頁中的商品主題和參數(shù)等信息的提取框架。通過逆向匹配構(gòu)建商品源網(wǎng)頁的DOM樹,再對(duì)同一電子商務(wù)網(wǎng)站的多個(gè)商品網(wǎng)頁的DOM樹進(jìn)行比較,刪除其中的網(wǎng)頁模板信息,然后通過人工選擇所需提取的部分并進(jìn)行唯一性判定,從而構(gòu)建實(shí)體提取模板。實(shí)驗(yàn)表明,該方法可以準(zhǔn)確的提取出所需要的信息,并且在同一網(wǎng)站具有通用性。通過構(gòu)建多個(gè)電子商務(wù)網(wǎng)站的實(shí)體提取模板,進(jìn)而對(duì)其中的大量商品網(wǎng)頁的信息進(jìn)行批量提取,生成購(gòu)物搜索系統(tǒng),用戶通過查詢,可以非常方便地獲取所需查詢商品的主題和參數(shù)信息。并且可以對(duì)多個(gè)電子商務(wù)網(wǎng)站的同一商品進(jìn)行比較,優(yōu)化購(gòu)物環(huán)境。
在電子商務(wù)信息網(wǎng)站信息提取領(lǐng)域,已經(jīng)有了大量的研究工作,但大部分是通過構(gòu)建靜態(tài)抽取規(guī)則(靜態(tài)模板)[2]或者通過分析源代碼獲得目標(biāo)信息的路徑[3]進(jìn)行規(guī)則提取,而自動(dòng)與半自動(dòng)的構(gòu)建方法也通常只適合新聞網(wǎng)頁,對(duì)于電子商務(wù)網(wǎng)站的提取結(jié)果準(zhǔn)確率較低,這是因?yàn)樾侣劸W(wǎng)頁基本都含有大量文字內(nèi)容信息,易于與旁邊的廣告、推薦等無關(guān)信息區(qū)分開來,而電子商務(wù)網(wǎng)站的信息則分布較亂,并且不同的電子商務(wù)網(wǎng)站對(duì)于商品主題、參數(shù)等信息的組織不盡相同,難于將目標(biāo)信息與旁邊的無關(guān)信息區(qū)分開來。
周炘[2]等人通過分析網(wǎng)頁源代碼,制定了針對(duì)特定電子商務(wù)網(wǎng)站的靜態(tài)提取模板。侯明燕[3]等人提出了基于網(wǎng)頁信息定位的數(shù)據(jù)抽取技術(shù),首先構(gòu)建源網(wǎng)頁的DOM樹,然后經(jīng)過分析找到目標(biāo)信息所在的位置和路徑信息,通過從根節(jié)點(diǎn)到目標(biāo)信息節(jié)點(diǎn)的路徑提取出目標(biāo)信息。這兩種方法能夠得到較高的準(zhǔn)確率,但缺乏通用性,并且當(dāng)網(wǎng)頁改版時(shí),靜態(tài)提取模板和路徑信息都有可能會(huì)失效。
王琦[4]等人提出了STU-DOM樹模型,對(duì)源網(wǎng)頁構(gòu)建具有語義信息的DOM樹,在STU-DOM樹中,每個(gè)具有語義屬性的節(jié)點(diǎn),即STU節(jié)點(diǎn),都具有兩個(gè)語義屬性: 塊內(nèi)鏈接數(shù)和非鏈接文字?jǐn)?shù),通過比較兩個(gè)語義屬性的值進(jìn)行判定局部相關(guān)度和上下文相關(guān)度,但這種方法只能對(duì)新聞、財(cái)經(jīng)、e國(guó)等文字信息比較集中的網(wǎng)頁進(jìn)行提取,對(duì)于京東商城,亞馬遜商城等結(jié)構(gòu)復(fù)雜的電子商務(wù)網(wǎng)站沒有較好的提取效果。
通過分析各個(gè)電子商務(wù)網(wǎng)站多個(gè)網(wǎng)頁的源代碼,發(fā)現(xiàn)在同一個(gè)網(wǎng)站中,絕大部分網(wǎng)頁的源代碼是由相同模板生成的,而每個(gè)網(wǎng)頁的模板信息是相同且與特定商品的主題與參數(shù)等信息不相關(guān),相對(duì)于本文要提取的目標(biāo)信息屬于無關(guān)信息,應(yīng)該刪除。本文提出了一種半自動(dòng)構(gòu)建電子商務(wù)網(wǎng)站提取模板的方法,通過比較同一電子商務(wù)網(wǎng)站的多個(gè)源網(wǎng)頁的DOM樹,刪除其中相同的部分,再對(duì)每個(gè)子樹中的鏈接數(shù)與非鏈接文字?jǐn)?shù)進(jìn)行比較,達(dá)到對(duì)DOM樹進(jìn)行剪枝的效果,然后通過人工選擇目標(biāo)信息,對(duì)目標(biāo)信息所在位置的上下界進(jìn)行唯一性判定,從而構(gòu)建提取模板,是一種半自動(dòng)、通用的方法。
3.1 逆向匹配構(gòu)建DOM樹 定義: DOM(document object model)文檔對(duì)象模型,是W3C組織推薦的處理可擴(kuò)展置標(biāo)語言的標(biāo)準(zhǔn)編程接口。HTML文檔被解析后轉(zhuǎn)化為DOM樹,使文檔的結(jié)構(gòu)更加清晰。通過對(duì)DOM樹節(jié)點(diǎn)的判斷與剪枝,可以方便地對(duì)無關(guān)信息進(jìn)行刪除和修改。
由于網(wǎng)頁的HTML代碼的語法要求不嚴(yán)格,在HTML中,如果上下文清楚地顯示出段落或者列表鍵在何處結(jié)尾,那么就可以省略
或者之類的結(jié)束標(biāo)記。這給正向匹配構(gòu)建DOM樹構(gòu)成了障礙,導(dǎo)致無法準(zhǔn)確判定各個(gè)HTML標(biāo)簽的嵌套結(jié)構(gòu),而通過逆向匹配識(shí)別HTML標(biāo)簽則可以構(gòu)建完整的DOM樹,因此本文提出了一種通過逆向匹配構(gòu)建DOM樹的方法。1) 首先讀取HTML文檔為字符串形式。
2) 依次識(shí)別HTML標(biāo)簽,即等,忽略HTML文檔注釋<!-- -->,將識(shí)別到的標(biāo)簽依次存入棧stack1中,當(dāng)讀取的標(biāo)簽為開始標(biāo)簽時(shí),如,則直接入棧stack1。(整個(gè)HTML文檔初步解析以后,棧stack1中保存著此HTML文檔的所有標(biāo)簽,棧stack2中保存著相對(duì)應(yīng)的屬性和文本信息。)
3) 將棧stack1中的標(biāo)簽依次取出,若當(dāng)前取出的標(biāo)簽為結(jié)束標(biāo)簽,則直接存入棧stack3和棧stack0中,若當(dāng)前取出的標(biāo)簽為開始標(biāo)簽,則將其加上“/”前綴后與stack0的棧頂字符串比較,若兩字符串相等,則彈出棧stack0的棧頂元素,并且將從stack1中取出的那個(gè)開始標(biāo)簽加入棧stack3中,若此開始標(biāo)簽加上“/”前綴后與棧stack0的棧頂字符串不等價(jià),則說明此開始標(biāo)簽在原HTML文檔沒有匹配的結(jié)束標(biāo)簽,故應(yīng)將其補(bǔ)全,即將此開始標(biāo)簽加上“/”前綴后構(gòu)成的結(jié)束標(biāo)簽加入棧stack3中,然后將此開始標(biāo)簽加入棧stack3中。依此規(guī)則將棧stack1中的標(biāo)簽全部轉(zhuǎn)存如棧stack3中。
4) 將棧stack2中的屬性和文本信息全部轉(zhuǎn)存入棧stack4中。(此時(shí),棧stack3中保存的信息為原棧stack1中補(bǔ)全后的逆序,而棧stack4中為原棧stack2中信息的逆序。)
5) 從棧stack3中取出一個(gè)棧頂元素,必定為開始標(biāo)簽,以此標(biāo)簽作為所要構(gòu)建的DOM樹的根節(jié)點(diǎn)標(biāo)簽,并同時(shí)將此根節(jié)點(diǎn)入棧stack5,即棧stack5中存的是DOM樹的節(jié)點(diǎn);在stack4中取出兩個(gè)字符串作為根節(jié)點(diǎn)的屬性信息和文本信息,以當(dāng)前構(gòu)建節(jié)點(diǎn)的子樹形式表示。
6) 依次從棧stack3中取出棧頂元素,若此元素為開始標(biāo)簽,則以此標(biāo)簽作為棧stack5中棧頂節(jié)點(diǎn)的子節(jié)點(diǎn),并在棧stack4中取出兩個(gè)字符串作為剛建立的子節(jié)點(diǎn)的屬性信息和文本信息,以子樹形式表示;若從棧stack3中取出的棧頂元素為結(jié)束標(biāo)簽,則從棧stack5中彈出一個(gè)節(jié)點(diǎn),表明此節(jié)點(diǎn)不再有子節(jié)點(diǎn)。依次規(guī)律直到棧stack3為空為止。
7) 構(gòu)建好DOM樹后,由于之前用空串代替了缺省的屬性和文本信息,所以,若構(gòu)建出的DOM樹的節(jié)點(diǎn)中有空串屬性或文本,則刪除該屬性或文本。
此時(shí),構(gòu)建DOM樹完畢,可以通過將其存為XML文件以可視化。一個(gè)簡(jiǎn)單的示例及其構(gòu)建的DOM樹如表1所示。
表1 構(gòu)建DOM樹結(jié)果示例
其中構(gòu)建的DOM樹運(yùn)用了前綴編碼[5],以唯一標(biāo)示每個(gè)節(jié)點(diǎn)。
3.2 剪枝算法
剪枝算法是在保留需要提取的信息的前提下刪除無關(guān)節(jié)點(diǎn)的過程。本算法通過比較同一網(wǎng)站的多個(gè)商品網(wǎng)頁的DOM樹,剪去其中相同的子樹,達(dá)到刪除大量無關(guān)節(jié)點(diǎn)的目的。同時(shí)通過采用鏈接數(shù)和非鏈接文字?jǐn)?shù)兩個(gè)語義信息進(jìn)行輔助剪枝,進(jìn)而最大化地刪除無關(guān)節(jié)點(diǎn),以方便人工選擇。
本文需要提取的電子商務(wù)網(wǎng)站(以京東商城為例)的商品網(wǎng)頁信息如圖1、圖2所示。
圖1 電子商務(wù)網(wǎng)站主題信息
圖2 電子商務(wù)網(wǎng)站參數(shù)信息
每次從同一電子商務(wù)網(wǎng)站取出n個(gè)不同商品的網(wǎng)頁,記為Y={y1,y2,……,yn};對(duì)它們分別構(gòu)建DOM樹: D={d1,d2,……,dn};將d2~dn依次與d1比較(保存d1的副本,以用于唯一性判定),若葉子節(jié)點(diǎn)中的屬性與文本信息都相同,則剪去該葉子節(jié)點(diǎn),若非葉子節(jié)點(diǎn)中的屬性與文本信息都相同,且它的子節(jié)點(diǎn)都已被剪枝,則剪去該非葉子節(jié)點(diǎn)。當(dāng)整個(gè)DOM樹比較完畢時(shí),則原商品網(wǎng)頁中的模板信息已被剪枝。
圖3中黑色部分表示DOM樹中與其他DOM樹相同的部分,通過比較剪枝,刪除了這部分節(jié)點(diǎn),得到右圖為剪枝后的結(jié)果。
圖3 對(duì)DOM樹剪枝示例
本文采用信息提取算法[4]進(jìn)行輔助剪枝,對(duì)其中的閾值進(jìn)行重新測(cè)試,以達(dá)到較高的覆蓋率。該算法提出運(yùn)用鏈接數(shù)和非連接文字?jǐn)?shù)兩個(gè)語義信息進(jìn)行計(jì)算局部相關(guān)度和上下文相關(guān)度,通過確定局部相關(guān)度閾值和上下文相關(guān)度閾值進(jìn)行判斷節(jié)點(diǎn)與主題的相關(guān)性,進(jìn)而達(dá)到剪枝的效果,通過兩次剪枝,可將剪枝率最大化,從而方便人工選擇。
3.3 人工選擇與唯一性判定
通過剪枝算法進(jìn)行剪枝后,DOM樹中已經(jīng)刪除了大量無關(guān)信息,通過進(jìn)行人工選擇與唯一性判定可增強(qiáng)目標(biāo)信息提取的準(zhǔn)確性。
首先制定一個(gè)人工選擇界面,將剪枝后的DOM樹中的葉子節(jié)點(diǎn)放入預(yù)選區(qū);然后人工選擇目標(biāo)信息,程序自動(dòng)記錄所選葉子節(jié)點(diǎn)的編碼;在之前保存的d1的副本中查找所選編碼的葉子節(jié)點(diǎn);確定目標(biāo)葉子節(jié)點(diǎn)的上下界,并在網(wǎng)頁源代碼y1中進(jìn)行唯一性判定,直到找到唯一的上下界為止;保存上下界信息,以用于構(gòu)建提取模板。
3.4 構(gòu)建模板
通過上下界的唯一性判定后,可以構(gòu)建XML文件形式的提取模板,其中存儲(chǔ)了每段目標(biāo)信息的上下界,通過讀取此XML文件,可以從相應(yīng)于此模板的電子商務(wù)網(wǎng)站中的各個(gè)商品網(wǎng)頁中提取出目標(biāo)信息,其中還包含了許多HTML標(biāo)簽,所以還需有一個(gè)去除HTML標(biāo)簽的程序?qū)μ崛〗Y(jié)果進(jìn)行修正。
一個(gè)京東商城模板構(gòu)建結(jié)果如表2所示。
表2 模板構(gòu)建結(jié)果示例
爬取京東商城、亞馬遜商城、淘寶網(wǎng)等網(wǎng)站的各類商品網(wǎng)頁源代碼,分別構(gòu)建網(wǎng)頁的DOM樹,每次比較2~8個(gè)網(wǎng)頁DOM樹(即n取2~8),對(duì)于每個(gè)n值重復(fù)50次取平均值,比較剪枝效果,確定最好的n值,然后運(yùn)用不同的局部相關(guān)性閾值與上下文相關(guān)度閾值進(jìn)行測(cè)試。
圖4展示了固定上下文相關(guān)度為10時(shí),剪枝率和覆蓋率隨局部相關(guān)度的變化情況。隨著局部相關(guān)度的增大,剪枝率不斷增大,而覆蓋率在局部相關(guān)度大于2時(shí)不再為100%;圖5展示了固定局部相關(guān)度為2時(shí)剪枝率和覆蓋率隨上下文相關(guān)度的變化情況。隨著上下文相關(guān)度的增大,剪枝率不斷增大,但覆蓋率在局部相關(guān)度大于10時(shí)不再為100%。
圖4 固定上下文相關(guān)度為10時(shí)剪枝率和覆蓋率隨局部相關(guān)度變化表
圖5 固定局部相關(guān)度為2時(shí)剪枝率和覆蓋率隨上下文相關(guān)度變化表
為了保證模板提取的準(zhǔn)確率,剪枝結(jié)果的覆蓋率必須保證為100%,以確保能最后保留主題和參數(shù)信息,通過圖4、圖5可以看出,上下文相關(guān)度取10,局部相關(guān)度取2在京東商城網(wǎng)站上能獲得最好的結(jié)果,而通過對(duì)亞馬遜和淘寶等網(wǎng)站的測(cè)試,這兩個(gè)值也能得到覆蓋率為100%,如表3所示。
表3 對(duì)三個(gè)電子商務(wù)網(wǎng)站的商品網(wǎng)頁的DOM樹剪枝結(jié)果(局部相關(guān)度取2,上下文相關(guān)度取10)
來源網(wǎng)站剪枝率/%覆蓋率/%京東 82.25100亞馬遜44.87100淘寶 63.09100
其中,剪枝率表示剪去的DOM樹節(jié)點(diǎn)占整個(gè)DOM樹的平均比例;覆蓋率表示剪枝結(jié)束后剩下的DOM樹節(jié)點(diǎn)中目標(biāo)信息占所有應(yīng)提取的目標(biāo)信息的比例。
實(shí)驗(yàn)表明,每次比較的網(wǎng)頁數(shù)n取4,局部相關(guān)度閾值取2,上下文相關(guān)度閾值取10,最小長(zhǎng)度值取1時(shí)能得到最好的剪枝結(jié)果,并且在各個(gè)網(wǎng)站中具有較高的通用性。
本方法與同領(lǐng)域的其他方法相比,優(yōu)于周炘等人和侯明燕等人的方法,不需要對(duì)目標(biāo)網(wǎng)站的商品網(wǎng)頁進(jìn)行深入分析,只需選擇所要提取的目標(biāo)信息就可自動(dòng)構(gòu)建模板;對(duì)于結(jié)構(gòu)復(fù)雜的電子商務(wù)網(wǎng)站的信息提取,優(yōu)于王琦等人的方法,能夠準(zhǔn)確的提取出目標(biāo)信息。
在電子商務(wù)網(wǎng)站的商品網(wǎng)頁信息提取領(lǐng)域,人工編寫抽取規(guī)則能得到很高的準(zhǔn)確率,但需要在網(wǎng)頁每次改版以及有新的電子商務(wù)網(wǎng)站出現(xiàn)時(shí)進(jìn)行配置模板,本文的方法在保證較高的準(zhǔn)確率的條件下減少了大量人工參與工作,簡(jiǎn)化了提取過程。
在剪枝算法中,充分利用了同一電子商務(wù)網(wǎng)站中的商品網(wǎng)頁均有相同模板生成的特點(diǎn),大量提高了剪枝率,為人工選擇減少了大量工作。但是一個(gè)商品網(wǎng)頁的源代碼相對(duì)于人工操作比較龐大,即使達(dá)到現(xiàn)在的剪枝率,剩下的DOM樹也依然較大,尋找提高剪枝率的辦法,能為人工選擇提供方便。另外當(dāng)能把所有無關(guān)信息都進(jìn)行剪枝時(shí),可實(shí)現(xiàn)模板的自動(dòng)構(gòu)建。
[1] 楊曉琴,鞠時(shí)光,曹慶皇等.面向Deep Web數(shù)據(jù)自動(dòng)抽取的模板生成方法[J].計(jì)算機(jī)應(yīng)用,2010,27(1): 200-203.
[2] 周炘.面向電子商務(wù)網(wǎng)站的深度搜索與信息抽取研究[D].江西: 江西師范大學(xué)軟件學(xué)院碩士學(xué)位論文,2011.
[3] 侯明燕.基于網(wǎng)頁信息定位的數(shù)據(jù)抽取技術(shù)的研究[D].廣東: 暨南大學(xué)碩士學(xué)位論文,2011.
[4] 王琦,唐世渭,楊冬青等.基于DOM樹的網(wǎng)頁主題信息自動(dòng)提取[J].計(jì)算機(jī)研究與發(fā)展,2004,41(10): 1786-1792.
[5] Beyer K, Viglas S D, Tatarinov I, et al. Storing and querying ordered XML using a relational database system[C]//Proceedings of the 2002 ACM SIGMOD International Conference, 2002: 204-215.
傅彥(1962—),碩士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘。E?mail:fuyan@uestc.edu.cn徐昭邦(1991—),碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘。E?mail:xzhaobang@163.com夏虎(1981—),博士,助理研究員,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)。E?mail:xiahu@uestc.edu.cn
全國(guó)第十四屆計(jì)算語言學(xué)會(huì)議(CCL 2015)及第三屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理
國(guó)際學(xué)術(shù)研討會(huì)(NLP-NABD 2015)聯(lián)合征稿啟事
“第十四屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議”(The Fourteenth China National Conference on Computational Linguistics, CCL 2015)將于2015 年11月13日—14日在廣東外語外貿(mào)大學(xué)舉行。作為國(guó)內(nèi)最大的自然語言處理專家學(xué)者的社團(tuán)組織——中國(guó)中文信息學(xué)會(huì)(CIPS)的旗艦會(huì)議,全國(guó)計(jì)算語言學(xué)會(huì)議從1991年開始每?jī)赡昱e辦一次,從 2013 年開始每年舉辦一次,經(jīng)過 20 余年的發(fā)展歷程,已形成了十分廣泛的學(xué)術(shù)影響,成為國(guó)內(nèi)自然語言處理領(lǐng)域權(quán)威性最高、口碑最好、規(guī)模最大(2014年參會(huì)人數(shù)超過了 400 名)的學(xué)術(shù)會(huì)議。CCL 著重于中國(guó)境內(nèi)各類語言的計(jì)算處理,為研討和傳播計(jì)算語言學(xué)最新的學(xué)術(shù)和技術(shù)成果提供了高水平的深入交流平臺(tái)。
CCL 2015征集各類與漢語和中國(guó)少數(shù)民族語言相關(guān)的計(jì)算語言學(xué)方面的原創(chuàng)研究和應(yīng)用論文。論文包括但不限于以下內(nèi)容:
· 語言處理的認(rèn)知建模和心理語言學(xué)
· 篇章、共指和語用學(xué)
· 評(píng)測(cè)方法
· 語言資源和標(biāo)注
· 詞匯語義學(xué)和詞匯本體論
· 大規(guī)模知識(shí)獲取和推理
· 機(jī)器翻譯
· 多語言自然語言處理
· 自然語言處理應(yīng)用
· 社交媒體中的自然語言處理
· 命名實(shí)體識(shí)別與鏈接
· 開放領(lǐng)域的問答系統(tǒng)
· 語義學(xué)
· 情感分析、意見挖掘與文本分類
· 社會(huì)計(jì)算
· 語音識(shí)別與合成
· 自然語言處理的統(tǒng)計(jì)與機(jī)器學(xué)習(xí)方法
· 文本摘要和生成
· 句法分析與網(wǎng)頁分析
· 詞性標(biāo)注和組塊分析
· 文本蘊(yùn)含·文本挖掘、開放域信息抽取與網(wǎng)頁機(jī)器閱讀
· 互聯(lián)網(wǎng)信息檢索
· 資源稀缺的自然語言處理
· 分詞
· 詞義消歧
· 多模態(tài)處理
· 醫(yī)學(xué)自然語言處理CCL 2015同時(shí)接受中文和英文投稿。錄用的稿件分為兩類:口頭報(bào)告(Oral)和海報(bào)張貼(Poster)。被錄用的Oral 中文稿件將在中國(guó)自然語言處理領(lǐng)域最具影響力的期刊《中文信息學(xué)報(bào)》發(fā)表,但作者必須根據(jù)會(huì)議和期刊的審稿意見進(jìn)行 相應(yīng)修改,《中文信息學(xué)報(bào)》對(duì)未完成修改的稿件保留不予發(fā)表的權(quán)利。被錄用的Poster 中文稿件將推薦至其他計(jì)算機(jī)類中國(guó)科技核心期刊(中國(guó)科學(xué)技術(shù)信息研究所制定) 。部分期刊會(huì)要求再審,通過后方能發(fā)表。被錄用的英文稿件將由 Springer Lecture Notes in Artificial Intelligence (LNAI)出版。
“第三屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國(guó)際學(xué)術(shù)研討會(huì)”(The Third International Symposium on Natural Language Processing based on Naturally Annotated Big Data, NLP-NABD 2015)將與CCL 2015同時(shí)召開。NLP-NABD涵蓋了前面列舉的所有自然語言處理的研究?jī)?nèi)容,尤其關(guān)注在大數(shù)據(jù)時(shí)代自然語言處理的前沿方法和技術(shù)。這里所謂的“自然標(biāo)注”是指由互聯(lián)網(wǎng)用戶根據(jù)其自身目的(而不是出于自然語言處理研究的目的) 對(duì)各種互聯(lián)網(wǎng)資源進(jìn)行的“不自覺”的手工標(biāo)注,計(jì)算語言學(xué)家們可以將這些標(biāo)注自覺地和系統(tǒng)性地應(yīng)用在自然語言處理的各種研究中。典型的例子是,標(biāo)點(diǎn)符號(hào)有助于詞邊界的識(shí)別,社交媒體中的社會(huì)標(biāo)簽
也有助于關(guān)鍵詞抽取,而維基百科中的條目類別信息則可以為文本分類提供幫助。在這些例子中,“自然標(biāo)注”都是以顯式的形式出現(xiàn)的,但在很多情況下,也可以以隱式的形式出現(xiàn),如短語“Beijing and other cities”“cities such as Beijing”中所蘊(yùn)含的兩個(gè)模式“cities such as NOUN”“NOUN and other cities” 就是一種隱式的“自然標(biāo)注”,可用于抽取常識(shí)知識(shí) ISA(NOUN, city)。NLP-NABD 2015 聚焦國(guó)內(nèi)外在此方向上的各種前沿研究進(jìn)展,如:如何在自然標(biāo)注大數(shù)據(jù)上有效進(jìn)行大規(guī)模無監(jiān)督/半監(jiān)督機(jī)器學(xué)習(xí)(如深度學(xué)習(xí)),如何將學(xué)習(xí)到的資源、模型和已有的手工標(biāo)注的核心資源和核心語言計(jì)算模型結(jié)合起來,等等。NLP-NABD 2015 受到國(guó)家973 計(jì)劃項(xiàng)目“面向三元空間的互聯(lián)網(wǎng)中文信息處理理論與方法”(編號(hào):2014CB340500)資助支持。
NLP-NABD 2015 針對(duì)世界各種語言的研究(不僅限于中文),只接受英文投稿。錄用稿件將與CCL 2015錄用的英文論文一起由Springer發(fā)表于LNAI系列上。
CCL 2015 和 NLP-NABD 2015 的中文投稿不超過 10 頁,英文投稿不超過 12頁 。 中文投稿的格式請(qǐng)參照中文信息學(xué)報(bào)的投稿指南(http://www.cipsc.org.cn/jsip/tougao.php),英文投稿的格式請(qǐng)參照Springer的投稿指南(http://www.springer.de/comp/lncs/authors.html)。Springer會(huì)將LNAI出版的論文提交給EI以申請(qǐng)進(jìn)入其檢索。根據(jù)Springer以往的經(jīng)驗(yàn),論文獲得EI收錄的機(jī)會(huì)相當(dāng)高。2013年和2014年CCL和NLP-NABD錄取的英文稿件全部被EI收錄。更多關(guān)于LNAI索引的信息請(qǐng)參閱: http://www.springer.com/computer/lncs?SGWID=0-164-6-1068921-0。
自2014年起,CCL和NLP-NABD開始設(shè)立最佳論文獎(jiǎng),對(duì)高質(zhì)量中文和英文稿件分別予以獎(jiǎng)勵(lì)。CCL 2015和NLP-NABD 2015將設(shè)立兩項(xiàng)最佳論文獎(jiǎng),由程序委員會(huì)負(fù)責(zé)評(píng)選。其中,“CCL 2015 最佳論文獎(jiǎng)”用于獎(jiǎng)勵(lì)中文信息處理方面的優(yōu)秀中文論文,“NLP-NABD 2015最佳論文獎(jiǎng)”用于獎(jiǎng)勵(lì)大數(shù)據(jù)環(huán)境下自然語言處理方面的優(yōu)秀英文論文。程序委員會(huì)將為每篇獲獎(jiǎng)?wù)撐念C發(fā) 3000 元人民幣獎(jiǎng)金和獲獎(jiǎng)證書。
CCL 2015 和 NLP-NABD 2015 時(shí)間表:
· 論文投稿的截止日期:2015年6月1日
· 錄用通知發(fā)出日期:2015年7月26日
· 最終版提交日期:2015年8月10日
投稿信息:本次會(huì)議將采用雙盲審稿,所以作者姓名和單位不可以出現(xiàn)在投稿的論文中,作者的自引不可采用“我們提出…”,而是用“作者名字提出…”。所有稿件要求以 PDF 文件形式通過 START 系統(tǒng)提交,提交網(wǎng)址為https://www.softconf.com/e/ccl2015/。
關(guān)于平行投稿政策:本次會(huì)議允許作者將同一稿件同時(shí)投向自然語言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議(如EMNLP 2015),只要該國(guó)際會(huì)議也有類似的平行投稿政策。在投稿時(shí),必須注明該稿件同時(shí)投至此類會(huì)議。作者在接收到錄用通知后,必須在最終版提交日期(2015 年8月10日)之前告知程序委員會(huì)是否在本次會(huì)議發(fā)表。一旦確定,必須撤回在其他會(huì)議的稿件。本次會(huì)議不接收任何與已經(jīng)公開發(fā)表的論文完全相同或者高度重合的稿件。
Reverse Match Based Semi-automatic Entity Template Extraction for E-commerce Websites
FU Yan, XU Zhaobang, XIA Hu, ZHOU Junlin
(Web Sciences Center, School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu, Sichuan 611731, China)
Generally, the distribution of the subject information in the Web page is centralized .Therefore,we can utilize this characteristics of Web page to extract the subject information automatically. Due to the fact that the HTML label in the page source code is not well qualified, it is difficult to construct a DOM tree with accurate structure through the forward matching. This article presents a new method which applies the reverse matching to construct a complete DOM tree. By deleting the insignificant node the DOM tree, we can select from the remained information node labels manually to finalize the templeaterdeciden if they are unique. This is a general and semi- automatic method, and experiments on the e-commerce webpages are reported in this paper.
reverse matching; DOM tree; template extraction; information extraction
1003-0077(2015)02-0157-06
2013-04-08 定稿日期: 2013-07-11
國(guó)家自然科學(xué)基金(61103109,11105024,61003231),中央高?;究蒲袠I(yè)務(wù)費(fèi)(ZYGX2011J057,ZYGX2012J071,ZYGX2012J085),四川省科技項(xiàng)目(2010HH0002,2011GZ0106,20112Z0001, 2012RZ0002, 2012RZ0003),高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金(20120185120017)
TP391
A