張家銳 張 涵
1(合肥學(xué)院計算機科學(xué)與技術(shù)系 安徽 合肥 230601)2(赫特福德大學(xué)生命與醫(yī)藥科學(xué)系 英國 赫特福德郡 AL10 9AB)
?
基于結(jié)構(gòu)特征和元模型的中文表格語義分析方法
張家銳1張涵2
1(合肥學(xué)院計算機科學(xué)與技術(shù)系安徽 合肥 230601)2(赫特福德大學(xué)生命與醫(yī)藥科學(xué)系英國 赫特福德郡AL10 9AB)
針對現(xiàn)有技術(shù)對中文表格語義分析不夠全面的現(xiàn)實,提出基于結(jié)構(gòu)特征和元模型的語義分析方法。使用具有公知性的一階謂詞函數(shù)Value(值函數(shù))、Num(數(shù)量函數(shù)),結(jié)合偽編碼,對幾類最常見的中文表格進行語義分析,獲取了中文表格的表面語義、上下文語義、主-子表之間的限制語義、表附屬性對表格數(shù)據(jù)的附加語義、屬性值背后隱藏的關(guān)系語義。實例驗證的結(jié)果表明,結(jié)構(gòu)特征和元模型是中文表格語義分析的有效方法,獲取的語義信息量和種類遠超目前的方法。
結(jié)構(gòu)特征元模型一階謂詞函數(shù)表面語義上下文語義限制語義附加語義關(guān)系語義
中文表格是中文書面文本中最常見的元素之一,具有比普通文字語言更高的精確性和簡捷性,在很多領(lǐng)域相關(guān)的文本中,經(jīng)常會使用表格來增強可閱讀性、可理解性。因此,對中文表格進行語義分析是中文自然語言理解中不可或缺的部分。中文表格人工理解很方便,機器辨識很困難。目前,對中文表格的語義分析,多數(shù)是將研究對象限定為Web頁面中基于HTML標(biāo)簽的電子表格,方法大致有如下幾種[1]:內(nèi)容樹[2,3]、基于本體使用隱馬爾可夫模型[4]、領(lǐng)域本體[5]、啟發(fā)式規(guī)則[6]、正則表達式匹配[7]、基于集成的半自動化方法[8]、人工解釋表格結(jié)構(gòu)的半自動化方法[9],目的是通過語義抽取表格數(shù)據(jù)。在利用表格的半結(jié)構(gòu)化特征來獲取其語義方面,楊海濤[10]按表頭的形態(tài)把表格分為:典型關(guān)系表格、可規(guī)范的關(guān)系表格、帶指標(biāo)森林表頭的表格。賴中華[11]提出列分割、嵌套列表頭跨度識別、行分段、單位識別、表格展開方式識別和表格標(biāo)題識別的表格結(jié)構(gòu)識別方法,把表格的物理結(jié)構(gòu)規(guī)整化到邏輯結(jié)構(gòu)后解讀其語義。陳競波[12]運用報表數(shù)據(jù)語義對象化處理技術(shù),對報表數(shù)據(jù)與報表結(jié)構(gòu)進行解耦,將報表數(shù)據(jù)與其語義信息封裝成語義對象,并通過報表公式來描述數(shù)據(jù)對象之間的運算或約束關(guān)系。馮曉晨[13]的研究重點是表格屬性之間的關(guān)系(同義/概念分類/特性關(guān)系/值的類屬模式等)語義。尹文生[14]通過建立屬性取值的識別規(guī)則和語義脈絡(luò)樹來獲取表格的值語義??傊壳暗姆椒ㄖ粚Ρ砀竦谋砻嬲Z義(值語義)進行分析[10,11,13,14],雖然文獻[12]加入了表格的運算和約束語義,但表格的上下文語義、主-子表間的限制語義、表附屬性對表格的附加語義、表內(nèi)屬性值之間的關(guān)系語義皆未被考慮。鑒于此,針對中文書面文本中幾類常見的中文表格,在以文獻[10,11]方法進行表格樣式解析的前提下,提出一種基于結(jié)構(gòu)特征和元模型的中文表格語義分析方法,便于獲得中文表格更全面的語義,希望能部分彌補目前方法的不足。
中文表格雖然不像中文文本語句那樣豐富多彩、充滿限制和歧義,但其類別繁多、難以窮盡,所以至今也沒有一種標(biāo)準(zhǔn)的分類方法,本文僅面向應(yīng)用中最典型、最常見的幾類中文表格進行研究。
定義1欄目的值與且僅與某一個屬性及其約束相關(guān)的表格為一維表格。如表1所示。
表1單位及信息專管員基本信息表
單位蓋章:
單位編號TY001組織機構(gòu)編碼79843562-5單位名稱太原市政府信息辦中文簡稱信息辦英文簡稱XXB單位地址中山路36號信息專管員基本信息姓名孫廣宏職務(wù)科長辦公室電話2336759手機號碼13903516638政務(wù)號GK35692電子信箱sunguanghong@163.comQQ號1339883518
填表人:王擁軍填表日期:2014-04-08
定義2欄目的值與且僅與橫、縱兩個屬性及其約束相關(guān),且這兩個屬性之間一般有“定語+名詞”或“定語+數(shù)詞”或“定語+量詞”構(gòu)成關(guān)系的表格為二維表格。如表2所示。
表2某項目設(shè)備預(yù)算表
填表日期:2014年5月16日貨幣單位:元
設(shè)備種類設(shè)備型號數(shù)量單位預(yù)算單價小計服務(wù)器聯(lián)想萬全R3503臺60000.00180000.00PC機華碩M33AAG16臺3620.0057920.00防火墻華為USG51201臺38000.0038000.00核心交換機華為5700-24TP1臺27000.0027000.00分支交換機華為2700-26TP1臺1280.001280.00工作臺山鷹W144張260.001040.00合計305240.00
定義3在一維表格中嵌入了另一個表格,該表格與被嵌入的表格之間構(gòu)成了主-子(master-detail)關(guān)系,且一般被嵌入的表格是二維表格,此類表格稱為具有主-子關(guān)系的一維表格。如表3所示。
表3某公司員工信息表
填表日期:2014-07-01
編號姓名出生日期身份證號碼學(xué)歷A001李國棟性別男19720608民族漢340101197206080611本科職稱工程師照片學(xué)習(xí)經(jīng)歷起止時間學(xué)習(xí)單位和內(nèi)容證明人199502-199508上海大眾維護班,汽車維護張彤
續(xù)表1
定義4在二維表格中嵌入了另一個表格,該表格與被嵌入的表格之間構(gòu)成了主-子關(guān)系,同樣,被嵌入的表格一般也是二維表格。此類表格稱為具有主-子關(guān)系的二維表格。如表4和表5所示。
表4某集團公司月度考勤統(tǒng)計表
統(tǒng)計年月:2014年5月
全勤人次曠工人次遲到人次早退人次公差人次病事假人次集團總部118003240第一分部262416112第二分部216621101第三分部246201223第四分部223811211合計10670412887
制表人:劉三保 制表日期:2014年6月1日
表5 集團總部2014年5月遲到人次清單
制表人:劉三保 制表日期:2014年6月1日
一個中文表格T可以用式(1)的六元組來表示:
T=
(1)
其中,Td為表序,即表格在文本中的序號,具有唯一性;Tn為表名,即表格的名稱;Tf為表附,反映表格的外部特征,它是若干<屬性,值>對所組成的集合,用FAi表示表附的第i個屬性,F(xiàn)Vi表示FAi屬性的值,則:
Tf={
(2)
Tb為表體,由表格中的橫、縱欄目的<屬性,值>對組成的集合,設(shè)橫欄有m行,縱欄有n列,m,n都是正整數(shù),當(dāng)m或n有一個為1時,表示一維表格。用x1,x2,…,xm表示橫欄屬性,y1,y2,…,yn表示縱欄屬性,Vij表示橫欄屬性xi、縱欄屬性yj對應(yīng)的值,則:
Tb={
……
(3)
Tc是表格的上下文結(jié)構(gòu),包括狀態(tài)約束、時間約束、地點約束、人物約束、事件約束。
Tc={ StatusConstraint;TimeConstraint;LocationConstraint;PersonConstraint; ThingConstraint;SequenceConstraint }
(4)
其中,StatusConstraint為狀態(tài)約束,布爾型,為真(ture)表示該表格中的數(shù)據(jù)已經(jīng)確認(rèn),否則未確認(rèn);TimeConstraint為時間約束,其值用SandE(starttime,endtime)來表示,描述表格數(shù)據(jù)僅在上述時間范圍內(nèi)有效。如果starttime為空、endtime不為空表示自endtime之前有效;如果starttime不為空、endtime不為空表示在starttime和endtime時限內(nèi)有效;如果starttime不為空、endtime為空表示自starttime開始生效。若starttime=endtime則表示時間點;LocationConstraint為地點約束,描述表格數(shù)據(jù)相關(guān)的發(fā)生地點,其值為自由文本;PersonConstraint為人物約束,描述表格數(shù)據(jù)相關(guān)的人物,其值為自由文本;ThingConstraint為事件約束,描述表格數(shù)據(jù)相關(guān)的事件,其值為自由文本;SequenceConstraint為屬性間的順序約束,即所標(biāo)識的列序號在解讀語義時須依次進行。其值可表示為SC(y1,y2,…,yn)。
Tk是表格的鏈接點集合,通過鏈接點一個表格可以嵌入多個相關(guān)的子表格。
Tk={TL1,TL2,…,TLs}s是自然數(shù)
TLi={ EmbeddedTid;EmbeddedTname; VerifyConstraint;PrefixConstraint }
(5)
其中,EmbeddedTid為被嵌入的表格序號,實數(shù);EmbeddedTname為被嵌入的表格名稱,自由文本;VerifyConstraint為驗證約束,是T對子表的整體約束,其值可以表示為Vij=RowNum(EmbeddedTid),表示序號為EmbeddedTid的子表行數(shù)必須等于T中Vij,如表1中有Vij=3=RowNum(4.2);PrefixConstraint為前綴約束,也是T對子表的整體約束,其值可以表示為Prefix(Vij,Td),表示Td子表中所有數(shù)據(jù)都需要加上前綴Vij。
為中文表格T的所有表附屬性、表體屬性分別設(shè)計一個元模型,用MDFi、MDBij對應(yīng)表示第i個表附屬性、第i行第j列表體屬性,其中h、m、n取值范圍同上。
MDFi={ Type; Range; ColumnConstraint; RowConstraint }
(i=1,2,…,h)
(6)
其中,Type為該屬性對應(yīng)的數(shù)據(jù)類型;Range為該屬性的取值范圍,如按GB/T 7408-2005執(zhí)行;ColumnConstraint為列約束,該屬性值對表格的某一列施加約束,其值可以表示為CC(y1,y2,…,yn)+FVi,其中yj為表格的j列,j為小于等于n的正整數(shù)。(如表2中的“貨幣單位:元”對第5列、第6列的約束);RowConstraint為行約束,該屬性值對表格的某一行施加約束,其值可以表示為RC(x1,x2,…,xm)+FVi,其中xj為表格的j行,j為小于等于m的正整數(shù)。
MDBij={Type; Range; RowColumnConstraint }
(i=1,2,…,m;j=1,2,…,n)
(7)
其中,Type為該屬性對應(yīng)的數(shù)據(jù)類型;Range為值域,該屬性的取值范圍,如按GB/T7408-2005執(zhí)行;RowColumnConstraint為屬性間的行列約束,其值可表示為RCC(Vab運算符Vuv運算符…Vdw關(guān)系符 Vij)。其中,a、b、u、v、d、w皆為正整數(shù)。
本文將中文表格的語義擴展為:表面語義(包括“非值”部分和“值”部分)、上下文語義、主-子表間的限制語義、表附屬性對表格的附加語義、表內(nèi)屬性值之間的關(guān)系語義。
對于給定的表格T,按照式(1)-式(7)構(gòu)建表格的結(jié)構(gòu)特征和屬性的元模型,利用一階謂詞演算中的函數(shù)和偽碼來進行中文表格的語義分析。
4.1表面語義
根據(jù)所構(gòu)建的式(1)-式(3)的值,則有:
?T,?Td,Tn,Tf,Tb,Tk,h,m,n,s
Value(T,Td)∩Value(T,Tn)∩Num(T,Tf,h)∩
Num(T,R,m)∩Num(T,C,n)∩Num(T,Tk,s)
(8)
其中,Value(T,X)表示“表T的X屬性的值”,Num(T,R,Q)表示“表T的行數(shù)量是Q”,Num(T,C,Q)表示“表T的列數(shù)量是Q”。則上述謂詞公式表達了表面語義的“非值”部分:給定的中文表格T,其序號為Td,名稱為Tn,有h個附加屬性,有m行,有n列,有s個被嵌入的子表。
為了機器處理的效率,表面語義的“值”部分融合到以下語義中。
4.2上下文語義
ifTc.StatusConstraint=truethen"T的數(shù)據(jù)已經(jīng)被確認(rèn)"else"T的數(shù)據(jù)未被確認(rèn)";
ifTc.TimeConstraint <>nullthen{
if(starttime <>nullandendtime =null)then"T的數(shù)據(jù)從starttime開始生效";
if(starttime =nullandendtime <>null)then"T的數(shù)據(jù)在endtime之前有效";
if(starttime <>nullandendtime <>null)then"T的數(shù)據(jù)在starttime和endtime之間有效";
}
ifTc.LocationConstraint <>nullthen"T的數(shù)據(jù)與地點Tc.LocationConstraint 相關(guān)";
ifTc.PersonConstraint <>nullthen"T的數(shù)據(jù)與人物Tc.PersonConstraint 相關(guān)";
ifTc.ThingConstraint <>nullthen"T的數(shù)據(jù)與事件Tc.ThingConstraint相關(guān)";
ifTc.SequenceConstraint <>nullthen"T的數(shù)據(jù)具有SC(y1,y2,…,yn)順序要求";
4.3主-子表間的限制語義
ifs<>0then
for(i=1tos) {
被嵌入的表格序號為TLi.EmbeddedTid;
被嵌入的表格名稱為TLi.EmbeddedTname;
表格T對TLi.EmbeddedTid子表的驗證約束為TLi.VerifyConstraint;
表格T對TLi.EmbeddedTid子表的前綴約束為TLi.PrefixConstraint;
}
4.4表附屬性對表格的附加語義
ifh<>0then
fori=1toh {
表附屬性FAi的值是FVi;
表附屬性FAi的數(shù)據(jù)類型為MDFi.Type;
表附屬性FAi的值域為MDFi.Range;
表附屬性FAi對T的列約束為MDFi.ColumnConstraint;
表附屬性FAi對T的行約束為MDFi.RowConstraint;
}
4.5表內(nèi)屬性值之間的關(guān)系語義
fori=1tom {
forj=1ton {
表體橫欄屬性為xi、縱欄屬性為yj對應(yīng)的值是Vij;
該表體屬性值的數(shù)據(jù)類型為MDBij.Type;
該表體屬性值的值域為MDBij.Range;
if(MDBij.RowColumnConstraint<>null)then
"值Vij隱含了RCC(Vab運算符Vuv運算符…Vdw關(guān)系符 Vij)關(guān)系";
if(MDFj.ColumnConstraint<>null)thenVij=Vij+MDFj.Co-lumnConstraint;
if(MDFi.RowConstraint<>null)thenVij=Vij+MDFi.RowConstraint);
}
}
利用上述的語義分析方法,針對本文給定的四類典型的中文表格進行驗證。
表1的語義分析:
構(gòu)建該表的結(jié)構(gòu)特征和元模型:
Td=1;Tn=單位及信息專管員基本信息表;h=3;m=1;n=13; s=0;
Tf= {<單位蓋章,null>,<填表人,王擁軍>,<填表日期,2014-04-08>};
Tb= {<單位編號,TY001>,<組織機構(gòu)編碼,79843562-5>,<單位名稱,太原市政府信息辦>,<中文簡稱,信息辦>,<英文簡稱,XXB>,<單位地址,中山路36號>,<信息專管員姓名,孫廣宏>,<信息專管員職務(wù),科長>,<信息專管員辦公室電話,2336759>,<信息專管員手機號碼,13903516638>,<信息專管員政務(wù)號,GK35692>,<信息專管員電子信箱,sunguanghong@ 163.com>,<信息專管員QQ號,1339883518>};
Tc={
StatusConstraint=false;
TimeConstraint=null;
LocationConstraint=null;
PersonConstraint=null;
ThingConstraint=為配合全市信息化統(tǒng)一規(guī)劃,對各委辦局和信息專管員的基本信息進行采集;
SequenceConstraint=null}
s=0,故無須構(gòu)建Tk。
屬性的元模型為:
MDF1={
Type=字符串;
Range=自由文本;
ColumnConstraint=null;
RowConstraint=null;}
MDF2={
Type=字符串;
Range=長度不超過五個漢字;
ColumnConstraint=null;
RowConstraint=null;}
MDF3={
Type=日期型;
Range=符合YYYY-MM-DD日期規(guī)范;
ColumnConstraint=null;
RowConstraint=null;}
MB11={
Type=字符串;
Range=TY+3位數(shù)字;
RowColumnConstraint=null;}
MB12={
Type=9位數(shù)字字符串;
Range=符合國家組織機構(gòu)編碼及校驗規(guī)則;
RowColumnConstraint=null}
以下MB13至MB112類似,省略。
MB113={
Type=數(shù)字串;
Range=四至十位的數(shù)字;
RowColumnConstraint=null;}
可獲得如下語義:
(1) 表面語義
根據(jù)式(8)可以得到表面語義的“非值”部分:表的序號為“1”,表名為“單位及信息專管員基本信息表”,有3個附加屬性,有1行13列,沒有嵌入子表。
(2) 上下文語義
該表是“為配合全市信息化統(tǒng)一規(guī)劃,對各委辦局和信息專管員的基本信息進行采集”,但本表填報的信息尚未得到單位“確認(rèn)”。
(3) 主-子表間的限制語義
無。
(4) 表附屬性對表格的附加語義
表附屬性值為:
單位蓋章=null,字符串,自由文本;
填表人=王擁軍,字符串,不超過五個漢字;
填表日期=2014-04-08,日期型,格式為YYYY-MM-DD;
附加語義:無。
(5) 表內(nèi)屬性值之間的關(guān)系語義
表體屬性值為:
單位編號=TY001,字符串,格式為TY+3位數(shù)字;
組織機構(gòu)編碼=79843562-5,9位數(shù)字字符串,符合國家組織機構(gòu)編碼及校驗規(guī)則;
單位名稱=太原市政府信息辦,字符串,自由文本;
中文簡稱=信息辦,字符串,自由文本;
英文簡稱=XXB,字符串,自由文本;
單位地址=中山路36號,字符串,自由文本;
信息專管員姓名=孫廣宏,字符串,長度不超過五個漢字;
信息專管員職務(wù)=科長,字符串,符合國家職務(wù)編碼規(guī)范;
信息專管員辦公室電話=2336759,數(shù)字串,七位數(shù)字;
信息專管員手機號碼=13903516638,數(shù)字串,十位數(shù)字;
信息專管員政務(wù)號=GK35692,字符串,GK+5位數(shù)字,具有唯一性;
信息專管員電子信箱=sunguanghong@163.com,字符數(shù)字串,符合電子郵件地址規(guī)范;
信息專管員QQ號=1339883518,數(shù)字串,四至十位數(shù)字;
屬性值之間關(guān)系語義:無。
表2的語義分析:
限于篇幅,省略結(jié)構(gòu)特征和元模型的構(gòu)建過程,對于表格的表面語義的“值”部分也予以省略。
(1) 表面語義
表的序號為“2”,表名為“某項目設(shè)備預(yù)算表”,有2個附加屬性,有7行6列,沒有嵌入子表。
(2) 上下文語義
該表是“針對某項目設(shè)備預(yù)算制作的清單”,解讀該表時針對每一行按第1、2、3、4、5、6列順序進行,本表填報的信息已經(jīng)“確認(rèn)”。
(3) 主-子表間的限制語義
無。
(4) 表附屬性對表格的附加語義
表附屬性值:省略。
附加語義:表的第6、7列的限制量詞為“元”。
(5) 表內(nèi)屬性值之間的關(guān)系語義
表體屬性值:省略。
屬性值之間關(guān)系語義:滿足V13×V15=V16;V23×V25=V26;V33×V35=V36;V43×V45=V46;V53×V55=V56;V63×V65=V66;V16+V26+V36+V46+V56+V66=V76。
表3的語義分析:
(1) 表面語義
表的序號為“3”,表名為“某公司員工信息表”,有1個附加屬性,有1行9列,有2個嵌入子表,表序分別為3.1和3.2。
(2) 上下文語義
該表“對公司所有員工的基本信息進行采集”,本表填報的信息已經(jīng)“確認(rèn)”,信息在2014年7月1日前有效。
(3) 主-子表間的限制語義
表3.1和3.2所有數(shù)據(jù)值都應(yīng)冠以前綴“李國棟”。
(4) 表附屬性對表格的附加語義
表附屬性值:省略。
附加語義:無。
(5) 表內(nèi)屬性值之間的關(guān)系語義
表體屬性值為:略
關(guān)系語義:無。
子表3.1和3.2的語義分析:省略。
表4和表5的語義分析:
(1) 表面語義
表的序號為“4”,表名為“某集團公司月度考勤統(tǒng)計表”,有3個附加屬性,有6行6列,有1個嵌入子表,表序為“5”。
(2) 上下文語義
該表“對集團所有員工按所在分部進行考勤匯總”,本表填報的信息已經(jīng)“確認(rèn)”,信息的有效性范圍為2014年5月1日至2014年5月31日。
(3) 主-子表間的限制語義
被嵌入的子表5的行數(shù)必須為3。
(4) 表附屬性對表格的附加語義
表附屬性值:省略。
附加語義:無。
(5) 表內(nèi)屬性值之間的關(guān)系語義
表體屬性值為:略。
關(guān)系語義:
V11+V21+V31+V41+V51=V61;V12+V22+V32+V42+V52=V62;
V13+V23+V33+V43+V53=V63;V14+V24+V34+V44+V54=V64;
V15+V25+V35+V45+V55=V65;V16+V26+V36+V46+V56=V66。
對子表5的語義分析:省略。
鄧敏等[15]基于CHENG[16]提出了準(zhǔn)確性、一致性、完整性語義質(zhì)量評價方法,孫翀等[17]提出了語義損失率的評價方法,還有基于語義擴散距離的評價方法。這些方法都是在假定研究對象的語義已經(jīng)存在的前提下,進行某種運算(文獻[15]為綜合,文獻[16]為匯總)時,對運算前后語義的變化進行質(zhì)量評價,而針對中文表格到底應(yīng)該包含哪些語義尚未得到統(tǒng)一認(rèn)知的情況下(這正是本文的研究目標(biāo)之一),上述方法皆不可行。以下用本文中的四個實例來對比目前方法與本文方法所獲得的語義信息量,見表6所示。
表6 各種方法所獲得的語義信息量比較
在實際情況中,中文表格的分類標(biāo)準(zhǔn)、語義范疇、是否領(lǐng)域相關(guān)等問題的認(rèn)識并未得到統(tǒng)一,因此,面向常見的幾種表格類型,基于結(jié)構(gòu)特征和元模型對中文表格進行了語義分析,思路清晰,算法簡單。較已有的方法,獲取了中文表格的表面語義(“值”和“非值”語義)、上下文語義、表附屬性的附加語義、主-子表之間的限制語義、表內(nèi)屬性值間的關(guān)系語義,擴展了中文表格語義分析的范圍,豐富了語義信息量。
從本質(zhì)上說,構(gòu)建中文表格的結(jié)構(gòu)特征和元模型的過程就是表格概化的過程,可看成槽填充表示法[18]的擴展,且具備對多層嵌套子表的遞歸分析能力。顯然,從結(jié)構(gòu)特征和元模型中獲取中文表格語義的過程對語義是無損的,結(jié)果是無歧義的。不難看出,該方法也可用于中文表格的信息抽取。
[1] 范莉婭,肖田元.自動獲取HTML表格語義層次結(jié)構(gòu)方法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2007,47(10):1586-1590.
[2]LimSeungjin,NgYiukai.AnautomatedapproachforretrievinghierarchicaldatafromHTMLtables[C]//ProceedingsoftheEighthInternationalConferenceonInformationandKnowledgeManagement.KansasCity:ACM,1999: 466-474.
[3]LIUJiexue,AOZhuoyun,ParkHH,etal.AnXMLapproachtosemanticallyextractdatafromHTMLtables[C]//DatabaseandExpertSystemsApplications,DEXA2005,LectureNotesinComputerScience3588.Heidelberg:SpringerBerlin,2005:696-705.
[4]YoshidaM,TorisawaK,TsujiiJ.Extractingattributesandtheirvaluesfromwebpages[C]//AntonacopoulosA,HuJianying.WebDocumentAnalysis:ChallengesandOpportunities.Singapore:WorldScientificPublishing,2003: 179-200.
[5]HsiaoShuling,ChouShihchun,ChangLuping.InformationextractionfromHTMLtablesbaseondomainontology[C]//InternationalConferenceonInformationandKnowledgeEngineering-IKE’03.LasVegas:CSREAPress,2003: 70-78.
[6]KimYeonseok,LeeKyongho.ExtractingtableinformationfromtheWeb[C]//DocumentAnalysisSystemsVI. 6thInternationalWorkshop,DAS2004,LectureNotesinComputerScience3163,2004:438-441.
[7] 張凱.基于本體的web信息集成若干關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2004.
[8]LiShijun,PENGZhiyong,LIUMengchi.ExtractionandintegrationinformationinHTMLtables[C]//FourthInternationalConferenceonComputerandInformationTechnology.Nanjing,China,2004:315-320.
[9]TanakaM,IshidaT.Ontologyextractionfromtablesontheweb[C]//ProceedingsoftheInternationalSymposiumonApplicationsonInternetinSAINT-06.Washington:IEEEComputerSociety,2006:284-290.
[10] 楊海濤.復(fù)雜表頭表格的關(guān)系模式表示[J].計算機工程,2011,37(2):49-54.
[11] 賴中華. 基于本體的金融年報語義網(wǎng)自動構(gòu)建方法[D].哈爾濱工業(yè)大學(xué),2008.
[12] 陳競波.基于語義的報表系統(tǒng)模型的應(yīng)用研究[D].遼寧:遼寧工程技術(shù)大學(xué),2010.
[13] 馮曉晨,張曉輝,邸瑞華.基于本體的電子表格數(shù)據(jù)到語義數(shù)據(jù)的轉(zhuǎn)換[J].計算機科學(xué),2011,38(10):145-148.
[14] 尹文生.HTML表格語義脈絡(luò)分析方法:中國,200910272408[P]. 2011-05-04.
[15] 鄧敏,劉揚,程濤,等.地圖綜合中語義質(zhì)量的度量方法研究[J].地理與地理信息科學(xué),2008,24(5):11-15.
[16]ChengT,LIZL.Quantitativemeasuresforsemanticqualityofpolygongeneralization[J].Cartographica,2006,41(2):135-148.
[17] 孫翀,盧炎生.基于層次空間聚類的表語義匯總算法[J].計算機科學(xué),2012,39(3):163-169.
[18] 馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012:516-517.
SEMANTICANALYSISMETHODFORTABLESINCHINESEBASEDONSTRUCTURALFEATURESANDMETA-MODEL
ZhangJiarui1ZhangHan2
1(Department of Computer Science and Technology,Hefei University,Hefei 230601,Anhui, China)2(Department of Life and Medical Science, University of Hertfordshire,Hatfield,AL10 9AB,UK)
InlightoftheactualityoflesscomprehensiveanalysisonsemanticsoftablesinChinesethecurrenttechniqueis,inthispaperwepresentthestructuralfeaturesandmeta-modelbasedsemanticsanalysismethod.Byusingthewell-knownfirst-orderpredicatecalculusfunctionsincludingValue(valuefunction)andNum(numberfunction),aswellascombiningpseudocode,weanalysethesemanticsofseveralkindsofthemostcommontablesinChineseandobtaintheirsurfacesemantics,contextsemantics,restrictsemanticsbetweenmastertableandsub-tables,additionalsemanticsofsubsidiarynatureoftableontabledata,andrelationshipsemanticsbehindtheattributevalue.Resultsofexampleverificationindicatethatthestructuralfeatureandmeta-modelaretheeffectivewayforanalysingthesemanticsoftablesinChinese,theacquiredinformationamountandcategoriesofsemanticsexceedfarthantheexistingmethods.
StructuralfeaturesMeta-modelFirstorderpredicatecalculusfunctionSurfacesemanticsContextsemanticsRestrictionsemanticsAdditionalsemanticsRelationshipsemantics
2014-10-08??萍疾恐行∑髽I(yè)創(chuàng)新基金項目(11C26 213401181);校人才科研基金項目(14RC08)。張家銳,高工,主研領(lǐng)域:軟件建模,信息集成,數(shù)據(jù)挖掘。張涵,本科生。
TP311
ADOI:10.3969/j.issn.1000-386x.2016.03.020