• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于 Neo4j 的語言學術語知識圖譜構(gòu)建研究

      2023-07-23 18:31:25王浩學王興隆
      中國科技術語 2023年3期
      關鍵詞:知識圖譜

      王浩學 王興隆

      摘 要:此研究以《語言學名詞》為數(shù)據(jù)源,使用Neo4j圖數(shù)據(jù)庫,采用自頂向下的圖譜構(gòu)建模式,融合事件理論與事理知識圖譜構(gòu)建方法生成語言學術語知識圖譜,直觀展現(xiàn)語言學術語內(nèi)部的五類屬性值及術語節(jié)點之間的九類關系,提供了一種較為合理的學科知識圖譜構(gòu)建模式,對語言學術語知識圖譜的部分特征進行了分析,并對語言學術語知識圖譜研究進行了總結(jié)和展望。

      關鍵詞:事理圖譜;知識圖譜;語言學術語;學科術語;Neo4j

      中圖分類號:H083文獻標識碼:ADOI:10.12339/j.issn.1673-8578.2023.03.003

      Abstract:Taking? the Chinese Languistic Terms as data source and using the Neo4j graph database, we adopt a topdown graph construction model, and integrate event theory and event evolutionary graph construction methods to generate linguistic terminology knowledge graphs. We hope to visualize the five types of attribute values within linguistic terms and nine types of relationships among term nodes, and provide a more reasonable disciplinary knowledge graph construction model. We also analyze some features of the linguistic terminology knowledge graph, and summarize and outlook the research on linguistic terminology knowledge graph.

      Keywords:event evolutionary graph; knowledge graph; linguistic term; subject term; Neo4j

      0 引言

      知識圖譜的定義由Google公司在2012年提出,被界定為用來提升搜索引擎功能的輔助知識庫。知識圖譜是用圖模型來表述人類認識并構(gòu)建與世界萬物之間關系的技術方式,實質(zhì)上是表述實體與實體之間關系的一個語義網(wǎng),其基本構(gòu)成單元為“實體-關系-實體”的三元組[1],包括實體及其關聯(lián)屬性值對,實體之間通過關系互相連接,從而形成網(wǎng)狀知識結(jié)構(gòu)。

      知識圖譜作為知識管理的重要手段,以通用直觀的方式來檢索和分類數(shù)據(jù),通常服務于網(wǎng)絡大數(shù)據(jù)分析工作,Google、Bing和Yahoo等搜索引擎均已引入知識圖譜。同時,知識圖譜對于梳理某一專業(yè)領域的發(fā)展脈絡也具有重要意義。國家層面也提出“構(gòu)建涵蓋數(shù)十億實體規(guī)模的多源、多學科和多數(shù)據(jù)類型的跨媒體知識圖譜”[2]。在近期研究中,也出現(xiàn)了一些對特定知識領域的知識圖譜研究,如董曉曉等[3]完成的融合知識組織與教育教學原理和規(guī)律來定義實體類型、實體屬性和實體關系的教育領域知識圖譜模式構(gòu)建方法;王松等[4]對知識圖譜的概念、關鍵技術及中醫(yī)藥知識圖譜研究現(xiàn)狀進行了綜述,并對中醫(yī)藥知識圖譜研究的發(fā)展趨勢進行了展望;肖飛龍等[5]基于Neo4j圖數(shù)據(jù)庫構(gòu)建了疾病預防與控制措施知識圖譜,探索疾病預防控制機構(gòu)的數(shù)量、人員等防控措施現(xiàn)狀,為防控體系的完善提出建議。在語言學領域,有學者基于CiteSpace等文獻分析圖譜進行綜述性研究,如陳風華等[6]使用CiteSpace對國內(nèi)核心期刊與國際核心期刊歷年發(fā)表的多模態(tài)話語研究文獻做了知識圖譜演化分析;劉霞等[7]使用CiteSpace對1998年至2013年發(fā)表于CSSCI刊物的語料庫相關文獻進行了量化分析和可視化呈現(xiàn)。此類研究的數(shù)據(jù)來源為期刊網(wǎng)站的文獻數(shù)據(jù),一般只限于某一微觀研究領域,其研究目的主要是分析某一研究熱點并撰寫綜述性文章,并不涉及語言學術語體系圖譜的建立。通過查詢中國知網(wǎng)、萬方等期刊數(shù)據(jù),筆者發(fā)現(xiàn)國內(nèi)暫無研究人員采取圖數(shù)據(jù)庫的方式儲存并展現(xiàn)整個語言學術語的發(fā)展脈絡?!靶g語是對已知事物的命名,是通向未知的基礎,往往成為一個學科乃至整個知識體系建構(gòu)的重要節(jié)點和衍生點。就此而言,一個學科領域的關鍵術語猶如該學科的基因,具有學術繁衍力。”[8]語言學發(fā)展到今天,已經(jīng)具備較為龐大的知識體系,可以說,語言學術語的知識圖譜構(gòu)建具有重要意義。

      基于前述研究現(xiàn)狀,本研究在系統(tǒng)梳理和分析語言學術語發(fā)展脈絡與發(fā)展特征的基礎上,采用領域知識圖譜常用的自頂向下構(gòu)建模式,以《語言學名詞》[9]作為結(jié)構(gòu)化數(shù)據(jù)源,將傳統(tǒng)知識圖譜的節(jié)點和邊的關系進行重構(gòu)和梳理,基于事件理論加以事理邏輯類型,構(gòu)建事理知識圖譜。事理知識圖譜的本質(zhì)為一種以事件為節(jié)點的知識庫,是知識圖譜研究下的一種延伸與演化,其發(fā)展源頭可追溯至20世紀 70 年代的專家系統(tǒng)[10]。本文的語言學術語知識圖譜是以“術語事件”為核心節(jié)點和動力樞紐,以“術語事件屬性值”為次核心節(jié)點和關聯(lián)單元,以“術語事件關系”為演化框架和延伸路線,以“術語事件屬性值關系(屬性)”為結(jié)構(gòu)內(nèi)容和分布網(wǎng)絡的新形態(tài)知識圖譜,由此構(gòu)筑語言學術語空間的演化邏輯鏈條,搭建術語知識的內(nèi)容分布模型?;贜eo4j圖數(shù)據(jù)庫構(gòu)建語言學術語知識圖譜,梳理語言學發(fā)展現(xiàn)狀,并總結(jié)語言學知識圖譜的主要特征,從而深入地探究語言學術語知識圖譜模式構(gòu)建方法,以期推動語言學術語知識圖譜的應用發(fā)展,并嘗試為學科術語知識圖譜提供一種構(gòu)建范式。

      1 相關理論及技術

      1.1 知識圖譜構(gòu)建

      知識圖譜主要可分為兩類:通用知識圖譜和領域知識圖譜,劃分的主要標準是知識數(shù)據(jù)的領域范圍和圖譜構(gòu)建方法的差別。通用知識圖譜注重知識廣度,數(shù)據(jù)一般來源于采用大規(guī)模爬蟲所收集的互聯(lián)網(wǎng)資源,通過命名實體識別及屬性抽取等算法構(gòu)建知識圖譜,一般采用自底向上的構(gòu)建模式。領域知識圖譜又稱為垂直知識圖譜或行業(yè)知識圖譜,它的知識廣度限制在某一特定領域,基于該領域的專業(yè)知識進行構(gòu)造,具有數(shù)據(jù)冗余量少、結(jié)構(gòu)化程度高等特征,一般采用自頂向下的構(gòu)建模式,更具專業(yè)性和精確性[11]。

      本文所研究的語言學術語知識圖譜屬于領域知識圖譜,其自頂向下的構(gòu)建方法要求從頂層概念出發(fā),首先是對領域知識的本體構(gòu)建,在概念層先給出一個清晰合理的結(jié)構(gòu),后續(xù)的知識圖譜構(gòu)建再將實例和數(shù)據(jù)進行對應。本體的構(gòu)建十分重要,決定了最后的知識圖譜是否反映出該領域知識的廣度及精度,是否可以正確體現(xiàn)出該領域的特點和領域間不同概念之間的關系。

      大多數(shù)知識圖譜在視覺上呈現(xiàn)為互相連接的節(jié)點和邊,對應著節(jié)點、關系、屬性三大要素。節(jié)點(Node)即實體對象,分為起始節(jié)點和終止節(jié)點,兩個節(jié)點通過關系進行連接,節(jié)點相對于傳統(tǒng)數(shù)據(jù)庫中的ER圖(Entity Relationship Diagram)中的實體,主要通過實體的標簽信息進行區(qū)別,可以包含或不包含屬性信息(屬性信息是描述實體的信息)。關系(Relationship)在圖數(shù)據(jù)庫中的呈現(xiàn)形式即連接節(jié)點的“邊”,用于表示實體與實體間的聯(lián)系。屬性(Property)通過KeyValue(鍵值對)表示,包含節(jié)點或者關系內(nèi)部的某些特征信息。

      1.2 圖數(shù)據(jù)庫Neo4j與Pyneo2

      圖數(shù)據(jù)庫是一種NoSQL數(shù)據(jù)庫,基于圖形理論,表現(xiàn)客觀世界中的實體與實體之間、實體各屬性之間的關系[12]。在遍歷圖進行本地讀取這方面,圖形數(shù)據(jù)庫的表現(xiàn)非常出色,同時還能使用各種數(shù)據(jù)圖形模型及其數(shù)據(jù)擴展[13]。語義關系復雜、數(shù)據(jù)體量較大的數(shù)據(jù)常使用這種方式。相比于傳統(tǒng)的關系型數(shù)據(jù)庫,圖數(shù)據(jù)庫更適合作為知識圖譜的存儲媒介,用于圖數(shù)據(jù)庫處理的Cypher圖形查詢語言,可實現(xiàn)關聯(lián)查詢和圖算法,更有利于支持查詢和價值挖掘[14]。主要的圖數(shù)據(jù)存儲系統(tǒng)包括RDF圖模型和屬性圖模型。前者以RDF(Resource Description Framework)三元組為存儲對象。RDF由節(jié)點和邊組成,節(jié)點表示實體/資源或者屬性,邊表示實體和實體之間的關系以及實體和屬性的關系。RDF圖模型具有較成熟的標準體系和標準查詢語言SparQL,常見的數(shù)據(jù)庫有Jena和Virtuoso等。屬性圖是目前主流圖數(shù)據(jù)庫選擇的數(shù)據(jù)模型,更確切地說是帶標簽的屬性圖(LabeledProperty Graph),它的節(jié)點和邊都可以定義屬性[15]。常見的圖數(shù)據(jù)庫有Neo4j、FlockDB、GraphDB等類型,其中,開源的Neo4j以其高性能、高穩(wěn)定性、可擴展性強等優(yōu)點成為當前應用最為廣泛的原生圖數(shù)據(jù)庫之一[16]。Neo4j采用原生圖存儲和處理數(shù)據(jù),反映了關系網(wǎng)絡中實體聯(lián)系的本質(zhì),在查詢中能以快捷的路徑返回關聯(lián)數(shù)據(jù),表現(xiàn)出高效的查詢性能;支持非結(jié)構(gòu)化數(shù)據(jù)的存儲與大規(guī)模數(shù)據(jù)的增長,能很好地適應需求的變化,具有很大靈活性。此外,它還可以對實體間復雜的關系進行分析與推理,支持邏輯語言分析與面向約束的推理。Neo4j擁有自己的查詢語言——Cypher語言,它是一種面向圖分析、聲明式、表達能力強的描述性圖形查詢語言[17],對用戶十分友好,操作簡便,主要使用的關鍵字有create(主要用于創(chuàng)建圖形節(jié)點、關系及屬性)、match(在已有圖形數(shù)據(jù)庫中匹配目標信息)、where(是match功能的條件)、return(完成匹配后,返回指定值),基于這些查詢語句實現(xiàn)對圖形數(shù)據(jù)的分析與推理。Neo4j以美觀清晰的圖結(jié)構(gòu)形式存儲知識數(shù)據(jù),具有節(jié)點和關系兩種基本類型,每個節(jié)點表示一個實體,一個節(jié)點可以存在多個關系、屬性,并由此與其他節(jié)點產(chǎn)生關聯(lián)。關系指兩個節(jié)點之間的關系,用戶可根據(jù)頂層要求自主設計關系類型[12]。

      Py2neo是一個客戶端庫和工具包,Python應用程序與命令行能夠使用該庫與Neo4j建立連接。Py2neo封裝了官方驅(qū)動程序,添加了對 HTTP的支持、更高級別的API、OGM、管理工具、交互式控制臺,用于Pygments 的CypherLexer 以及許多其他功能。Py2neo包提供了一系列的Neo4j解析和存儲功能,利用Py2neo包,可以在計算機內(nèi)存中建立與存儲Neo4j的模型。通過生成節(jié)點與關系、過濾重復的數(shù)據(jù),最終可生成Neo4j圖形數(shù)據(jù)庫[18]。本研究使用Py2neo構(gòu)建Neo4j模型,并進行Neo4j數(shù)據(jù)庫的增刪查改等操作。

      2 構(gòu)建語言學術語知識圖譜

      2.1 構(gòu)建思路

      語言學術語多為名詞性質(zhì),但是其中隱藏的事件名詞具有動詞性質(zhì),是推動術語之間關系動態(tài)化、術語圖式化的核心驅(qū)動,應該重點和突出刻畫。首先,以語言學學科的[理論/學說/方法]為核心節(jié)點和動力樞紐,架構(gòu)起術語知識圖譜的網(wǎng)絡框架和演化模型。這樣更符合語言學術語的思維習慣和認知規(guī)律。其次,以[理論/學說/方法]的存續(xù)時間、存續(xù)地域、代表人物、關鍵詞(高頻/基礎/核心術語)、觀點為其邏輯主體和主要內(nèi)容,編制成術語知識圖譜的關聯(lián)網(wǎng)絡和關聯(lián)節(jié)點。最后,以[理論/學說/方法]的關鍵詞及它們之間的關系所構(gòu)成的觀點(三元組:關鍵詞術語-關系-關鍵詞術語)為邏輯單元和關鍵信息,構(gòu)成術語知識圖譜的內(nèi)容實體和知識鏈條。上述三點,和事件理論中的“事件”“事件關系”“事件和事件元素關系”“事件元素”“事件元素關系”存在邏輯順應和功能對應。

      基于上述思路,語言學術語知識圖譜中的三元組主要包含以下三個要素:

      (1)術語事件:本研究中特指語言學術語中蘊含的理論/學說/方法。它們的產(chǎn)生和存續(xù)行為及核心凝聚力和“事件”近似,因此稱之為“(語言學)術語事件”,在知識圖譜中體現(xiàn)為眾多節(jié)點;

      (2)關系:各個理論/學說/方法之間的演化模式和事件鏈條,在知識圖譜中體現(xiàn)為連接節(jié)點的邊;

      (3)屬性值:各個理論/學說/方法的存續(xù)時間、存續(xù)地域、代表人物、關鍵詞、觀點等的具體取值。

      圖1展示了本研究中語言學術語知識圖譜的構(gòu)建流程:對《語言學名詞》中的知識數(shù)據(jù)進行命名實體、關系、屬性的知識抽取工作后,對相關內(nèi)容進行對齊,實現(xiàn)知識融合,之后基于Neo4j實現(xiàn)圖譜可視化,進行知識圖譜特征分析等知識應用工作。

      2.2 知識來源

      本研究中知識圖譜的結(jié)構(gòu)化數(shù)據(jù)來源于《語言學名詞》?!墩Z言學名詞》是一部結(jié)構(gòu)嚴謹?shù)男g語詞典,內(nèi)容是由全國科學技術名詞審定委員會審定公布的語言學名詞,包括理論語言學、文字學、語音學、語法學、語義詞匯學、辭書學、方言學、修辭學、音韻學、訓詁學、計算語言學、社會語言學、民族語言學共13部分,收詞2939條[19],正文按中文名所屬學科相關的概念體系和知識系統(tǒng)排列,定義給出其基本內(nèi)涵,注釋則簡明扼要闡釋其內(nèi)涵,中文名后列出對應的英文名。本研究將其中的術語條目作為主要實體,并從術語條目的解釋內(nèi)容中提取出術語關系及屬性值關系。

      2.3 實體抽取與對齊

      本研究基于《語言學名詞》中的2939條術語條目,去除部分非典型術語條目,如“匹配”等,以術語條目作為知識圖譜主節(jié)點,以術語事件為中心,構(gòu)建語言學術語知識體系。在得到節(jié)點之后,需要進行實體對齊,即解決“名異實同”問題,檢查知識圖譜中的節(jié)點是否采用不同詞匯指稱同一概念,解決圖譜數(shù)據(jù)中的實體混淆、實體歧義等問題。例如“轉(zhuǎn)換生成學派”又稱“生成語法學派”,如果不進行消歧去重,那么在檢索過程中會產(chǎn)生冗余和遺漏現(xiàn)象,故實體對齊是知識圖譜構(gòu)建過程中必不可少的環(huán)節(jié)之一。因《語言學名詞》是一部術語詞典,詞典性質(zhì)本身已基本避免術語重復的情況,數(shù)據(jù)冗余量小,對于存在的少量“名異實同”的術語及闡釋,本研究利用人工校對的方式將近似表達統(tǒng)一為相同實體。

      2.4 關系及屬性值抽取與對齊

      知識圖譜的本質(zhì)是語義網(wǎng)絡,節(jié)點與節(jié)點之間需要用“關系”來連接。關系是使知識圖譜形成網(wǎng)絡的關鍵所在,本研究在語言學術語知識圖譜的構(gòu)建過程中,采用了事理邏輯類型來定義節(jié)點關系。事理圖譜是由Yang等[20]最先提出的,是一個描述事件之間演化規(guī)律和模式的事理邏輯知識庫。在層次結(jié)構(gòu)上,事理知識圖譜是一個有向圖,其中節(jié)點代表事件,有向邊代表事件之間的邏輯關系[21]。語言學術語具備清晰的發(fā)展邏輯,適合于事理圖譜的構(gòu)建,并可以展示語言學術語的發(fā)展變化。本研究歸納了語言學術語之間的九類實體關系:因果、條件、種屬、構(gòu)成、繼承、并發(fā)、對立、類似、互補,能夠揭示語言學術語的演化規(guī)律與邏輯,如表1所示。

      上述九類關系是從術語外部出發(fā)的關系。術語從內(nèi)部看,由眾多屬性構(gòu)成,屬性是術語內(nèi)部的構(gòu)成要素,語言學術語發(fā)生于一定的時空范圍內(nèi),對于某一個術語事件,其實體本身大多數(shù)具備時間、地域、代表人物、關鍵詞、觀點等屬性值,本研究根據(jù)語言學術語所包含的重要知識特征,定義了五個屬性值,用以從術語事件內(nèi)部發(fā)掘術語內(nèi)在特征之間的規(guī)律,如表2所示。

      屬性值對齊指針對同一屬性的屬性值存在多種表達形式的問題,設置統(tǒng)一的標注規(guī)則,減少數(shù)據(jù)冗余,提高知識表達能力。如時間屬性中“20世紀中期”與“20世紀50年代”的屬性值表述不同,但所指概念基本相同,此類問題為屬性值冗余問題。就本次研究而言,屬性值冗余問題主要存在于時間和人物屬性,采取統(tǒng)一的格式規(guī)則對這兩種屬性進行對齊,如表3所示。

      2.5 知識存儲及可視化實現(xiàn)

      本研究采用自頂向下的構(gòu)建模式,對節(jié)點、屬性、關系的相關類別進行頂層設計和格式規(guī)范后,進行《語言學名詞》術語收集和三元組構(gòu)建工作。最終匯總得到6211條三元組,兩端的實體(屬性)由中間的關系連接,如表4所示。

      利用Py2neo及Cypher語法將csv文件導入Neo4j數(shù)據(jù)庫中,并進行可視化圖譜展示,因圖譜體量龐大,故節(jié)選部分節(jié)點關系作為示例,如圖2所示。在Neo4j中,以“共時語言學”父節(jié)點為例,其“人物”關系的屬性值為“索緒爾”,“地點”關系的屬性值為“瑞士”。 同時該節(jié)點以“歷史比較語言學節(jié)點”為“條件”關系,與“歷時語言學”為“對立”關系。通過 Neo4j 中層次化的圖結(jié)構(gòu)可以將語言學術語中的關系與屬性直觀地展示出來。

      知識圖譜具有豐富的檢索功能,基于此知識圖譜,可以從多種角度梳理語言學術語的發(fā)展脈絡,更清晰地了解語言學的發(fā)展歷史及現(xiàn)狀。本研究也在后文以某些宏觀特征進行簡單分析。

      3 語言學術語知識圖譜內(nèi)容分析與討論

      3.1 整體特征分析

      (1)數(shù)量龐大,涵蓋面廣。語言學是一門歷史悠久的學科,其術語涉及的知識范圍也很龐大,本次研究共生成6263組三元組,上至傳統(tǒng)的小學,下至新興的交叉學科,跨度廣,知識精細程度高,是一個較為系統(tǒng)全面的領域知識圖譜。該圖譜的構(gòu)建也有助于后期拓展語言學術語研究的深度和廣度。

      (2)層次清晰,結(jié)構(gòu)性強。本次研究的數(shù)據(jù)源《語言學名詞》將語言學術語劃分為理論語言學、文字學、語音學等13個部分,每一部分再拆分為小分支,如第二部分“文字學”所轄分支有總論、漢字的起源和發(fā)展、漢字的結(jié)構(gòu)、漢字的形體、漢字系統(tǒng)內(nèi)部關系、漢字政策、應用研究等。每一部分的小分支數(shù)量不固定,但條目大約控制在300條之內(nèi),是知識圖譜構(gòu)建過程中可以直接使用的結(jié)構(gòu)性數(shù)據(jù)。

      (3)規(guī)范性強。語言學術語本身作為學術研究的產(chǎn)物,具有準確嚴謹?shù)奶攸c。如“深層結(jié)構(gòu)”“表層結(jié)構(gòu)”“層次分析法”等在理論誕生之初就已經(jīng)定義完備,具備不可更改和不可替換的特質(zhì)。在《語言學名詞》的術語條目闡釋中,往往先給出其上位概念,后指出其含義,最后說明其影響。這種較為固定的術語闡釋模式也為節(jié)點、關系和屬性的提取提供了便利,具有較強的規(guī)范性。

      3.2 局部特征分析

      基于Neo4j的Cypher語法,可以根據(jù)檢索需求篩選需要的知識數(shù)據(jù),從而發(fā)現(xiàn)語言學術語的某些發(fā)展規(guī)律,本研究僅以地點屬性為例簡要說明檢索過程。如對于術語地點屬性值進行全圖檢索,輸入Cypher命令:MATCHp=()[r:′地點′]>()RETURNpLIMIT300,可以得到地點屬性的部分節(jié)點,其中比對圖表可得“美國”在術語地點屬性值中占有最高的頻次,如圖3所示??梢娫谡Z言學的發(fā)展中,美國具有最多的術語產(chǎn)出。

      3.3 語言學術語事理動態(tài)關系探討

      語言學術語知識圖譜的組織和架構(gòu),既不能與通用知識圖譜一樣,偏重[實體-關系-實體]和[實體-屬性-屬性值],忽略宏觀的、大顆粒的知識演化框架,也不能與事理圖譜一樣,偏重[事件-關系-事件],忽略微觀、細顆粒的知識關聯(lián)形態(tài)。應充分融合靜態(tài)知識圖譜和動態(tài)事理圖譜的構(gòu)造特征和存在模式,構(gòu)建基于“靜態(tài)-動態(tài)”融合特征的語言學術語知識圖譜。雖然術語多是名詞性質(zhì)的,但是其中隱藏的事件名詞具有動態(tài)性質(zhì),它們是推動術語之間關系動態(tài)化、術語圖式化的核心驅(qū)動,應該重點和突出刻畫。人類的命題記憶是以“事件”為存儲單位的,存儲的是組成事件的概念及其之間的關系以及事件與其之間的關系[22]。以事件作為知識的基本單元更能反映知識,特別是知識的動態(tài)性,從認知科學的角度來看,事件更符合人類的理解與思維習慣。

      本文正是采用事理邏輯的類型來構(gòu)建節(jié)點間的關系,并且邏輯類型所構(gòu)成的三元組又恰好成為術語事件的“觀點”屬性值,如圖4所示,轉(zhuǎn)換生成學派的“觀點”屬性指向“深層結(jié)構(gòu)-決定-表層結(jié)構(gòu)”三元組。某一觀點內(nèi)部已構(gòu)成三元組,同時以一個整體作為更高層級三元組的構(gòu)成要素,這顯示了語言學術語發(fā)展的動態(tài)關系和事理邏輯,較小層級的節(jié)點關系層層嵌套,推進大節(jié)點關系的構(gòu)成與發(fā)展,并最終推動語言學術語的發(fā)展。

      4 結(jié)語

      本文展現(xiàn)了語言學術語知識圖譜的構(gòu)建過程,并最終實現(xiàn)了知識圖譜的呈現(xiàn),所構(gòu)建的較為完備的語言學術語知識圖譜,填補了學界對語言學知識圖譜的研究空白,可以使用此圖譜查詢數(shù)據(jù)以發(fā)現(xiàn)語言學術語的演變規(guī)律。其次本文提供了一種“動態(tài)-靜態(tài)”的術語圖譜構(gòu)建模式,該構(gòu)建模式適用于大多數(shù)學科術語圖譜模式的構(gòu)建,具備一定的可遷移性。該方法也有助于構(gòu)建一種從詞典的單向封閉主義轉(zhuǎn)向“詞典-用戶”的雙向融合互動的融媒體辭書[23]。此外基于Neo4j的功能,該圖譜可以外接至網(wǎng)站接口,實現(xiàn)面向用戶的前端圖譜網(wǎng)頁。

      本次知識圖譜構(gòu)建中,還存在不足。首先,參考有限。由于目前還沒有中國學者對語言學術語知識圖譜進行構(gòu)建和研究,本文只能參考與本項研究的目的相類似的知識圖譜研究,總體來說技術上還不成熟。雖然獲得了相對完整的語言學術語知識圖譜體系,但在關系準確率方面還存在問題,一些孤立節(jié)點缺乏與其他術語的聯(lián)系,需要在后期研究中進一步挖掘術語之間的深度關系。其次,數(shù)據(jù)來源較為單一。本文的語言學術語知識渠道依賴于《語言學名詞》,所以知識數(shù)量具有局限性,抽取的知識數(shù)量不夠,圖譜精度還有待提高,在后期研究中將會補充其他語言學百科類書籍及相關文獻作為數(shù)據(jù)源。再次,數(shù)據(jù)更新能力較差。本研究的數(shù)據(jù)源《語言學名詞》是2011年出版的,此后新出現(xiàn)的語言學術語未被納入,數(shù)據(jù)具有滯后性。針對此問題,后期將會加入爬蟲框架從各種語言學學術網(wǎng)、會議網(wǎng)、語言學者博客、百度百科、維基百科等提取最新語料,并基于相關模型進行命名實體識別和自動特征學習。

      參考文獻

      [1] 劉嶠, 李楊, 段宏, 等. 知識圖譜構(gòu)建技術綜述[J]. 計算機研究與發(fā)展, 2016, 53(3): 582-600.

      [2] 國務院關于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[A]. 中華人民共和國國務院公報, 2017(22): 7-21.

      [3] 董曉曉, 周東岱, 黃雪嬌, 等. 學科核心素養(yǎng)發(fā)展導向下教育領域知識圖譜模式構(gòu)建方法研究[J]. 電化教育研究, 2022, 43(5): 76-83.

      [4] 王松, 李正鈞, 楊濤, 等. 中醫(yī)藥知識圖譜研究現(xiàn)狀及發(fā)展趨勢[J]. 南京中醫(yī)藥大學學報, 2022, 38(3): 272-278.

      [5] 肖飛龍, 張爽, 胡志凌. 基于Neo4j的疾病預防與控制知識圖譜研究[J]. 電子技術與軟件工程, 2021(22): 180-182.

      [6] 陳風華, 弗朗西斯科·維勒索. 多模態(tài)話語研究的知識圖譜演化分析:基于國內(nèi)外核心期刊的研究[J]. 華僑大學學報(哲學社會科學版), 2017(6): 154-166.

      [7] 劉霞, 許家金, 劉磊. 基于CiteSpace的國內(nèi)語料庫語言學研究概述(1998—2013)[J]. 語料庫語言學, 2014, 1(1): 69-77,112.

      [8] 趙世舉, 鄭蒙. 術語與科技話語能力建設:法國的實踐及啟示[J]. 語言戰(zhàn)略研究, 2022, 7(5): 58-68.

      [9] 全國科學技術名詞審定委員會. 語言學名詞[M]. 北京: 商務印書館, 2011.

      [10] 白璐. 面向政治領域的事理演化圖譜構(gòu)建[D]. 北京:國際關系學院, 2020:19.

      [11] 付雷杰, 曹巖, 白瑀, 等. 國內(nèi)垂直領域知識圖譜發(fā)展現(xiàn)狀與展望[J]. 計算機應用研究, 2021, 38(11): 3201-3214.

      [12] 孫敏敏, 毛雪岷. 基于Neo4j的肺部疾病知識圖譜構(gòu)建[C]//第十五屆(2020)中國管理學年會論文集. 中國管理現(xiàn)代化研究會,復旦管理學獎勵基金會, 2020: 25-30.

      [13] POKORN J. Functional querying in graph databases[J]. Vietnam Journal of Computer Science, 2018, 5(2): 95-105.

      [14] JOUILI S, VANSTEENBERGHE V. An Empirical Comparison of Graph Databases[C]//2013 International Conference on Social Computing. Alexandria, VA, USA: IEEE, 2013: 708-715.

      [15] 王力, 韓紅旗, 高雄, 等. 關系數(shù)據(jù)庫向Neo4j圖數(shù)據(jù)庫轉(zhuǎn)化的應用研究:以工程科技詞系統(tǒng)為例[J]. 中國科技資源導刊, 2021, 53(5): 55-65.

      [16] FLEMING J, LEVY S, NAG P, et al. Graph database system and method for facilitating financial and corporate relationship analysis[P]. United States Patent 8674993,2014-03-18.

      [17] 張維沖, 王芳, 黃毅. 基于圖數(shù)據(jù)庫的貴州省大數(shù)據(jù)政策知識建模研究[J]. 數(shù)字圖書館論壇, 2020(4): 30-38.

      [18] 蘇翔. 基于知識圖譜的“數(shù)據(jù)結(jié)構(gòu)”教學資源平臺的構(gòu)建研究[D]. 北京:北京林業(yè)大學, 2019:17.

      [19] 《語言學名詞》出版[J]. 語文研究, 2012,122(1): 45.

      [20] YANG C C, SHI X. Discovering event evolution graphs from newswires[C]//Proceedings of the 15th international conference on World Wide WebWWW06. Edinburgh, Scotland: ACM Press, 2006: 945.

      [21] 朱福勇, 劉雅迪, 高帆, 等. 基于圖譜融合的人工智能司法數(shù)據(jù)庫構(gòu)建研究[J]. 揚州大學學報(人文社會科學版), 2019, 23(6): 89-96.

      [22] 仲兆滿, 劉宗田, 李存華. 事件本體模型及事件類排序[J]. 北京大學學報(自然科學版), 2013, 49(2): 234-240.

      [23] 王興隆, 亢世勇. 新時代融媒體漢語學習詞典的融合特征及其優(yōu)化路徑:以《當代漢語學習詞典》為例[J]. 語言文字應用, 2021(4): 132-141.

      作者簡介:王浩學(2000—),男,廣西大學文學院碩士研究生,研究方向為實驗語音學、計算語言學,主持國家級大學生創(chuàng)新項目1項、廣西研究生創(chuàng)新項目1項、山東省語言資源開發(fā)與應用重點實驗室開放課題1項,發(fā)表CSSCI論文1篇。通信方式:wanghx@st.gxu.edu.cn。

      王興隆(1982—),男,魯東大學文學院副教授,國家語委漢語辭書研究中心、山東省語言資源開發(fā)與應用重點實驗室專職研究員。主要研究方向為二語學習、詞匯學與詞典學。主持各類科研項目11項,包括國家語言文字工作委員會重點項目、全國科學技術名詞審定委員會項目、教育部語言合作中心項目、山東省社會科學規(guī)劃項目等。在《外語教學與研究》《語言文字應用》等期刊(包括CSSCI期刊)、論文集發(fā)表論文20余篇。獲山東省高校人文社科優(yōu)秀成果一等獎1項,主編論文集2部。通信方式:wangxinglong100@163.com。

      猜你喜歡
      知識圖譜
      國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
      國內(nèi)信息素養(yǎng)研究的知識圖譜分析
      國內(nèi)圖書館嵌入式服務研究主題分析
      國內(nèi)外政府信息公開研究的脈絡、流派與趨勢
      近十五年我國小學英語教學研究的熱點、問題及對策
      基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
      智富時代(2016年12期)2016-12-01 16:28:41
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      國內(nèi)酒店品牌管理研究進展的可視化分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術發(fā)展
      專家知識圖譜構(gòu)建研究
      蛟河市| 册亨县| 冀州市| 尉氏县| 增城市| 井冈山市| 旬阳县| 本溪| 上杭县| 阜阳市| 灵川县| 施秉县| 韩城市| 城步| 五峰| 濮阳市| 筠连县| 平果县| 安康市| 葵青区| 双城市| 五大连池市| 宝鸡市| 富锦市| 故城县| 和硕县| 乌兰浩特市| 威海市| 皋兰县| 海兴县| 钦州市| 南和县| 招远市| 平果县| 宿迁市| 民勤县| 镇赉县| 昌都县| 中卫市| 尉犁县| 金乡县|