• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于概率模型與人工智能的下一代數(shù)據(jù)分類與鏈接創(chuàng)新研究

      2024-12-01 00:00:00王森張志霄
      電腦知識與技術(shù) 2024年31期

      摘要:文章提出并驗證了一種基于概率模型與人工智能的下一代數(shù)據(jù)分類與鏈接方法。該方法通過多級聚類過程,結(jié)合概率模型和機器學(xué)習(xí)技術(shù),有效處理缺失值,提高數(shù)據(jù)鏈接準(zhǔn)確性,并生成完整實體記錄。實驗結(jié)果表明,該方法顯著優(yōu)于傳統(tǒng)概率模型方法。該框架具有可擴(kuò)展性和成本效益,為不同領(lǐng)域的數(shù)據(jù)分析提供有力支持。

      關(guān)鍵詞:大數(shù)據(jù);分類;數(shù)據(jù)鏈接;機器學(xué)習(xí);概率模型

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2024)31-0071-03

      開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID) :

      0 引言

      全球數(shù)據(jù)量爆炸式增長,覆蓋醫(yī)療、個人、行政、執(zhí)法及新聞報道等多個領(lǐng)域,對數(shù)據(jù)分析技術(shù)提出了巨大挑戰(zhàn)。數(shù)據(jù)分類與鏈接成為連接不同數(shù)據(jù)源、提取有價值信息的關(guān)鍵。傳統(tǒng)方法如紐科姆模型[1]和Fellegi-Sunter模型[2-3]在處理大規(guī)模、多源、異構(gòu)數(shù)據(jù)時存在可擴(kuò)展性差、定制化強、缺失值處理困難等問題。為此,本文提出一種基于概率模型與人工智能[4]的下一代數(shù)據(jù)分類與鏈接方法,利用機器學(xué)習(xí)技術(shù)智能提取關(guān)鍵屬性,有效處理缺失值,構(gòu)建高效的字符串匹配算法,以提高數(shù)據(jù)鏈接的準(zhǔn)確性和效率,并滿足廣泛用戶群體的需求。

      1 數(shù)據(jù)鏈接模型

      研究問題之前,有必要探討一下目前最廣泛使用的兩種概率數(shù)據(jù)鏈接模型。

      1.1 紐科姆模型

      紐科姆的模型基于兩個基本但重要的決策規(guī)則。首先,一個值(如姓氏)在匹配和不匹配中出現(xiàn)的相對頻率可以用于計算與兩個記錄匹配相關(guān)的權(quán)重或分?jǐn)?shù)。第二種是根據(jù)姓氏、名字、年齡等不同字段計算的分?jǐn)?shù)。它們可以相加得到一個總體匹配分?jǐn)?shù)。更具體地說,重點是如下所示的優(yōu)勢比:

      log2 ( pL ) - log2 ( pF ) (1)

      式中:pL 為匹配(鏈接)之間的相對頻率,pR 為不匹配(非鏈接)之間的相對頻率。由于真實的匹配狀態(tài)通常是未知的,因此引入了上述比值比的近似。

      log2 ( pR ) - log2 ( pR )2 (2)

      式中:pR 是特定字符串(名字、首字母、出生地等)出現(xiàn)的頻率,當(dāng)一個大的宇宙文件與其自身匹配時,第二個比率提供了一個非常接近的第一個比率。

      1.2 Fellegi and Sunter 模型

      Fellegi和Sunter在1969年引入了記錄聯(lián)動的正式數(shù)學(xué)基礎(chǔ)。所提出的方法是通過考慮兩個文件的叉乘所產(chǎn)生的所有可能的記錄來匹配兩個文件A和B。其思想是將乘積空間A X B中的對分類為匹配集M和不匹配集U。費萊吉和桑特利用紐科姆引入的嚴(yán)格概念,提出了這種形式的概率比率:

      式中:γ 是Γ給出的比較空間中的任意協(xié)議模式。例如,比較空間可能由八個模式組成,表示三個屬性(如人名、街道名稱和城市)的簡單一致或不一致(二進(jìn)制值)。比值R或R的任意單調(diào)遞增函數(shù),如自然對數(shù),稱為匹配權(quán)值(分?jǐn)?shù))[5]。

      2 新的數(shù)據(jù)鏈接模型和通用框架

      R = P (γεΓ|M )/P (γεΓ|U ) (3)

      如前所述,下一代數(shù)據(jù)鏈接系統(tǒng)必須能夠處理與不同問題域相關(guān)的任務(wù)。因此,系統(tǒng)必須是可擴(kuò)展的,并提供通用功能,以允許用戶以最小的修改在其基礎(chǔ)上構(gòu)建特定于應(yīng)用程序的需求。為此,必須設(shè)計一個框架,其中包含解決前面提到的需求實現(xiàn)的泛型類以及允許用戶與框架交互的應(yīng)用程序編程接口(API)。系統(tǒng)的基本設(shè)計示意圖如圖1所示。

      該框架需要包含用于諸如數(shù)據(jù)清理和標(biāo)準(zhǔn)化、分類和預(yù)測、NLP、字符串比較和鏈接等任務(wù)的類。API 將為用戶提供一個與框架交互的接口,并使用框架中的類來實現(xiàn)數(shù)據(jù)鏈接應(yīng)用程序。這些類可能有不同的實現(xiàn),以滿足各種各樣的需求,并允許用戶測試不同的技術(shù),提高鏈接任務(wù)的準(zhǔn)確性。下一代數(shù)據(jù)鏈接應(yīng)用程序的一般流程如圖2所示。

      為了驗證對使用概率和人工智能例程的下一代數(shù)據(jù)鏈接模型的建議和建議,構(gòu)建了一個原型。然而,在這一點上,圖2所示的文本分析任務(wù)的例程是不完整的。圖2所示的其他任務(wù)的例程和類是可用的,盡管有足夠的改進(jìn)和進(jìn)一步添加的空間。下面將介紹一個建立在框架之上的示例應(yīng)用程序,并比較僅由概率例程產(chǎn)生的結(jié)果和由數(shù)據(jù)鏈接的新模型產(chǎn)生的結(jié)果。

      該框架提供了實現(xiàn)前文中描述的需求的類,這些需求是下一代數(shù)據(jù)分類和鏈接系統(tǒng)所追求的。API為用戶提供了這種功能修改和微調(diào)類的功能,以實現(xiàn)特定于應(yīng)用程序的需求。其思想是提供一個可以輕松擴(kuò)展到不同問題領(lǐng)域的系統(tǒng)。

      預(yù)期框架內(nèi)提供的類別將促進(jìn)這一進(jìn)程,并由用戶根據(jù)其具體應(yīng)用要求進(jìn)行必要調(diào)整。

      3 測試應(yīng)用程序

      作為一項測試,在該框架上構(gòu)建了一個應(yīng)用程序,用于鏈接與侵犯人權(quán)行為有關(guān)的報紙文章的數(shù)據(jù)。測試中,該數(shù)據(jù)集包含1 500條記錄,涉及從不同報紙收集的400個不同事件,其中一些記錄包含某些屬性的缺失值。任務(wù)是識別那些記錄屬于同一事件的數(shù)據(jù)源匯總統(tǒng)計實體,利用屬于同一事件的多條記錄的信息,生成一條記錄來表示該事件。根據(jù)結(jié)果,對部分屬性的缺失值進(jìn)行了替換,最后進(jìn)行聚類和鏈接。字典永久存儲在數(shù)據(jù)集中找到的任何新單詞,以便將來按字母順序引用。字典被實現(xiàn)為一個二叉搜索樹,每當(dāng)找到一個新詞時,它就被分配到搜索樹的正確位置,從而始終保持按字母順序排序的單詞列表。接著,對數(shù)據(jù)集進(jìn)行分析,以找到可用于預(yù)測數(shù)據(jù)集缺失值的屬性之間的任何關(guān)系。作為此過程的第一步,識別具有大量缺失值的屬性。接下來,需要確定一組最優(yōu)的屬性,這些屬性最好描述感興趣的特定屬性的行為。這是通過使用基于GAs的隨機特征選擇技術(shù)來實現(xiàn)的。候選特征子集使用遺傳算法生成,而最佳子集的選擇基于測試數(shù)據(jù)集的預(yù)測精度。采用三層人工神經(jīng)網(wǎng)絡(luò)計算預(yù)測精度,對于每個候選子集,使用反向傳播學(xué)習(xí)規(guī)則以監(jiān)督模式訓(xùn)練人工神經(jīng)網(wǎng)。訓(xùn)練和測試數(shù)據(jù)集是使用初始數(shù)據(jù)集自動生成的。作為一個案例,對犯罪者類別缺失值的預(yù)測如下所述。

      隨機特征選擇技術(shù)以及比較這些特征集的預(yù)測準(zhǔn)確性的例程表明,可以使用事件類型和受害者數(shù)量來預(yù)測犯罪者類別。利用這些信息,設(shè)計了一個三層神經(jīng)網(wǎng)絡(luò),輸入層有2個節(jié)點,隱藏層和輸出層各有5個節(jié)點,如圖3所示,用于預(yù)測犯罪者類別的缺失值。首先,使用犯罪者類別值可用的記錄以監(jiān)督模式訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)。接下來,使用訓(xùn)練好的網(wǎng)絡(luò)預(yù)測缺失值。例如,如果有5個主要的犯罪者類別,那么輸出層中的5個神經(jīng)元就足以唯一地識別每個類別。如果有5個以上的類,則輸出值的組合可以清楚地識別這些類。

      一旦缺失值的預(yù)測完成,就可以執(zhí)行實體的聚類。在聚類過程中考慮屬性的順序可能取決于根據(jù)其影響為每個屬性分配的權(quán)重。為了進(jìn)行聚類,該框架提供了支持k-最近鄰分類(kNN)、k-means 聚類、SOM等功能。然而,為了在聚類中使用SOM,需要有一個訓(xùn)練數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò),以便以后可以對新實體進(jìn)行分類。對于這個特殊的應(yīng)用程序,沒有訓(xùn)練數(shù)據(jù)集,其中的實體已經(jīng)被分類到組中。

      因此,作為一種方法,本文使用了kNN。在kNN 方法中,每個實體根據(jù)其字符串屬性和數(shù)字屬性的編碼技術(shù)排列在二維映射中,如圖4所示。對二維排列的實體使用kNN算法,利用字符串型屬性和數(shù)字型屬性得到的兩個編碼值對其進(jìn)行聚類。

      圖3所示,兩層神經(jīng)網(wǎng)絡(luò)有兩個輸入節(jié)點,隱藏層和輸出層各有5個節(jié)點。輸入節(jié)點接受事故類型和受害者人數(shù)的值,并根據(jù)訓(xùn)練預(yù)測犯罪者的類別。第二層節(jié)點的虛線表示每個節(jié)點連接到輸出層的所有5個節(jié)點。犯罪者類別是通過分析5個輸出節(jié)點的輸出來確定的,最后需要處理分組到單個集群中的實體的實例,以便生成提供單個實體的完整圖像的單個實例?;跒閷嶓w的每個實例(每個記錄)的字符串類型屬性和數(shù)字類型屬性提取的兩個編碼。

      圖4所示,通過比較每個實體的單個屬性生成的集群的卡通插圖,第一級集群是通過比較所有實體的單個屬性找到匹配項并將它們分組在一起來生成的。接下來,在第一級集群中,比較第二個屬性的值以生成第二級集群??紤]屬性的順序可以基于分配給它們的權(quán)重。

      4 結(jié)果與討論

      為了強調(diào)新方法和數(shù)據(jù)鏈接框架的使用和適用性,下面將介紹上述數(shù)據(jù)集聚類任務(wù)的結(jié)果,并就所提出的方法的結(jié)果與單獨使用概率模型的結(jié)果之間的準(zhǔn)確性進(jìn)行比較。表2總結(jié)了用于在數(shù)據(jù)集中查找鏈接的3種不同方法及其準(zhǔn)確性。數(shù)據(jù)集含1 500條記錄,涉及400個事件,存在多種缺陷。方法1(概率模型)識別了297個實體,但錯誤率高。方法2通過特定聚類算法提升了準(zhǔn)確性至383個正確實體,但仍有誤歸類。方法3進(jìn)一步優(yōu)化,識別390個實體。

      方法1的低準(zhǔn)確率和高錯誤率可能源于數(shù)據(jù)集的高缺陷率,以及方法1沒有完全具備處理這種情況的技術(shù)。僅涉及概率模型的方法在存在大量缺失值時可能會失敗。另外,方法2和方法3不僅研究實體之間的關(guān)系,而且還尋找同一實體的屬性之間的關(guān)系,并利用這些關(guān)系在聚類之前最小化數(shù)據(jù)集的缺陷,從而獲得更高的精度。

      5 結(jié)束語

      本研究圍繞基于概率模型與人工智能的下一代數(shù)據(jù)分類與鏈接方法展開,針對當(dāng)前數(shù)據(jù)鏈接系統(tǒng)普遍存在的可擴(kuò)展性差、定制化強、屬性值缺失、實體識別特征模糊及語音字符串匹配不確定性等挑戰(zhàn),提出了一種創(chuàng)新的數(shù)據(jù)鏈接模型與通用框架。該方法利用機器學(xué)習(xí)算法有效處理缺失值,智能提取關(guān)鍵屬性,并減少人為干預(yù)與錯誤,同時構(gòu)建了一個高效且語言適應(yīng)性強的語音字符串匹配算法,旨在促進(jìn)全球范圍內(nèi)的數(shù)據(jù)鏈接工作。經(jīng)過研究測試所提出的方法在實際測試應(yīng)用程序中表現(xiàn)出更高的聚類和鏈接準(zhǔn)確性,優(yōu)于僅使用概率模型的傳統(tǒng)方法。

      盡管本研究在數(shù)據(jù)分類與鏈接領(lǐng)域取得了顯著進(jìn)展,但在與文本分析相關(guān)的概念、機器學(xué)習(xí)任務(wù)的改進(jìn)、計算資源的使用以及覆蓋數(shù)據(jù)鏈接中需要考慮的社會問題的機制方面,仍存在改進(jìn)空間。未來工作將進(jìn)一步優(yōu)化算法性能,提升數(shù)據(jù)鏈接的效率和準(zhǔn)確性,為數(shù)據(jù)分析和應(yīng)用提供更強大的技術(shù)支持。

      參考文獻(xiàn):

      [1] 戚冬偉.紐科姆ABX論戰(zhàn)的意義[J].消費導(dǎo)刊,2008(18):223.

      [2] WINKLER W E. String comparator metrics and enhanced deci?sion rules in the Fellegi-Sunter model of record linkage[R].Working Paper, 1990.

      [3] DUVALL S L, KERBER R A, THOMAS A. Extending the Fellegi-Sunter probabilistic record linkage method for approxi?mate field comparators[J]. Journal of Biomedical Informatics,2010,43(1):24-30.

      [4] 劉世華.基于密度峰值和維度概率模型的混合屬性數(shù)據(jù)聚類研究[D].杭州:浙江工業(yè)大學(xué),2017.

      [5] 李亞旋,謝紅薇,王春丹,等.多分量權(quán)值的樹結(jié)構(gòu)立體匹配算法[J].計算機工程與設(shè)計,2020,41(9):2501-2506.

      【通聯(lián)編輯:代影】

      基金項目:河南省重點研發(fā)專項(231111210500)

      鞍山市| 乡城县| 宁强县| 山东省| 漳州市| 马尔康县| 鄂托克前旗| 大荔县| 保德县| 海南省| 高清| 九江市| 临桂县| 贵州省| 潜山县| 新蔡县| 象山县| 嘉祥县| 怀远县| 兰考县| 开原市| 林口县| 缙云县| 金门县| 邻水| 岳阳市| 安图县| 九台市| 广平县| 昌都县| 綦江县| 德阳市| 界首市| 巨鹿县| 静宁县| 房山区| 新源县| 乐业县| 塔城市| 密云县| 黄平县|