• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種人工智能與數(shù)據(jù)庫結合的設計方法

      2022-07-07 01:55:48李致徐彥婷
      電子技術與軟件工程 2022年6期
      關鍵詞:知識庫網(wǎng)頁人工智能

      李致 徐彥婷

      (國家計算機網(wǎng)絡與信息安全管理中心上海分中心 上海市 201315)

      隨著互聯(lián)網(wǎng)信息的爆炸式增長,對數(shù)據(jù)內(nèi)容的存儲和處理技術也取得了巨大的進步,以數(shù)據(jù)庫為代表的存儲技術和以人工智能應用為代表的處理技術在互聯(lián)網(wǎng)各領域得到了充分應用。傳統(tǒng)軟件工程過程中,數(shù)據(jù)庫設計偏重于考慮數(shù)據(jù)獲取、存儲,由系統(tǒng)架構人員負責,人工智能應用由專業(yè)算法人員負責,使用特定領域中模型可用的不同數(shù)據(jù)格式。在人工智能應用系統(tǒng)中,系統(tǒng)存儲的數(shù)據(jù)還需經(jīng)清洗、轉(zhuǎn)換才可用于人工智能模型,導致實體關系多次建模、代碼重復開發(fā)、數(shù)據(jù)多次進行存取和格式轉(zhuǎn)換等問題。增加了系統(tǒng)的開發(fā)難度,降低了系統(tǒng)應用效率。本文提出一種人工智能和數(shù)據(jù)庫技術結合的設計方法,通過貫穿數(shù)據(jù)價值鏈的需求預估、實現(xiàn)方案選擇和實現(xiàn)經(jīng)驗總結,在實踐中充分挖掘數(shù)據(jù)庫技術潛力,形成了高效、可擴展的數(shù)據(jù)庫存儲形式 ,滿足人工智能系統(tǒng)的應用需求。

      1 人工智能和數(shù)據(jù)庫技術

      人工智能(Artificial Intelligence),英文縮寫為AI。人工智能是主要研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術以及應用系統(tǒng)。人工智能企圖產(chǎn)出一種能以人類智能相似的方式做出反應的機器。當前,人工智能技術在自然語言處理、模式識別等多個領域取得了令人鼓舞的進步。給定規(guī)則及數(shù)據(jù)集下,人工智能模型可以從大規(guī)模的數(shù)據(jù)中高速獲取可用知識并模仿人類思維處理更為廣泛的數(shù)據(jù)。

      知識是一種抽象和概念的信息,數(shù)據(jù)是代表實際存在事物的標志性信息。人們往往通過知識了解大范圍的事物,通過數(shù)據(jù)更為準確的了解其所關心的事物內(nèi)容。知識和數(shù)據(jù)統(tǒng)稱為信息,二者結合后形成的信息數(shù)據(jù)集合即可視為數(shù)據(jù)庫。數(shù)據(jù)模型是數(shù)據(jù)庫的組織方式形式之一,其中主要囊括了數(shù)據(jù)的約束、數(shù)據(jù)的操作和數(shù)據(jù)的結構三方面的內(nèi)容。數(shù)據(jù)主要代表著當下存在的事物的信息,通過對數(shù)據(jù)的分析來講其進行細化,對比發(fā)現(xiàn),知識具有概念和抽象的屬性,人們在學習知識后能夠掌握大部分的內(nèi)容和信息,然而在看了具體的數(shù)據(jù)之后,則是了解了具體事物內(nèi)容。一般情況下,知識和數(shù)據(jù)這兩類都被人們定義為信息,但是在兩者結束之后就會形成一個整體的信息系統(tǒng),這也是計算機協(xié)同的根基。

      2 數(shù)據(jù)庫系統(tǒng)操作模式

      數(shù)據(jù)庫監(jiān)管系統(tǒng)主要是基于對現(xiàn)有數(shù)據(jù)的管理,是一種專門系統(tǒng),當數(shù)據(jù)庫當中出現(xiàn)需要修改、刪除或者增添、發(fā)送時的數(shù)據(jù)信息時,就需要在該系統(tǒng)允許之后才能對數(shù)據(jù)庫進行維護。如果在這四個環(huán)節(jié)中出現(xiàn)了數(shù)據(jù)丟失,我們可以通過該系統(tǒng)進行二次組織。針對知識庫設置的管理系統(tǒng)叫做知識庫管理系統(tǒng),旨在基于對數(shù)據(jù)知識庫的保護上,可以進行維護和擴展,比如:重新對知識庫進行定義。當吸收了新的知識后,需要對知識庫進行更改,此時也務必需要得到該系統(tǒng)的允許。隨著現(xiàn)代化技術手段的創(chuàng)新,在很多領域都使用了數(shù)據(jù)庫技術,然而,在此過程中,雖然數(shù)據(jù)庫信息具有極強的通用性,但是由于受到數(shù)據(jù)庫系統(tǒng)的局限,在使用過程中,數(shù)據(jù)處理較為片面。進而導致人工智能系統(tǒng)運行時,所出現(xiàn)的結果并不具備充分的精確性。

      3 數(shù)據(jù)庫和知識庫的不同點

      數(shù)據(jù)庫和知識庫在多方面都存在著差異性,不管是處理對象、表達形式、結構等完全不同,在具體的操作行為上和管理上也存在著截然不同的形式,都具有自身的特點。相比較于知識庫,數(shù)據(jù)庫的主要特點是儲存能力比較強,數(shù)據(jù)庫的結構和知識庫的結構也存在著不同,知識庫的結構比較復雜,數(shù)據(jù)庫的一般通過用戶才能進行更新,然而知識庫大部分由專業(yè)來定時更新的,相比較于知識庫,數(shù)據(jù)庫推算出的是具體的知識,知識庫則可以輸出新的知識。

      4 人工智能和數(shù)據(jù)庫技術結合的設計原則

      在軟件系統(tǒng)中,數(shù)據(jù)庫本身的結構和內(nèi)容就代表著系統(tǒng)需求方對該領域知識定義。人工智能模型應用中,處理對象的結構和表達形式定義同樣蘊含著系統(tǒng)對該領域知識的理解掌握。數(shù)據(jù)庫設計實現(xiàn)和人工智能模型應用中,均蘊含領域知識,通過融合人工智能與數(shù)據(jù)庫技術,將兩個原本未交叉領域中信息表示和信息模型融合貫通,系統(tǒng)效率將得到極大的提高。

      真實網(wǎng)絡世界中的數(shù)據(jù)存在海量、異構等特點,將數(shù)據(jù)庫技術和人工智能結合并非輕而易舉。傳統(tǒng)數(shù)據(jù)庫技術可以高效管理由鍵值對或表構成的邏輯結構數(shù)據(jù),人工智能模型卻長于處理標量張量數(shù)據(jù),基于已有的樣本的抽象判斷未知樣本。人工智能與數(shù)據(jù)庫技術結合主要有兩種形式:

      (1)AI for DB通過人工智能為數(shù)據(jù)庫賦能。

      即以人工智能模型優(yōu)化數(shù)據(jù)庫的查詢、命令執(zhí)行、系統(tǒng)負載、數(shù)據(jù)生命周期、數(shù)據(jù)庫運維和數(shù)據(jù)庫安全。

      (2)DB for AI 通過數(shù)據(jù)庫技術提升人工智能效率。

      通過數(shù)據(jù)庫技術,在數(shù)據(jù)質(zhì)量、模型選擇、模型推理等方面提升效率。

      參考上面兩個方向的研究,本文提出AI with DB,即通過人工智能與數(shù)據(jù)庫技術結合,在系統(tǒng)需求分析和設計實現(xiàn)階段,通過貫穿數(shù)據(jù)價值鏈各階段,從數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)使用三個角度,實現(xiàn)滿足數(shù)據(jù)獲取能力、數(shù)據(jù)存取效率及數(shù)據(jù)使用需求的人工智能應用系統(tǒng)。人工智能專家系統(tǒng)理想結構圖如圖1所示。

      圖1:人工智能專家系統(tǒng)理想結構圖

      (1)在數(shù)據(jù)獲取階段,首先對需求用例的數(shù)據(jù)獲取速率、總容量及多樣性進行預估,結構明確的數(shù)據(jù)可以采用關系型數(shù)據(jù)庫;網(wǎng)頁文檔等不再變更的數(shù)據(jù),可采用NoSQL類文檔數(shù)據(jù)庫存儲;實時存取需求較強的數(shù)據(jù),可采用內(nèi)存鍵值數(shù)據(jù)庫;規(guī)模較大的數(shù)據(jù)可直接存入文件系統(tǒng),并在數(shù)據(jù)庫中記錄其索引。

      (2)在數(shù)據(jù)存儲階段,需考慮數(shù)據(jù)清洗、數(shù)據(jù)集成、冗余消除等需求,可采用直接內(nèi)存載入處理或構建HashMap類結構予以解決,平衡時空消耗。

      (3)在數(shù)據(jù)使用階段,可視化和統(tǒng)計分析需考慮其數(shù)據(jù)規(guī)模及實時性需求,如實時性要求較高,可通過內(nèi)存數(shù)據(jù)庫讀入;社區(qū)發(fā)現(xiàn)、社交網(wǎng)絡分析等聯(lián)系結構分析,需考慮其規(guī)模及調(diào)優(yōu)算法,可通過圖數(shù)據(jù)庫加載;自然語言處理等基于內(nèi)容的分析需求,如命名實體識別、主題建模、信息摘要、文本聚類等,實時性要求較低,可通過SQL數(shù)據(jù)庫讀??;多媒體預處理和圖片分析的規(guī)模較大,通過文件系統(tǒng)獲取是較為合適的做法。

      三個階段的需求預估范圍及可能實現(xiàn)方案如表1所示。

      表1:三個階段的需求預估范圍及可能實現(xiàn)方案

      5 人工智能和數(shù)據(jù)庫技術結合的設計實踐

      我們將人工智能和數(shù)據(jù)庫技術結合的設計實踐運用于某BitTorrent(以下簡稱BT)相關人工智能應用系統(tǒng)。BitTorrent是國際互聯(lián)網(wǎng)上最為流行的對等網(wǎng)絡(Peer to Peer, P2P)文件共享協(xié)議,系統(tǒng)需求如下:

      (1)通過互聯(lián)網(wǎng)爬蟲,收集網(wǎng)頁鏈接、網(wǎng)頁文本,對網(wǎng)頁鏈接進行核驗;

      (2)通過網(wǎng)頁鏈接、網(wǎng)頁文本、網(wǎng)頁核驗結果進行網(wǎng)頁分類;

      (3)通過分布式哈希表(Distributed Hash Table, DHT)網(wǎng)絡爬蟲,收集BT網(wǎng)絡文件元數(shù)據(jù)(以下稱種子文件);

      (4)通過種子文件中文件列表、文件名、文件類型等字段進行分類;

      (5)對特定類別種子文件,下載對應多媒體文件,進行視頻抽幀及特定事件檢測;

      設計實踐表如表2所示。

      表2:設計實踐表

      經(jīng)實踐,系統(tǒng)在數(shù)據(jù)獲取中可支持每日獲取20萬網(wǎng)址和10萬種子,為預計需求的10倍;種子數(shù)據(jù)可在近2000萬種子中進行實時去重;多媒體文件下載及視頻抽幀檢測效率達預估5倍。統(tǒng)計表如表3所示。

      此外,本文還在設計實踐中總結了如下的經(jīng)驗:

      (1)SQL數(shù)據(jù)庫在單表千萬數(shù)據(jù)時會出現(xiàn)性能瓶頸,關系型數(shù)據(jù)庫ID生成可采用雪花算法等分布式ID生成算法;

      (2)在關系型數(shù)據(jù)庫表主外鍵設置上,對數(shù)據(jù)量有限的知識庫表、元數(shù)據(jù)表、配置表等,可根據(jù)實體關系全量關聯(lián),對數(shù)據(jù)量快速增長的表,應恰當關聯(lián),避免三級或以上的多級關聯(lián);

      (3)爬蟲類數(shù)據(jù)表中預留冗余字段,后期可結合面向?qū)ο蠓椒M足一定程度的需求變更要求;

      (4)對網(wǎng)頁等不涉及修改的數(shù)據(jù),可采用NoSQL文檔數(shù)據(jù)庫存儲;

      表3:設計實踐效果統(tǒng)計表

      (5)對文件等較大規(guī)模的異構數(shù)據(jù),可采用文件系統(tǒng)分目錄存儲并在數(shù)據(jù)庫中寫入其路徑等元數(shù)據(jù)的方法進行組織;

      (6)涉實時處理、運算的數(shù)據(jù)可在系統(tǒng)啟動時通過內(nèi)存數(shù)據(jù)庫讀入;

      (7)可采用基于Redis的布隆過濾器進行分布式去重。系統(tǒng)架構如圖2所示。

      圖2:系統(tǒng)架構圖

      6 人工智能和數(shù)據(jù)庫技術結合的策略

      隨著人工智能研究的不斷深入,數(shù)據(jù)庫的發(fā)展也凸顯了較多問題。如:結構變化較大,信息儲存能力要求高速增長等。近幾年來看,數(shù)據(jù)庫技術的不斷發(fā)展,也遇到了人工智能關聯(lián)問題,需要突破原定的局限性,增加語義信息的查詢等功能。因此,人工智能和數(shù)據(jù)庫技術的相互結合不僅是將人工智能技術和數(shù)據(jù)庫技術中有效部分簡單組合,還包括互相擴充知識范圍,彌足各自不足。這其中以知識表示和模擬信息模型最為典型,由于相關領域知識具有極強的共享性和時效性,在技術處理過程中,必須集合數(shù)據(jù)庫信息技術在和人工智能,以保證各子系統(tǒng)對特定內(nèi)容的處理均在總體知識和信息模型的約束之下。

      其次,當數(shù)據(jù)庫信息技術在和人工智能完成結合之后,人工系統(tǒng)能夠?qū)崿F(xiàn)強化優(yōu)勢來進行取長補短,從客觀條件來講,人工智能當遇到以下兩個問題時,比如:知識和數(shù)據(jù)的共享,故障恢復等一些具體的操作問題上,人工智能要比數(shù)據(jù)庫處理信息能力偏差,在和數(shù)據(jù)庫信息科學結合后,人工智能能夠借助數(shù)據(jù)庫技術的優(yōu)勢和特點,完善自身的管理經(jīng)驗,通過改良和革新人工知識庫的設計和知識管理系統(tǒng),進而來實現(xiàn)對人工智能的特性和功能方面的改善。

      7 結語

      綜上所述,科學技術的進步,是促進社會發(fā)展和改善人們生產(chǎn)、生活的關鍵因素,對促進我國社會的發(fā)展具有深遠的意義。將人工智能和數(shù)據(jù)庫進行科學有效地結合,可以助力人工智能應用系統(tǒng)。本文提出人工智能和數(shù)據(jù)庫技術結合的設計方法,通過數(shù)據(jù)價值鏈分析,在數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)使用三個階段,進行六個方面的需求預估并選擇合適的實現(xiàn)方案,實踐證明,該設計方法充分挖掘數(shù)據(jù)庫技術潛力,取得了良好的開發(fā)成果。當然,技術發(fā)展不會止步與此,當系統(tǒng)數(shù)據(jù)獲取能力和人工智能模型數(shù)據(jù)需求再增加兩個數(shù)量級時,當前應用良好的系統(tǒng)將面臨挑戰(zhàn),將有必要在設計實現(xiàn)方法中納入批量處理、分布式存儲、流式處理、大規(guī)模圖計算等更為高效的存儲處理技術,以滿足實踐需要。

      猜你喜歡
      知識庫網(wǎng)頁人工智能
      基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
      2019:人工智能
      商界(2019年12期)2019-01-03 06:59:05
      人工智能與就業(yè)
      基于CSS的網(wǎng)頁導航欄的設計
      電子制作(2018年10期)2018-08-04 03:24:38
      數(shù)讀人工智能
      小康(2017年16期)2017-06-07 09:00:59
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      下一幕,人工智能!
      南風窗(2016年19期)2016-09-21 16:51:29
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      網(wǎng)頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      宁化县| 韩城市| 嵊泗县| 华阴市| 香港 | 梁平县| 丰县| 马龙县| 建阳市| 集贤县| 昌平区| 承德市| 杨浦区| 广平县| 永胜县| 杨浦区| 乐业县| 阿拉善左旗| 武宁县| 梁山县| 道真| 揭东县| 广宗县| 东台市| 荔浦县| 慈溪市| 拜城县| 抚远县| 康定县| 泗洪县| 仪征市| 商水县| 山丹县| 施甸县| 安康市| 固安县| 潍坊市| 琼海市| 伽师县| 南宫市| 页游|