• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于反饋的多構(gòu)件庫(kù)二次檢索

      2010-07-25 08:44:30鄭立垠郎穎瑩
      微型電腦應(yīng)用 2010年9期
      關(guān)鍵詞:庫(kù)中關(guān)鍵字本體

      鄭立垠,郎穎瑩

      0 引言

      隨著面向各個(gè)領(lǐng)域的專用構(gòu)件庫(kù)的數(shù)量增長(zhǎng)以及構(gòu)件庫(kù)中構(gòu)件資源的日益擴(kuò)充,構(gòu)件也隨技術(shù)和領(lǐng)域演化而更新,實(shí)踐中常常需要復(fù)用者同時(shí)從多個(gè)構(gòu)件庫(kù)中查詢檢索構(gòu)件,這就給復(fù)用者帶來(lái)許多困難,因此如何實(shí)現(xiàn)構(gòu)件的有效檢索,成為構(gòu)件庫(kù)和軟件復(fù)用研究的重點(diǎn)[1]。

      當(dāng)前的構(gòu)件檢索大都采用關(guān)鍵字匹配,關(guān)鍵詞匹配檢索模式假設(shè),只要構(gòu)建描述文檔含有與查詢相同的術(shù)語(yǔ)時(shí),它們就是相關(guān)的。這種相關(guān)性匹配認(rèn)為關(guān)鍵詞之間是獨(dú)立的,大多數(shù)只停留在語(yǔ)法檢索的層次,是一種機(jī)械的基于表層的匹配,忽視了描述構(gòu)件與構(gòu)件之間的各種語(yǔ)義關(guān)系,而這正是影響到檢索的查全率和查準(zhǔn)率的重要因素,查詢結(jié)果不可避免的存在與復(fù)用者需求無(wú)關(guān)的構(gòu)件,從而導(dǎo)致檢索的查準(zhǔn)率和查全率等總體性能不佳。利用本體技術(shù)[2]正好可以解決這個(gè)缺陷,因?yàn)楸倔w就是對(duì)類、類之間關(guān)系的定義來(lái)體現(xiàn)語(yǔ)義信息的。

      本文引入了用戶相關(guān)反饋機(jī)制和領(lǐng)域本體的概念,就基于語(yǔ)義關(guān)系的二次檢索的模型和算法進(jìn)行了研究,模型在構(gòu)件描述與查詢條件的關(guān)鍵詞首次匹配的基礎(chǔ)上,允許用戶在檢索結(jié)果集中選取他認(rèn)為與要查詢的構(gòu)件相關(guān)聯(lián)的構(gòu)件,然后針對(duì)用戶反饋的結(jié)果修改查詢向量,并根據(jù)修改后的查詢向量進(jìn)行進(jìn)一步檢索。通過(guò)對(duì)多構(gòu)件庫(kù)相關(guān)領(lǐng)域建立統(tǒng)一的領(lǐng)域本體,進(jìn)一步對(duì)構(gòu)件描述術(shù)語(yǔ)之間的語(yǔ)義關(guān)系和查詢關(guān)鍵詞之間的語(yǔ)義關(guān)系進(jìn)行匹配,并在檢索過(guò)程中綜合運(yùn)用聚類算法,實(shí)驗(yàn)證明該模型為實(shí)現(xiàn)跨構(gòu)件庫(kù)檢索奠定了基礎(chǔ),具有較高的查詢性能,提高了檢索的查準(zhǔn)率和查全率。

      1 構(gòu)件的檢索技術(shù)

      1.1 構(gòu)件檢索的概述

      構(gòu)件的檢索是基于構(gòu)件的有效表示之上的,分類模式(Classification Mode)是構(gòu)件庫(kù)中構(gòu)件所擁有的一組共同分類特征的集合,不同構(gòu)件庫(kù)適應(yīng)不同領(lǐng)域特性。構(gòu)件的分類方法及相應(yīng)的庫(kù)結(jié)構(gòu)對(duì)構(gòu)件的檢索和理解有著極為深刻的影響。傳統(tǒng)的構(gòu)件檢索方法有很多,如果單純的使用一種檢索方法,都有不足之處,關(guān)鍵字檢索方法比較成熟、高效,同時(shí)在某種程度上反映了構(gòu)件的語(yǔ)法信息,適合于對(duì)構(gòu)件庫(kù)進(jìn)行首次檢索。用關(guān)鍵字檢索方式對(duì)基于關(guān)鍵字分類法和刻面分類法的多個(gè)構(gòu)件庫(kù)進(jìn)行檢索,在檢索過(guò)程中需要采用檢索條件轉(zhuǎn)換算法[3] [4]。本文在對(duì)常規(guī)檢索方法得到的結(jié)果基礎(chǔ)上再進(jìn)行二次檢索,二次檢索是基于語(yǔ)義的,而不是基于語(yǔ)法的,從而能夠進(jìn)一步捕捉用戶的查詢意圖,得到比較滿意的結(jié)果。

      1.2 向量空間模型的建立

      向量空間是由一些特征值向量集構(gòu)成的[5]。根據(jù)每個(gè)刻面值各建立刻面值向量空間,每個(gè)構(gòu)件有相應(yīng)的m×n維向量集,其中m為該刻面的向量維數(shù),n為刻面數(shù)。向量集中向量的維數(shù)取決于構(gòu)件的描述文檔中關(guān)鍵字的個(gè)數(shù)。向量值(權(quán)值)表示關(guān)鍵字在文檔中出現(xiàn)的頻率,若沒(méi)有出現(xiàn)則權(quán)值為零。向量集中每一構(gòu)件和用戶每一次查詢均可用等長(zhǎng)的向量表示。例如:向量空間中有術(shù)語(yǔ)(即刻面描述模式中術(shù)語(yǔ)空間中的關(guān)鍵詞):windows 95、windows 98、windows ME、windows XP和windows 7。文檔D1,D2,D3,D4分別為:

      1.3 領(lǐng)域本體

      本體(Ontology)是用于描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù)語(yǔ),可以用來(lái)描述特定領(lǐng)域的知識(shí),給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義,支持邏輯推理以及某一領(lǐng)域知識(shí)的共享、復(fù)用。利用領(lǐng)域本體模型為捕捉特定領(lǐng)域應(yīng)用知識(shí)提供有效的機(jī)制,這些知識(shí)能夠表達(dá)構(gòu)件檢索所需的更潛在的查詢信息。

      要進(jìn)行有效的語(yǔ)義檢索,前提條件是有構(gòu)造良好、信息充分的構(gòu)件本體和領(lǐng)域本體,以及對(duì)構(gòu)件進(jìn)行詳盡的描述,因?yàn)檎Z(yǔ)義推理時(shí)需要這些信息數(shù)據(jù)作為基礎(chǔ)。二次檢索在領(lǐng)域本體的支持下,針對(duì)用戶的反饋消息,由推理引擎對(duì)構(gòu)件的隱含語(yǔ)義進(jìn)行推理,將隱含語(yǔ)義與顯式語(yǔ)義合成后再與檢索條件匹配,最后返回檢索結(jié)果集。這樣用戶在檢索的過(guò)程中通過(guò)領(lǐng)域本體可以發(fā)現(xiàn)用戶檢索的潛在的含義,以及可以幫助用戶發(fā)現(xiàn)用戶想不到的方面,從這方面來(lái)講,通過(guò)本體檢索提高了構(gòu)件檢索的查全率和查準(zhǔn)率。

      2 多構(gòu)件庫(kù)檢索過(guò)程的模型

      本文的檢索模型主要包括首次檢索、二次檢索及相關(guān)反饋功能模塊。多構(gòu)件庫(kù)檢索過(guò)程模型包括以下幾步:

      (1)復(fù)用者分析實(shí)際的需求采用關(guān)鍵詞檢索提出查詢檢索條件,從多個(gè)構(gòu)件庫(kù)中首次檢索并返回首次檢索結(jié)果集合;

      (2)復(fù)用者對(duì)首次檢索集合進(jìn)行評(píng)估選擇根據(jù)需求提供反饋,再次填寫(xiě)檢索信息,將用戶查詢中出現(xiàn)的關(guān)鍵字映射到領(lǐng)域本體,本體通過(guò)語(yǔ)義擴(kuò)展用戶查詢,進(jìn)一步選擇合適的術(shù)語(yǔ)用于查詢信息的表示,擴(kuò)大搜索范圍;

      (3)將用戶反饋的檢索條件提交到各個(gè)構(gòu)件庫(kù)中進(jìn)行檢索,進(jìn)行基于語(yǔ)義的二次檢索;

      (4)對(duì)檢索出的構(gòu)件進(jìn)行構(gòu)件相似度匹配算法,最終根據(jù)語(yǔ)義相似度大小返回檢索結(jié)果集。如圖1所示。

      圖1 多構(gòu)件庫(kù)檢索過(guò)程模型

      本文所設(shè)計(jì)的多庫(kù)檢索模型采用關(guān)鍵字檢索,檢索過(guò)程中采用文獻(xiàn)[3]和文獻(xiàn)[4]提出的檢索條件轉(zhuǎn)換算法,使關(guān)鍵字檢索條件能夠被不同分類方式的構(gòu)件庫(kù)所理解。

      3 二次檢索模塊算法實(shí)現(xiàn)

      3.1 二次檢索模型的工作原理

      二次檢索即在結(jié)果中繼續(xù)檢索,主要作用是給用戶提示以便選擇更接近需求的構(gòu)件。基于反饋算法的二次檢索模型按以下步驟實(shí)現(xiàn):

      (1)用戶分析需求對(duì)首次檢索的結(jié)果進(jìn)行評(píng)估選擇,形成查詢擴(kuò)展條件的反饋信息;

      (2)根據(jù)領(lǐng)域本體構(gòu)件庫(kù)的特點(diǎn),對(duì)用戶再次輸入的查詢擴(kuò)展語(yǔ)句與領(lǐng)域子本體中的概念進(jìn)行相似度匹配;

      (3)把前兩步匹配得到的關(guān)鍵字集合進(jìn)行相關(guān)反饋算法;

      (4)返回最終的檢索結(jié)果集。

      圖2是基于用戶反饋的二次檢索模型。

      圖2 多構(gòu)件庫(kù)二次檢索模型

      3.2 反饋算法的描述

      用document1表示用戶首次反饋檢索擴(kuò)展語(yǔ)句, P為首次檢索的構(gòu)件數(shù)目,Q表示顯示構(gòu)件的最大數(shù)目,Results1表示首次檢索結(jié)果集合。算法具體實(shí)現(xiàn)如下:

      輸入:用戶反饋查詢擴(kuò)展語(yǔ)句檢索向量集document1;

      輸出:按語(yǔ)義相關(guān)度排序的檢索結(jié)果集合;

      (1)對(duì)首次檢索結(jié)果集 Results1= {component1,component2,…,componentp|p為相關(guān)構(gòu)件個(gè)數(shù)}與目標(biāo)構(gòu)件組合在一起使用K-means聚類算法對(duì)這P+1個(gè)構(gòu)件進(jìn)行聚類,得到n個(gè)類別,以及n個(gè)類別的凝聚點(diǎn);

      (2)在概念詞典的幫助下,將document1中的單詞映射為本體中的概念,生成檢索樹(shù)的OWL文件,即本體庫(kù)檢索條 件集合;

      (3)根據(jù)查詢領(lǐng)域本體庫(kù)的結(jié)果找到與用戶檢索擴(kuò)展語(yǔ)句中的關(guān)鍵詞有語(yǔ)義相關(guān)的關(guān)鍵詞集合key={key1,key2,……,keyk|k為關(guān)鍵字術(shù)語(yǔ)個(gè)數(shù)},再到各個(gè)構(gòu)件庫(kù)中匹配術(shù)語(yǔ),得到相關(guān)聯(lián)的構(gòu)件集合Results2;

      (4)將 Results2 與(1)得到的 n個(gè)凝聚點(diǎn)再進(jìn)行聚類;

      (5)輸出n個(gè)類別的凝聚點(diǎn)構(gòu)件及構(gòu)件的詳細(xì)信息,用戶對(duì)這n個(gè)進(jìn)行評(píng)價(jià),與目標(biāo)構(gòu)件相似的給予正向評(píng)價(jià),不相似的給予負(fù)向評(píng)價(jià);

      (6)向用戶顯示被給予正向評(píng)價(jià)的構(gòu)件的所屬類別中的其他所有構(gòu)件。如果剩余構(gòu)件數(shù)量大于Q,則只顯示其中相似度值大的Q個(gè);

      (7)如果用戶不滿意檢索結(jié)果集,則轉(zhuǎn)到(8)進(jìn)行后續(xù)檢索;如果用戶不再提供反饋信息,轉(zhuǎn)至(9);

      (8)將目標(biāo)構(gòu)件與得到正向評(píng)價(jià)構(gòu)件組合在一起,調(diào)整向量權(quán)值,并轉(zhuǎn)到第(2)步,利用調(diào)整后的查詢向量權(quán)值繼續(xù)進(jìn)行構(gòu)件匹配計(jì)算;

      (9)計(jì)算檢索出的構(gòu)件與目標(biāo)構(gòu)件的相似度大小,并根據(jù)此相似度值大小對(duì)構(gòu)件庫(kù)中的構(gòu)件進(jìn)行排序;

      (10)輸出檢索結(jié)果集合。

      這里的計(jì)算構(gòu)件相似度采用文獻(xiàn)[6]提出的語(yǔ)義相似度計(jì)算方法。

      4 實(shí)驗(yàn)

      我們?cè)O(shè)計(jì)了一個(gè)構(gòu)件庫(kù)群的聯(lián)合檢索的原型系統(tǒng),針對(duì)采用關(guān)鍵詞、刻面等不同的分類方法的多個(gè)構(gòu)件庫(kù),加入了領(lǐng)域本體,采用了相關(guān)反饋模型,實(shí)現(xiàn)了基于聚類的相關(guān)反饋算法的二次檢索。

      下面以銀行業(yè)務(wù)領(lǐng)域本體為例,實(shí)現(xiàn)該檢索。銀行業(yè)務(wù)領(lǐng)域的軟構(gòu)件按其功能可分為資產(chǎn)業(yè)務(wù)、負(fù)債業(yè)務(wù)、中間業(yè)務(wù)和表外業(yè)務(wù)。基于上述分類,圖3刻畫(huà)了部分銀行業(yè)務(wù)領(lǐng)域本體。

      圖3 銀行業(yè)務(wù)領(lǐng)域本體

      圖3中,實(shí)線箭頭表示子類關(guān)系(kind of),比如存款類業(yè)務(wù)是負(fù)債業(yè)務(wù)的一個(gè)子類,而虛線箭頭表示實(shí)例關(guān)系(instance of),比如個(gè)人貸款是貸款類業(yè)務(wù)的一個(gè)實(shí)例。

      本文以查詢個(gè)人借貸軟構(gòu)件為例說(shuō)明構(gòu)件檢索過(guò)程。用戶首先在軟構(gòu)件檢索系統(tǒng)客戶端的查詢欄中輸入“個(gè)人借貸”,提交給系統(tǒng),根據(jù)檢索條件轉(zhuǎn)換算法把關(guān)鍵字轉(zhuǎn)化為各個(gè)構(gòu)件庫(kù)所能識(shí)別的檢索語(yǔ)言進(jìn)行檢索。由于各個(gè)構(gòu)件庫(kù)中的術(shù)語(yǔ)沒(méi)有完全與之匹配的術(shù)語(yǔ),因此根據(jù)關(guān)鍵詞匹配原則,返回“貸款類業(yè)務(wù)”、“商業(yè)貸款”、“個(gè)人貸款”等與“個(gè)人借貸”中匹配一個(gè)或幾個(gè)關(guān)鍵字的構(gòu)件集合。用戶根據(jù)返回的檢索結(jié)果集,分析具體需求,完善檢索條件,生成新的查詢向量權(quán)值,在概念詞典的幫助下,將用戶反饋的檢索擴(kuò)展條件映射為本體中的概念,檢查本體庫(kù)中的術(shù)語(yǔ)集合,將“現(xiàn)金類業(yè)務(wù)”“投資類業(yè)務(wù)”“貸款類業(yè)務(wù)”“存款類業(yè)務(wù)”等與首次檢索出的構(gòu)件在語(yǔ)義上相關(guān)聯(lián)的構(gòu)件檢索出來(lái)提交給用戶,并請(qǐng)求用戶選擇一個(gè)與之匹配的,則用戶會(huì)選擇“貸款類”,那么在“詳細(xì)信息”欄里將會(huì)進(jìn)一步顯示相應(yīng)的“貸款類業(yè)務(wù)”類型,如“商業(yè)貸款”“個(gè)人貸款”等詳細(xì)信息,此時(shí)用戶選擇“個(gè)人貸款”,再到各個(gè)構(gòu)件庫(kù)中檢索有“個(gè)人貸款”功能的構(gòu)件,返回用戶相應(yīng)有“個(gè)人貸款”功能的所有構(gòu)件。通過(guò)與軟構(gòu)件描述庫(kù)進(jìn)行交互,將進(jìn)一步獲取構(gòu)件的屬性、下載地址以及與之相關(guān)的軟構(gòu)件列表。

      實(shí)驗(yàn)設(shè)計(jì)如下:在3個(gè)構(gòu)件庫(kù)中分別存儲(chǔ)了100個(gè)相關(guān)構(gòu)件的描述信息,然后模擬用戶對(duì)構(gòu)件進(jìn)行檢索。用戶包括計(jì)算機(jī)專業(yè)和非計(jì)算機(jī)專業(yè)人士。以檢索“個(gè)人貸款”和“利率互換”這兩項(xiàng)為例來(lái)比較在使用相關(guān)反饋二次檢索情況下檢索前后查全率與查準(zhǔn)率,滿足“個(gè)人貸款”的相關(guān)構(gòu)件共有200個(gè),滿足“利率互換”的相關(guān)構(gòu)件共有150個(gè)。采用相關(guān)反饋算法后,每10次統(tǒng)計(jì)一次,檢索時(shí)反饋次數(shù)一般在4次左右效果最好。如表1是使用領(lǐng)域本體和相關(guān)反饋的二次檢索前后的查準(zhǔn)率和查全率比較圖。

      表1 構(gòu)件檢索結(jié)果比較

      由表1可知,在多庫(kù)檢索過(guò)程中,引入領(lǐng)域本體并基于反饋的二次檢索提高了檢索的查準(zhǔn)率和查準(zhǔn)率,但是,由于要不斷的進(jìn)行用戶反饋交互,增加了時(shí)間的開(kāi)銷。以上測(cè)試驗(yàn)證了本檢索方法的可行性和有效性。

      5 結(jié)束語(yǔ)

      本文針對(duì)多個(gè)構(gòu)件庫(kù)構(gòu)件檢索進(jìn)行研究,借鑒數(shù)據(jù)庫(kù)二次檢索的思想,結(jié)合構(gòu)件庫(kù)領(lǐng)域本體能更好揭示構(gòu)件之間語(yǔ)義關(guān)系的功能,提出了一種聚類反饋算法,給出了具體步驟,該算法在一定程度上解決了跨構(gòu)件庫(kù)檢索查準(zhǔn)率和查全率低的問(wèn)題,該算法在某一條件下聚類并進(jìn)行反饋,即減少聚類的空間復(fù)雜度,并且能進(jìn)一步捕捉用戶的實(shí)際查詢意圖,有助于實(shí)現(xiàn)多個(gè)構(gòu)件庫(kù)構(gòu)件的有效匹配。但是此方法會(huì)增加檢索過(guò)程中的工作時(shí)間負(fù)荷,所以在以后的工作中我們還要繼續(xù)研究以減少構(gòu)件檢索的工作負(fù)荷,盡可能改進(jìn)算法性能。

      [1] 潘穎,趙俊峰,謝冰.構(gòu)件庫(kù)技術(shù)的研究與發(fā)展[J] .計(jì)算機(jī)科學(xué). 2003,30(5) , 90-93.

      [2] SINDNEY C. BAILIN. Software Reuse as Ontology Negotiation[C] [S.l.] [s.n.] Proceedings of the 8th International Conference on Software Reuse(ICSR 2004)

      [3] 盛義芳,張維石,張秀國(guó),史金余.面向多構(gòu)件庫(kù)的構(gòu)件檢索條件轉(zhuǎn)換機(jī)制研究[J] . 學(xué)術(shù)探討, 2006.

      [4] 鄭立垠,郎穎瑩,安璐.基于檢索條件轉(zhuǎn)換算法的多構(gòu)件庫(kù)檢索[J] .計(jì)算機(jī)系統(tǒng)應(yīng)用.2010,19(1):72-75.

      [5] 劉大昕,趙磊,王卓.一種基于刻面分類和聚類分析的構(gòu)件分類檢索方法[J] ,計(jì)算機(jī)應(yīng)用2004-S1-034.

      [6] 牛志一, 楊俊強(qiáng), 楊寧. 構(gòu)件庫(kù)語(yǔ)義描述和檢索技術(shù)研究[J] ,計(jì)算機(jī)應(yīng)用, 2010,30(1):18-21.

      猜你喜歡
      庫(kù)中關(guān)鍵字本體
      Abstracts and Key Words
      動(dòng)物城堡
      動(dòng)物城堡
      履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤(pán)點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      成功避開(kāi)“關(guān)鍵字”
      智能盤(pán)庫(kù)在自動(dòng)化立體庫(kù)中的探索和應(yīng)用
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      ID3算法在構(gòu)件庫(kù)中的應(yīng)用
      河南科技(2014年10期)2014-02-27 14:09:02
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      黑河市| 桐柏县| 兴城市| 隆化县| 西林县| 周至县| 恩平市| 澜沧| 陇川县| 奈曼旗| 鲁山县| 那曲县| 任丘市| 双城市| 武功县| 香河县| 建平县| 峨山| 崇左市| 健康| 霍州市| 杭锦旗| 阿克| 河北省| 香河县| 泰来县| 新昌县| 运城市| 淮阳县| 璧山县| 曲沃县| 洪江市| 泽普县| 油尖旺区| 河北区| 博乐市| 塔城市| 泽州县| 渝北区| 广平县| 玉山县|