基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享系統(tǒng)

2015-12-08 05:26:38杜紅剛吳岳忠

湖南工業(yè)大學(xué)學(xué)報(bào) 2015年5期

關(guān)鍵詞：全文檢索文檔模塊

杜紅剛，吳岳忠

（湖南工業(yè)大學(xué) 計(jì)算機(jī)與通信學(xué)院，湖南株洲 412007）

基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享系統(tǒng)

杜紅剛，吳岳忠

（湖南工業(yè)大學(xué) 計(jì)算機(jī)與通信學(xué)院，湖南株洲 412007）

針對(duì)非結(jié)構(gòu)化的海量文檔獲取困難的問(wèn)題，設(shè)計(jì)和開發(fā)了基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享系統(tǒng)。該系統(tǒng)采用了Hadoop和Lucene以及Mahout來(lái)實(shí)現(xiàn)對(duì)文檔存儲(chǔ)、全文檢索和推薦。通過(guò)測(cè)試證明，網(wǎng)絡(luò)文檔共享系統(tǒng)可以使用戶更快速高效地獲取文檔。

云存儲(chǔ)；文檔共享；全文檢索；推薦

隨著計(jì)算機(jī)硬件的飛速發(fā)展，處理速度的不斷提高，人們?cè)讷@取快速的處理速度同時(shí)也產(chǎn)生著大量的文檔和用戶數(shù)據(jù)。然而隨著互聯(lián)網(wǎng)的到來(lái)和快速發(fā)展，這種數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)。在工作中，人們從這些大量的文檔中獲取自己想要的文檔時(shí)，就變得越加困難而緩慢。

為了解決這個(gè)問(wèn)題，本文提出并設(shè)計(jì)實(shí)現(xiàn)了基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享系統(tǒng)。主要研究工作及創(chuàng)新點(diǎn)為：

1）系統(tǒng)將文檔存儲(chǔ)在以Hadoop為基礎(chǔ)的文件存儲(chǔ)集群，它可以使人們擺脫對(duì)移動(dòng)存儲(chǔ)設(shè)備的依賴，只要有網(wǎng)絡(luò)就可以隨時(shí)隨地的訪問(wèn)自己的文件，而且成本低廉，安全穩(wěn)定；

2）系統(tǒng)配合使用Lucene作為全文搜索引擎，提取文檔關(guān)鍵詞特性，以矢量的方式來(lái)標(biāo)識(shí)文檔的特征，從而為用戶快速查找到有效文檔；

3）系統(tǒng)通過(guò)Mahout數(shù)據(jù)挖掘來(lái)為用戶做智能推薦。

1 相關(guān)技術(shù)

1.1 云存儲(chǔ)

云存儲(chǔ)是在云計(jì)算（cloud computing）概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念，是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù)，是指通過(guò)集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能，將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作，共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。如今存儲(chǔ)的解決方案很多，其中Hadoop是比較成熟的一種方案。Hadoop是Apache軟件基金會(huì)所研發(fā)的開放源碼項(xiàng)目。它是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。如今很多知名的IT企業(yè)都在使用Hadoop，如京東、百度等公司在存儲(chǔ)、分析日志、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中都使用了Hadoop。在文獻(xiàn)[1-2]中通過(guò)實(shí)戰(zhàn)開發(fā)，詳細(xì)闡述了Hadoop的程序開發(fā)方式。在文獻(xiàn)[3]中通過(guò)實(shí)驗(yàn)，證明Hadoop在大數(shù)據(jù)處理發(fā)面的優(yōu)勢(shì)。在文獻(xiàn)[4-5]中，介紹了Hadoop的分布式文件系統(tǒng)HDFS的搭建。本文使用Hadoop搭建分布式文件存儲(chǔ)系統(tǒng)，為本文設(shè)計(jì)的系統(tǒng)提供低廉、安全的云存儲(chǔ)。

1.2 全文檢索

全文檢索是一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法。普通的文檔系統(tǒng)只能通過(guò)標(biāo)題這種結(jié)構(gòu)化的數(shù)據(jù)來(lái)進(jìn)行搜索，而全文檢索不同，它是以文檔內(nèi)容為分析對(duì)象，通過(guò)分詞器以及分詞庫(kù)將文檔內(nèi)容中的各個(gè)詞匯匯總統(tǒng)計(jì)，這樣便能很好地標(biāo)識(shí)這個(gè)文檔的特征，從而更智能地匹配用戶的搜索要求[5]。通過(guò)全文檢索就可以更深入地為用戶推薦用戶所需內(nèi)容，因?yàn)槲臋n的命名無(wú)法覆蓋文檔表達(dá)的所有方面，如果用輸入的搜索關(guān)鍵詞比較少，那么就無(wú)法將那些沒(méi)有通過(guò)命名來(lái)體現(xiàn)文檔內(nèi)容的文檔查詢出來(lái)。所以，通過(guò)全文檢索直接分析文檔內(nèi)容更直接、更有利于搜索和推薦。

Lucene是一套用于全文檢索和搜尋的開源程式庫(kù)，由Apache軟件基金會(huì)支持和提供。Lucene提供了一個(gè)簡(jiǎn)單強(qiáng)大的應(yīng)用程式接口，能夠?qū)崿F(xiàn)全文索引和搜尋。很多國(guó)外的企業(yè)已經(jīng)將Lucene投入使用，例如推特、FaceBook等。文獻(xiàn)[6]詳細(xì)介紹了Lucene的開發(fā)步驟如索引的更新、文檔搜索等。本系統(tǒng)中使用Lucene對(duì)文檔進(jìn)行高效的全文檢索。

1.3 智能推薦

文檔推薦是基于用戶興趣點(diǎn)對(duì)用戶的文檔需求進(jìn)行預(yù)測(cè)，然后將預(yù)測(cè)結(jié)果推送給用戶。文檔推薦和搜索在系統(tǒng)內(nèi)實(shí)現(xiàn)基本一致，不同的是文檔搜索只有在用戶主動(dòng)發(fā)起請(qǐng)求的時(shí)候系統(tǒng)才會(huì)執(zhí)行搜索動(dòng)作，這是用戶主動(dòng)的行為；而文檔推薦是系統(tǒng)根據(jù)用戶的興趣主動(dòng)去文檔庫(kù)去搜索，然后將結(jié)果顯示給用戶，這時(shí)用戶是被動(dòng)的。在文檔智能推薦算法中，常用的有UserCF和ItemCF。UserCF是用戶間類比推薦的一種橫向推薦，它的作用是推薦那些和該用戶有共同興趣的用戶所感興趣的文檔，反應(yīng)群體內(nèi)的熱門程度；ItemCF是基于文檔特性的縱向推薦，它的作用是推薦那些該用戶之前喜歡的文檔，反應(yīng)用戶本人的興趣愛好[7]，這2種算法都可以通過(guò)Mahout來(lái)實(shí)現(xiàn)。Mahout是一個(gè)強(qiáng)大的數(shù)據(jù)挖掘工具，是一個(gè)分布式機(jī)器學(xué)習(xí)算法的集合，其最大的優(yōu)點(diǎn)就是可以基于Hadoop實(shí)現(xiàn)，把很多以前運(yùn)行于單機(jī)上的算法，轉(zhuǎn)化為MapReduce模式，這樣大大提升了算法可處理的數(shù)據(jù)量和處理性能[8]。本系統(tǒng)將通過(guò)Mahout把UserCF和ItemCF這2種算法結(jié)合使用為用戶提供智能推薦。

2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2.1 系統(tǒng)功能設(shè)計(jì)

系統(tǒng)功能分為4個(gè)模塊：文檔存儲(chǔ)模塊、文檔搜索模塊、文檔推薦模塊、用戶登錄和權(quán)限模塊。這4個(gè)模塊組成系統(tǒng)的整個(gè)核心業(yè)務(wù)，系統(tǒng)功能結(jié)構(gòu)圖如圖1所示。

圖1 系統(tǒng)功能結(jié)構(gòu)圖Fig. 1 System function structure

具體模塊功能如下：

1）文檔存儲(chǔ)模塊。包括文檔上傳了文檔下載2個(gè)功能。主要實(shí)現(xiàn)了用戶的文檔上傳到云存儲(chǔ)服務(wù)器，以及從云存儲(chǔ)服務(wù)器下載文檔。

2）文檔搜索模塊。文檔搜索模塊是整個(gè)系統(tǒng)的核心，文檔推薦模塊也依托于文檔搜索模塊。包括索引更新和文檔檢索功能，由于文檔庫(kù)是實(shí)時(shí)變化的，所以要對(duì)整個(gè)文檔庫(kù)的所有文檔進(jìn)行索引的更新，這樣才能在文檔搜索的時(shí)候得到最新的結(jié)果。

3）文檔推薦模塊。系統(tǒng)根據(jù)用戶的興趣有針對(duì)的對(duì)用戶進(jìn)行智能推薦。它包括用戶興趣更新和推薦2個(gè)功能，其中用戶興趣更新是更新用戶的興趣，為推薦做基礎(chǔ)。

4）登錄和權(quán)限認(rèn)證模塊。它是系統(tǒng)的基礎(chǔ)，包括授權(quán)和認(rèn)證2個(gè)部分，其中授權(quán)是對(duì)用戶在系統(tǒng)中所能進(jìn)行的操作進(jìn)行授權(quán)，而認(rèn)證是對(duì)用戶在系統(tǒng)內(nèi)的操作進(jìn)行認(rèn)證的過(guò)程。

2.2 系統(tǒng)架構(gòu)設(shè)計(jì)

系統(tǒng)在J2EE平臺(tái)開發(fā)，代碼基本采用Java語(yǔ)言編寫。服務(wù)器使用Tomcat作為Web容器，數(shù)據(jù)庫(kù)采用MySQL，分布式文件存儲(chǔ)使用Hadoop的HDFS。在代碼框架上使用Struts2作為MVC框架，Spring作為注入功能和事務(wù)控制，Hibernate作為數(shù)據(jù)庫(kù)存儲(chǔ)層的框架，安全控制使用Spring Security[9-12]。系統(tǒng)架構(gòu)圖如圖2所示。

圖2 系統(tǒng)架構(gòu)圖Fig. 2 System architecture

如圖2所示，本系統(tǒng)具有3層系統(tǒng)架構(gòu)，包括：云用戶層、系統(tǒng)服務(wù)層和云存儲(chǔ)層。在該架構(gòu)中，由用戶組成的云用戶層，直接使用應(yīng)用，進(jìn)行文檔的上傳、檢索等資源共享服務(wù)。由可信服務(wù)器（trust servers，TS）作為系統(tǒng)服務(wù)層，支持用戶和云存儲(chǔ)的交互，一方面是可以對(duì)源文件進(jìn)行創(chuàng)建索引，再把源文件和索引文件上傳到云存儲(chǔ)服務(wù)器上，還可以將用戶提供的關(guān)鍵詞提交云存儲(chǔ)層進(jìn)行搜索，并將獲得結(jié)果返回用戶，另一方面是處理用戶興趣模型，便于系統(tǒng)進(jìn)行內(nèi)容的按需推薦；由云服務(wù)器提供商（cloud servers provider，CSP）作為云存儲(chǔ)層，主要與系統(tǒng)服務(wù)層交互，對(duì)文檔資源進(jìn)行存儲(chǔ)，并可以提供云的超強(qiáng)計(jì)算能力，如對(duì)上傳海量數(shù)據(jù)源文件進(jìn)行存儲(chǔ)、搜索、文件提取等操作；

2.3 數(shù)據(jù)庫(kù)設(shè)計(jì)

系統(tǒng)的數(shù)據(jù)庫(kù)采取MySQL數(shù)據(jù)庫(kù)，系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在MySQL數(shù)據(jù)庫(kù)中，包括登錄權(quán)限認(rèn)證數(shù)據(jù)、用戶的基本信息、文檔的基本信息、文檔的分享信息以及用戶的搜索記錄。系統(tǒng)功能涉及部分?jǐn)?shù)據(jù)表設(shè)計(jì)如下。

1）用戶信息表。包括用戶ID、用戶名、角色I(xiàn)D以及用戶密碼。

2）角色表。包括角色I(xiàn)D、角色名。

3）文檔信息表。包括文檔ID、文檔實(shí)際名、文檔存儲(chǔ)名、文檔URL地址、文檔大小、文檔類型、文檔狀態(tài)等。

4）興趣信息表。包括興趣ID、興趣關(guān)鍵詞、關(guān)鍵詞熱度。

5）權(quán)限信息表。包括權(quán)限ID、權(quán)限名。

系統(tǒng)ER圖如圖3所示。

圖3 系統(tǒng)ER圖Fig. 3 The ER chart of system

2.4 文檔搜索和推薦核心算法設(shè)計(jì)

搜索和推薦，其本質(zhì)就是檢索文檔內(nèi)容是否匹配用戶的需求。本文所采用匹配算法設(shè)計(jì)思路為：每個(gè)文檔都是由很多詞組組成的，通過(guò)Lucene索引，可以將每個(gè)文檔的詞組統(tǒng)計(jì)出來(lái)，并且可以計(jì)算每個(gè)詞組占整個(gè)文檔詞組總量的比例，稱之為該詞組在此文檔內(nèi)的權(quán)重，將所有的詞組權(quán)重有序的排放成一個(gè)數(shù)列，稱此數(shù)列為該文檔的文檔空間向量，該向量可以表示一個(gè)文檔的內(nèi)容特征。同理用戶有很多感興趣的關(guān)鍵詞，而這些關(guān)鍵詞組的權(quán)重所組成的有序數(shù)列，也表示了用戶的興趣特征。其中詞組權(quán)重W的計(jì)算公式為式（1），即

式中：Wt,d表示關(guān)鍵詞t在文檔d中的權(quán)重；

tft,d表示關(guān)鍵詞t在文檔d中的頻率；

n表示文檔集Data中文檔總個(gè)數(shù)；

dft表示包含關(guān)鍵詞t的文檔個(gè)數(shù)。

在進(jìn)行搜索和推薦的時(shí)候，系統(tǒng)會(huì)計(jì)算文檔空間向量和用戶興趣空間向量的相似度Scoreq,d，其計(jì)算公式為式（2），即

式中：Wi,q表示用戶興趣向量q中的關(guān)鍵詞i的權(quán)重；

Wi,d表示文檔向量d中的關(guān)鍵詞i的權(quán)重；

n是文檔集中關(guān)鍵詞的個(gè)數(shù)。

用戶在進(jìn)行搜索和推薦的時(shí)候，會(huì)根據(jù)關(guān)鍵詞和用戶興趣分計(jì)算出其與每個(gè)文檔的相似度，然后將相似度最高的N個(gè)文檔作為結(jié)果返回給用戶。

2.5 算法實(shí)現(xiàn)

2.5.1 文檔上傳到HDFS

文件上傳至HDFS中，是通過(guò)Hadoop提供的一套API來(lái)操作，由于Hadoop封裝性較好，所以使用較為簡(jiǎn)單。HDFS的核心類是FileSystem，通過(guò)該類實(shí)現(xiàn)文件在HDFS中的存儲(chǔ)、讀取、刪除等操作。上傳流程如圖4所示。

圖4 文檔上傳流程圖Fig. 4 Document upload flowchart

2.5.2 文檔索引建立

文檔索引的建立時(shí)，索引文件是存儲(chǔ)在可信服務(wù)器上的，文檔量逐漸變大，系統(tǒng)更新索引也會(huì)隨之變慢，所以系統(tǒng)會(huì)在午夜進(jìn)行索引的更新。實(shí)現(xiàn)步驟有創(chuàng)建索引目錄對(duì)象、創(chuàng)建索引的寫入器、創(chuàng)建Document、為Document添加Field、獲取HDFS的FileSystem實(shí)例，遍歷HDFS中的文檔、設(shè)置所要索引的域、通過(guò)IndexWriter添加文檔到索引中、關(guān)閉索引目錄和索引寫入器。建立索引的過(guò)程如圖5所示。

圖5 文檔索引建立流程圖Fig. 5 Document index flowchart

2.5.3 文檔搜索

搜索流程如圖6所示。文檔搜索的時(shí)候，在用戶輸入關(guān)鍵詞后系統(tǒng)會(huì)通過(guò)Lucene加載已經(jīng)建立好的索引，索引在加載后通過(guò)關(guān)鍵詞來(lái)獲取滿足搜索要求的文檔。實(shí)現(xiàn)步驟為：創(chuàng)建目錄對(duì)象、創(chuàng)建索引讀取實(shí)例、創(chuàng)建搜索的搜索對(duì)象、搜索并返回最符合條件的前n條、根據(jù)TopDocs獲取ScoreDoc對(duì)象，然后遍歷所搜索到的項(xiàng)、根據(jù)Seacher和ScoreDoc對(duì)象獲取具體的Document對(duì)象、根據(jù)Document對(duì)象獲取需要的值。

圖6 文檔搜索流程圖Fig. 6 Document search flowchart

2.5.4 文檔推薦

用戶每次搜索后，系統(tǒng)都將存儲(chǔ)用戶本次搜索的關(guān)鍵詞，但關(guān)鍵字在系統(tǒng)中不存在的時(shí)候?qū)⒃谙到y(tǒng)中添加該關(guān)鍵詞，如果已經(jīng)有了就會(huì)把這個(gè)關(guān)鍵詞的hot指數(shù)加一，然后根據(jù)用戶使用最頻繁的幾個(gè)關(guān)鍵詞為用戶做推薦。推薦流程如圖7所示。

圖7 文檔推薦流程圖Fig. 7 Document recommendation flowchart

2.6 系統(tǒng)設(shè)計(jì)特點(diǎn)

1）采用HDFS擺脫了傳統(tǒng)目錄文件系統(tǒng)的深層次結(jié)構(gòu)，HDFS可采用扁平的文件系統(tǒng)結(jié)構(gòu)，而且HDFS容錯(cuò)性高，支持自動(dòng)備份，使得文件更安全。

2）系統(tǒng)采用Lucene為文檔庫(kù)建立索引，當(dāng)文檔量很大的時(shí)候勢(shì)必會(huì)帶來(lái)性能問(wèn)題。但是由于系統(tǒng)采用分布式架構(gòu)，可以將建立索引和檢索索引的工作以MapReduce的方式進(jìn)行處理，即將任務(wù)分割成許多的小任務(wù)進(jìn)行并行計(jì)算，然后再將運(yùn)算結(jié)果合并成最終的運(yùn)算結(jié)果，從而大大縮短索引的時(shí)間。

3）系統(tǒng)使用Mahout推薦算法可以根據(jù)用戶在系統(tǒng)內(nèi)的操作記錄，抽象出來(lái)一個(gè)用戶的興趣趨向，從而為用戶進(jìn)行有針對(duì)性、有價(jià)值的推薦，而且隨著用戶的數(shù)據(jù)的增多，推薦越準(zhǔn)確。

3 實(shí)驗(yàn)分析

本文采用的開發(fā)平臺(tái)和工具等如2.2節(jié)所述。開發(fā)工具使用IDEA，版本控制工具為Git，項(xiàng)目編譯發(fā)布工具使用Maven。

3.1 文檔存儲(chǔ)

用戶上傳文檔的功能，在上次文檔界面，選擇所要上傳的文件然后點(diǎn)擊上傳。這部分主要是對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證，首先查看數(shù)據(jù)可得Document表里面是否有新的文檔記錄，然后查看HDFS里的是否有該文件。效果圖如圖8所示。

圖8 文檔上傳Fig. 8 Document upload

3.2 文檔搜索

系統(tǒng)事先對(duì)整個(gè)文檔庫(kù)進(jìn)行索引的更新，在系統(tǒng)內(nèi)的搜索輸入框內(nèi)輸入要搜索的關(guān)鍵詞，點(diǎn)擊搜索，系統(tǒng)根據(jù)關(guān)鍵詞查找文檔庫(kù)中匹配該關(guān)鍵詞的文檔。效果如圖9所示

圖9 文檔搜索Fig. 9 Document search

3.3 文檔推薦

系統(tǒng)是根據(jù)用戶的興趣進(jìn)行測(cè)試，即系統(tǒng)收集用戶的搜索關(guān)鍵詞，然后根據(jù)關(guān)鍵詞出現(xiàn)的頻率來(lái)進(jìn)行文檔的推薦，這樣的測(cè)試的時(shí)候只需要不斷的更新用戶的關(guān)鍵詞頻率即可，例如可以不斷地搜索某一個(gè)關(guān)鍵詞，使改用的這個(gè)關(guān)鍵詞的頻率升高，然后去查看系統(tǒng)為該用戶的推薦結(jié)果。效果圖如圖10所示。

圖10 文檔推薦Fig. 10 Document recommendation

4 結(jié)語(yǔ)

通過(guò)搭建基于Hadoop的分布式文件系統(tǒng)，配合Lucene的全文檢索以及基于Mahout數(shù)據(jù)挖掘的智能推薦，完成基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享系統(tǒng)的設(shè)計(jì)與開發(fā)。經(jīng)測(cè)試，系統(tǒng)提高了用戶的文檔管理效率，使用戶可以方便、高效且智能地獲取文檔。

[1]Tom White. Hadoop權(quán)威指南[M]. 北京：清華大學(xué)出版社，2011：42-117. Tom White. Hadoop Authority Guide[M]. Beijing：Tsinghua University Press，2011：42-117.

[2]陸嘉恒. Hadoop實(shí)戰(zhàn)[M]. 2版. 北京：機(jī)械工業(yè)出版社，2012：162-186. Chen Jiaheng. Hadoop Practice[M]. 2nd ed. Beijing：China Machine Press，2012：162-186.

[3]董西成. Hadoop技術(shù)內(nèi)幕：深入解析MapReduce架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)原理[M]. 北京：機(jī)械工業(yè)出版社，2013：76-120. Dong Xicheng. Hadoop Technologies：In-Depth Analysis of MapReduce Architecture Design and Implement Principle [M]. Beijing：China Machine Press，2013：76-120.

[4]吳岳忠，周訓(xùn)志. 面向Hadoop的云計(jì)算核心技術(shù)分析[J]. 湖南工業(yè)大學(xué)學(xué)報(bào)，2013，27(1)：77-80. Wu Yuezhong，Zhou Xunzhi. The Core Technology of Hadoop-Oriented Cloud Computing[J]. Journal of Hunan University of Technology，2013，27(1)：77-80.

[5]吳岳忠，劉琴，李長(zhǎng)云，等. 基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享研究[J]. 小型微型計(jì)算機(jī)系統(tǒng)，2015，36(1)：95-99. Wu Yuezhong，Liu Qin，Li Changyun，et al. Research on Cloud Storage Based Network Document Sharing[J]. Journal of Chinese Computer Systems，2015，36(1)：95-99.

[6]成龍. Lucene搜索引擎開發(fā)進(jìn)階實(shí)戰(zhàn)[M]. 北京：機(jī)械工業(yè)出版社，2015：45-132. Cheng Long. Lucene Search Engine Development and Advanced Practice[M]. Beijing：China Machine Press，2015：45-132.

[7]樊哲，Dmitry Babenko. Mahout算法解析與案例實(shí)戰(zhàn)[M]. 北京：機(jī)械工業(yè)出版社，2014：56-100. Fan Zhe，Dmitry Babenko. Mahout Algorithm Analysis and Cases Practice[M]. Beijing：China Machine Press，2014：56-100.

[8]邁納，舒克. MapReduce設(shè)計(jì)模式[M]. 北京：人民郵電出版社，2014：82-125. Miner Donald，Shook Adam. MapReduce Design Patterns [M]. Beijing：Post & Telecom Press，2014：82-125.

[9]楊波，劉淵，冷文浩. 基于Struts+Hibernate+Spring架構(gòu)的船舶數(shù)字化平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件，2008，25(2)：178-180. Yang Bo，Liu Yuan，Leng Wenhao. Ship Digitized Platform Based On Architecture of Struts & Hibernate & Spring[J]. Computer Applications and Software，2008，25(2)：178-180.

[10]Sierra K， Bates B. 深入淺出Java [M]. 2版. 南京：東南大學(xué)出版社，2005：50-130. Sierra K，Bates B. Explaining Java[M]. 2nd ed. Nanjing：Southeast University Press，2005：50-130.

[11]李剛. 輕量級(jí)JavaEE企業(yè)應(yīng)用Struts2+Spring+Hibernate整合開發(fā)[M]. 北京：電子工業(yè)出版社，2008：210-400. Li Gang. Lightweight JavaEE Enterprise Application：Struts 2 & Spring & Hibernate Integration Development [M]. Beijing：Publishing House of Electronics Industry，2008：210-400.

[12]Eckel Bruce . Java編程思想[M]. 4版. 北京：機(jī)械工業(yè)出版社，2007：103-215. Eckel Bruce . Java Programming Thinking[M]. 4th ed. Beijing：China Machine Press，2007：103-215.

（責(zé)任編輯：申劍）

Network Document Sharing System Based on Cloud Storage

Du Honggang，Wu Yuezhong
（School of Computer and Communication，Hunan University of Technology，Zhuzhou Hunan 412007，China）

In view of the difficult problem of massive document acquisition, the network document sharing system based on cloud storage is designed and developed. The system uses Hadoop，Lucene and Mahout to achieve the document storage, full-text search and recommendation. The test shows that the network file sharing system can be used to obtain the documents more quickly and efficiently.

cloud storage；document sharing；full-text retrieval；recommendation

TP338.8

1673-9833(2015)05-0072-05

10.3969/j.issn.1673-9833.2015.05.015

2015-08-15

國(guó)家自然科學(xué)青年科學(xué)基金資助項(xiàng)目（61502163），湖南省教育廳科研基金資助項(xiàng)目（14C0323），湖南工業(yè)大學(xué)科研基金資助項(xiàng)目（2014HZX16, KFK1402）

杜紅剛（1994-），男，安徽宿州人，湖南工業(yè)大學(xué)學(xué)生，主要研究方向?yàn)樵朴?jì)算，Web技術(shù)，E-mail：970255897@qq.com

吳岳忠（1981-），男，江蘇江陰人，湖南工業(yè)大學(xué)講師，碩士，主要研究方向?yàn)樵朴?jì)算，推薦系統(tǒng)和大數(shù)據(jù)，E-mail：5174979@qq.com

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于云存儲(chǔ)的網(wǎng)絡(luò)文檔共享系統(tǒng)

1 相關(guān)技術(shù)

2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

3 實(shí)驗(yàn)分析

4 結(jié)語(yǔ)