• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大學生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)模塊應用分析與設計

      2022-11-18 10:35:16周勁廷
      中國新技術(shù)新產(chǎn)品 2022年16期
      關(guān)鍵詞:個數(shù)聚類模塊

      劉 謙 周勁廷 羅 晶

      (湖南環(huán)境生物職業(yè)技術(shù)學院,湖南 衡陽 421005)

      0 引言

      隨著互聯(lián)信息技術(shù)的快速發(fā)展,大數(shù)據(jù)呈正相關(guān)趨勢發(fā)展[1]。同樣,各行各業(yè)為掌握市場信息,通常以建立信息資源庫來了解市場實時動態(tài),進而推動行業(yè)發(fā)展。

      目前,為加強對學生創(chuàng)新創(chuàng)業(yè)的了解,部分高校進行了大學生創(chuàng)新創(chuàng)業(yè)平臺設計,一方面,通過單獨的系統(tǒng)進行信息整合,避免信息冗雜,進而建立高校與學生的信息交互平臺;另一方面,進行數(shù)據(jù)可視化分析,通過大數(shù)據(jù)信息整理,可了解行業(yè)發(fā)展趨勢、創(chuàng)業(yè)項目概況、學校項目支持、項目發(fā)展進度等內(nèi)容,進而促進學生創(chuàng)新創(chuàng)業(yè)發(fā)展。另外,授人以魚不如授人以漁,在市場的競爭中,老師們不可能給他們創(chuàng)造真正的“項目創(chuàng)意”,也不可能給他們創(chuàng)造一個好的創(chuàng)業(yè)環(huán)境,在課堂上無法培養(yǎng)出學生的實戰(zhàn)能力。所以,在網(wǎng)絡快速發(fā)展的今天,提高高校信息化水平和大學生創(chuàng)新創(chuàng)業(yè)平臺服務能力已成為當下高校工作的重點。各大高校需要建立創(chuàng)新創(chuàng)業(yè)平臺,并進行大數(shù)據(jù)分析,這對培養(yǎng)學校創(chuàng)新創(chuàng)業(yè)方面的人才具有非常實際的意義。所以該文設計和構(gòu)建了大學生創(chuàng)新創(chuàng)業(yè)平臺,并進行大數(shù)據(jù)處理,為大學生學習提供資源和數(shù)據(jù)支持,進一步提高學生的創(chuàng)新創(chuàng)業(yè)能力。

      1 大學生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)模塊應用分析

      1.1 大數(shù)據(jù)模塊應用分析方法

      當前,部分高校的各類工作大都是以手工方式進行,信息分散在校園各個單位和個人手里,各個部門相互聯(lián)系較少,信息交互性差,使有關(guān)校園領(lǐng)導和主管干部難以形成一個完整的認識,無法準確地了解學生創(chuàng)新創(chuàng)業(yè)活動的現(xiàn)狀,也就無法制定出有針對性的相關(guān)政策,這對創(chuàng)新創(chuàng)業(yè)工作的有效開展是非常不利的。另一方面,企業(yè)的創(chuàng)新性工作不斷深化,資料日益增多,但也日益零散,因此對大學生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進行整合,了解數(shù)據(jù)動態(tài)、學生創(chuàng)業(yè)項目、項目領(lǐng)域等內(nèi)容是十分必要的?!按髮W生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)處理”可保證學生能對大數(shù)據(jù)處理信息進行整合劃分,以便學生做好規(guī)劃,實施項目。

      為保證數(shù)據(jù)的有效性,該系統(tǒng)設計主要圍繞數(shù)據(jù)相關(guān)算法、數(shù)據(jù)爬取、數(shù)據(jù)清洗等方面進行研究,其中在對大學生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)模塊進行應用分析時發(fā)現(xiàn),爬取數(shù)據(jù)并不能直接利用,需要對數(shù)據(jù)進行聚類分析,才能了解大學生在各行業(yè)的創(chuàng)業(yè)情況和側(cè)重行業(yè),進而為大學生創(chuàng)業(yè)提供幫助。

      1.1.1 模糊集

      模糊集合是用來表達模糊性概念的集合。在大學生創(chuàng)新創(chuàng)業(yè)平臺設計中創(chuàng)業(yè)項目與行業(yè)有關(guān),通過模糊集并利用項目相關(guān)度對內(nèi)容進行劃分,有助于數(shù)據(jù)進行聚類分析。

      先給定U為區(qū)域,那么從U到單位區(qū)間[0,1] 的映射μA:U→[0,1]是U上的一個模糊集(或模糊子集)[2]。映射μA(x)是函數(shù),叫作模糊集A的隸屬函數(shù):對每個x∈U,μA(x)叫作元素x對模糊集A的隸屬度。μA(x)的值越接近于1,表示x隸屬于A的程度越大;μA(x)的值越接近于0,表示隸屬于A的程度越小。

      1.1.2 聚類分析

      聚類分析是將一個數(shù)據(jù)對象的集合歸并,以相似的物體構(gòu)成的多個類別進行歸類的方法。在數(shù)據(jù)分析之前,需要先查看大學生創(chuàng)業(yè)網(wǎng)數(shù)據(jù),包括行業(yè)數(shù)據(jù)中是否有異常值、無效樣本等,這樣能保證數(shù)據(jù)有效聚類。如果有異常值則需要進行處理,然后再進行分析。如圖1所示,根據(jù)不同的數(shù)據(jù)的間距來進行聚類,并將相鄰的數(shù)據(jù)物件分成一簇。

      根據(jù)圖1所示,進行大學生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析時主要采用聚類算法,在聚類算法中“+”為聚類中心,進行聚類中心的選定時,可對大學生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)和群集的關(guān)聯(lián)程度進行運算,獲得最佳的聚類中心。數(shù)據(jù)根據(jù)關(guān)聯(lián)性可劃分為一個類別,將聚類中心的輸出數(shù)據(jù)用作該算法的聚類中心,保證各類別信息數(shù)據(jù)準確。

      1.2 大學生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)聚類分析

      將大學生創(chuàng)新創(chuàng)業(yè)平臺設計數(shù)據(jù)分為4種類型,利用隸屬函數(shù)實現(xiàn)這4種類型(數(shù)值型、布爾型、空值和類屬型)的數(shù)據(jù)的初始化處理[3]。

      1.2.1 布爾屬性的的隸屬函數(shù)

      布爾屬性值相對來說較為簡單,在該次分析中以布爾形式存在。N是“是”或者“否”的個數(shù),則隸屬函數(shù)如公式(1)所示。

      在該次分析中以布爾形式存在。N是“是”或者“否”的個數(shù),則隸屬函數(shù)如公式(1)所示。

      式中:n為U中數(shù)據(jù)的總個數(shù);U為數(shù)據(jù)域。

      1.2.2 數(shù)值屬性的隸屬函數(shù)

      I是總類數(shù),Ci是第i個類,N(Ci)是類Ci包括的屬性值的個數(shù),則隸屬函數(shù)如公式(2)所示。

      1.2.3 類屬屬性值的隸屬函數(shù)

      類屬屬性值的隸屬函數(shù),是從有限分類集中取得某一類值。劃分相同屬性值為同一類,并需要考慮各類屬性值個數(shù)在總的分類集中所占的比例。

      J是屬性的分類數(shù),Cj是第j個類,N(Cj)是類Cj包括的屬性值的個數(shù),則類屬屬性值的隸屬函數(shù)如公式(3)所示。

      1.2.4 空值屬性值的隸屬函數(shù)

      空值屬性值對應于其所屬的屬性值特性,如果某個屬性的空值個數(shù)和總的元素個數(shù)之比例超過限定閩值Z0,可以在聚類分析時不考慮此屬性;對比例低于Z0的屬性,可設定3個等級(高、中、低),對應空值的個數(shù)所占總數(shù)的比例,分為高、中、低隸屬度,其隸屬函數(shù)如公式(4)所示。

      式中:Cij是第i個元素、第j個屬性的屬性值;r0為空值所占比例;h0為高比例閩值;l0為低比例閾值。

      1.3 初始化數(shù)據(jù)的聚類

      初始化數(shù)據(jù)的聚類可采用模糊矩陣聚類方法。設論域為U,元素個數(shù)為|U|,進行聚類的步驟如下:

      根據(jù)歐幾里得距離公式,R的階數(shù)為|U|,計算R矩陣的元素rij;經(jīng)過計算后得到R矩陣,見表1,大學生創(chuàng)新創(chuàng)業(yè)平臺設計大數(shù)據(jù)處理模塊模糊相似關(guān)系矩陣如公式(5)所示,通過表1可以劃分創(chuàng)業(yè)數(shù)據(jù)信息。

      表1 聚類分析分類表

      式中:M為屬性個數(shù);Sik為第i行、第k列的屬性值。

      表1是利用大學生創(chuàng)業(yè)網(wǎng)數(shù)據(jù)信息進行聚類分析的,主要采用2021年數(shù)據(jù)進行數(shù)據(jù)爬取以及數(shù)據(jù)聚類分析,并根據(jù)行業(yè)、地區(qū)、項目等指標進行數(shù)據(jù)可視化分析,進而建立系統(tǒng)數(shù)據(jù)圖表,有利于大學生創(chuàng)新創(chuàng)業(yè)平臺信息推送,并給相關(guān)學生給予數(shù)據(jù)指導。

      2 大學生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)模塊應用設計

      2.1 系統(tǒng)功能構(gòu)建分析

      該系統(tǒng)爬取主要針對網(wǎng)站信息(全國大學生創(chuàng)業(yè)服務網(wǎng)ncss.cn)進行爬取,因此選用較為簡單的BS4框架進行數(shù)據(jù)爬取[4]。相比XPath和正則表達式,BS4語法更簡單易懂。其主要步驟如下:1) 進行數(shù)據(jù)爬取時,需要導入Requests庫和BeautifulSoup庫函數(shù)。2)使用Requests抓取全國大學生創(chuàng)業(yè)服務網(wǎng),把要爬取的整個頁面抓取下來。3)使用BeautifulSoup中的find()和find_all()抓取需要的標簽內(nèi)容。

      因為網(wǎng)頁數(shù)據(jù)可能會涉及翻頁,所以需要設計循環(huán)控制爬取的目標網(wǎng)頁范圍。爬到數(shù)據(jù)并不能夠直接使用,需要進行預處理。另外,數(shù)據(jù)為jason格式,因此使用jason.loads將其轉(zhuǎn)化為數(shù)組,需要進行去除空數(shù)據(jù)和錯誤數(shù)據(jù)。處理完畢后保存到本地備用。

      大學生創(chuàng)新創(chuàng)業(yè)平臺其系統(tǒng)總體的E-R圖,如圖2所示。

      如圖2所示,平臺是基于學生構(gòu)建的,所以需要為學生提供有效數(shù)據(jù)。建立大學生創(chuàng)新創(chuàng)業(yè)平臺時,可通過Wiki的技術(shù)結(jié)構(gòu)模型來實現(xiàn)學習資源的開發(fā),既可以實現(xiàn)自身的功能,并根據(jù)學員具體的學習需要與學校的教學內(nèi)容、社會工作信息等進行對接,借助平臺的語義關(guān)聯(lián)進行各方數(shù)據(jù)信息的精準連接,也可以將其納入校園整體教育教學平臺當中作為一個子模塊。該系統(tǒng)的主要實體包括課程、設施、團隊、指導老師、項目、報告、項目成績、計算公式、評審成績、評審指標等,在分析各實體之間的關(guān)系后形成了該系統(tǒng)的邏輯模型。

      圖2 系統(tǒng)架構(gòu)圖

      2.2 大數(shù)據(jù)模塊應用詳細設計

      2.2.1 數(shù)據(jù)獲取

      該系統(tǒng)經(jīng)由Python軟件爬蟲,主要通過Requests庫爬取大學生創(chuàng)業(yè)網(wǎng)https://cy.ncss.cn/search/projects,進行數(shù)據(jù)分析,以建立大學生創(chuàng)新創(chuàng)業(yè)平臺數(shù)據(jù)信息庫,為大學生創(chuàng)業(yè)提供優(yōu)質(zhì)服務。

      2.2.2 數(shù)據(jù)爬取

      該系統(tǒng)進行數(shù)據(jù)爬取,在https://cy.ncss.cn/search/projects需要登錄才能顯示頁面。

      數(shù)據(jù)來源:發(fā)送請求時,請求要帶上Cookie,然后使用Session去get(獲得)“https://cy.ncss.cn/search/projects”數(shù)據(jù)。

      數(shù)據(jù)爬?。簲?shù)據(jù)本系統(tǒng)采用Scrapy進行爬蟲,利用純Python代碼實現(xiàn)的一種高層次的、快速的屏幕抓取和網(wǎng)頁抓取框架,用于從指定Web頁面中抓取數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)。在爬蟲技術(shù)中,大學生創(chuàng)新創(chuàng)業(yè)平臺設計的大數(shù)據(jù)模塊中的Scrapy用于對URL進行抓取,然后調(diào)用BeautifulSoup庫對抓取的網(wǎng)頁進行解析,獲取相關(guān)數(shù)據(jù)。通過網(wǎng)站獲取數(shù)據(jù),對所在領(lǐng)域、學科成果轉(zhuǎn)化、融資階段以及所在區(qū)域等數(shù)據(jù)能夠有效進行數(shù)據(jù)爬取,經(jīng)由聚類分析進行數(shù)據(jù)清洗,利用F12打開開發(fā)者工具,可獲得數(shù)據(jù)。代碼如下:

      2.2.3 大學生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)模塊數(shù)據(jù)爬取結(jié)果分析

      進行大學生創(chuàng)新創(chuàng)業(yè)平臺數(shù)據(jù)爬取時,主要采用模糊算法和聚類算法[5]。為了有更精確的精度控制,可以使用NumPy擴展庫。使用round()內(nèi)置方法,round()如果只有一個數(shù)作為參數(shù),不指定位數(shù)時,返回的是一個整數(shù),而且是最靠近的整數(shù)(這點類似四舍五入)。但是當出現(xiàn)“.5”時,兩邊的距離都一樣,round()取靠近的偶數(shù),例如round(2.5)=2。當指定取舍的小數(shù)點位數(shù)時,一般情況也是使用四舍五入的規(guī)則,但是碰到0.5這樣的情況,如果要取舍的位數(shù)前的小數(shù)是奇數(shù),則直接舍棄,遇到偶數(shù)時則向上取舍。

      該大學生創(chuàng)新創(chuàng)業(yè)平臺爬蟲系統(tǒng)的爬取對象選取大學生創(chuàng)業(yè)網(wǎng),因為網(wǎng)站都開放了點擊數(shù)量查詢,系統(tǒng)爬取可通過更改URL的pageIndex參數(shù)即可獲取每頁的數(shù)據(jù),其編寫步驟如下:1)寫請求頭Header和URL。2)獲取頁面。3)提取數(shù)據(jù),翻頁,寫入Excel中,并形成excel數(shù)據(jù)統(tǒng)計表。代碼如下:

      該數(shù)據(jù)結(jié)果可采用vue.js實現(xiàn),在該業(yè)務類中完成在前端界面中的展示,當前臺用戶注冊后,會通過與后臺處理自然語言的算法來處理前臺傳回的數(shù)據(jù)??蛇M行操作數(shù)據(jù)庫,然后把結(jié)果返回給前端網(wǎng)頁數(shù)據(jù)以圖和文字的形式提現(xiàn)到前端界面。

      3 結(jié)語

      該文對大學生創(chuàng)新創(chuàng)業(yè)平臺設計中大數(shù)據(jù)模塊進行了論述,分析了該系統(tǒng)大數(shù)據(jù)模塊的基本算法,并進行數(shù)據(jù)采集,通過獲取URL、響應內(nèi)容、數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)持久化等,根據(jù)爬蟲實際情況進行項目名、省份以及領(lǐng)域等多元素的分類和數(shù)據(jù)統(tǒng)計,并加以處理,在PyCharm中運行Python API類,使項目等信息可在注冊過的用戶中展示,游客登錄時展示的則是空白信息,同時采用vue.js實現(xiàn)對前端頁面的可視化。

      猜你喜歡
      個數(shù)聚類模塊
      28通道收發(fā)處理模塊設計
      “選修3—3”模塊的復習備考
      怎樣數(shù)出小正方體的個數(shù)
      等腰三角形個數(shù)探索
      怎樣數(shù)出小木塊的個數(shù)
      怎樣數(shù)出小正方體的個數(shù)
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進的遺傳算法的模糊聚類算法
      選修6 第三模塊 International Relationships
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      古田县| 天长市| 平顶山市| 盘山县| 绥德县| 宜春市| 锡林浩特市| 平顶山市| 彭阳县| 镇远县| 彝良县| 恭城| 平阴县| 济南市| 山东省| 虹口区| 德州市| 积石山| 浦江县| 项城市| 吴江市| 益阳市| 区。| 招远市| 达日县| 简阳市| 通江县| 米泉市| 宁都县| 彭水| 临高县| 岳阳市| 于都县| 平乐县| 甘孜| 西盟| 英德市| 宜君县| 衡阳市| 保定市| 贺州市|