• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TF-IDF和人工神經(jīng)網(wǎng)絡(luò)模型的眾籌影響因素研究

      2019-07-03 03:12:40于昊卿
      現(xiàn)代商貿(mào)工業(yè) 2019年10期
      關(guān)鍵詞:影響因素分析人工神經(jīng)網(wǎng)絡(luò)

      于昊卿

      摘要:隨著社會(huì)經(jīng)濟(jì)的發(fā)展,教育資源不平衡的情況正在愈演愈烈。很多地區(qū)的適齡兒童因?yàn)闆]有合適的經(jīng)濟(jì)條件和物質(zhì)基礎(chǔ),就難以享受到良好的教育資源。在這種背景下,教育眾籌平臺(tái)成了一個(gè)協(xié)調(diào)教育資料的渠道,眾多貧困地區(qū)的教師可以在平臺(tái)上發(fā)布申請(qǐng)書而獲得社會(huì)大眾的關(guān)注和支持。基于美國(guó)眾籌網(wǎng)站的18萬條申請(qǐng)記錄數(shù)據(jù)進(jìn)行了一系列分析,對(duì)教育眾籌成敗的影響因素做了深入討論。首先,基于TF-IDF算法,對(duì)申請(qǐng)書中的文本關(guān)鍵詞進(jìn)行了提取,使得大眾可以快速地了解到申請(qǐng)書的核心訴求?;赑ython計(jì)算了單詞的TF-IDF值,并統(tǒng)計(jì)出了最常出現(xiàn)的一些關(guān)鍵詞,并分析了關(guān)鍵詞對(duì)申請(qǐng)結(jié)果的影響因素。之后,建立了人工神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了對(duì)申請(qǐng)結(jié)果的精準(zhǔn)預(yù)測(cè),并對(duì)項(xiàng)目的申請(qǐng)者和審核者提出了合理化的建議。

      關(guān)鍵詞:TF-IDF算法;人工神經(jīng)網(wǎng)絡(luò);影響因素分析;教育眾籌

      中圖分類號(hào):F23文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2019.10.051

      1前言

      眾籌網(wǎng)站www.donorschoose.org由一位美國(guó)人建立的,該眾籌平臺(tái)得到了世界各地人民的贊同與支持,K12學(xué)齡段的老師們都可在該眾籌平臺(tái)上發(fā)出請(qǐng)求書,申請(qǐng)社會(huì)上的幫助以改善學(xué)生的教學(xué)環(huán)境。因此,研究這些請(qǐng)求書能否被社會(huì)人士認(rèn)同并成功獲得相應(yīng)的教育資源成為了眾籌平臺(tái)和老師們迫切關(guān)注的問題。它既能幫助眾籌平臺(tái)更關(guān)注高質(zhì)量的請(qǐng)求,減少由于審核這些請(qǐng)求所帶來的人力成本,又能幫助老師更好的發(fā)布請(qǐng)求來獲得社會(huì)人士的支持。

      對(duì)于眾籌影響因素的分析,國(guó)內(nèi)外學(xué)者進(jìn)行了諸多研究。Mollick分析了Kickstarter眾籌網(wǎng)的數(shù)據(jù),給出項(xiàng)目質(zhì)量、項(xiàng)目目的以及項(xiàng)目發(fā)起人地理位置是重要因素。Colombo通過實(shí)證研究發(fā)現(xiàn),項(xiàng)目發(fā)起人與項(xiàng)目支持者之間的聯(lián)系強(qiáng)度也是一個(gè)影響眾籌成功的關(guān)鍵因素。Frydrych在研究中指出目標(biāo)金額對(duì)眾籌融資成功具有反向的影響,Agrawal還指出地理位置也是影響項(xiàng)目成功的關(guān)鍵因素。在國(guó)內(nèi)學(xué)術(shù)界,黃健青通過對(duì)追夢(mèng)網(wǎng)的實(shí)證分析,指出目標(biāo)額度、支持者、最小投資額和最小投資額人數(shù)是影響項(xiàng)目成功的主要因素。鄭海超等指出融資額、融資時(shí)間和評(píng)論數(shù)是影響項(xiàng)目成功的關(guān)鍵因素。曾江紅等從社會(huì)資本對(duì)眾籌成功的影響因素研究中指出融資額與項(xiàng)目成功為負(fù)相關(guān)關(guān)系。

      本文后續(xù)章節(jié)結(jié)構(gòu)為:第二章介紹了數(shù)據(jù)的來源、介紹和預(yù)處理過程;第三章展示了利用TF-IDF算法提取關(guān)鍵詞的步驟,以及優(yōu)化的流程和優(yōu)化前后的提取結(jié)果;第四章建立了人工神經(jīng)網(wǎng)絡(luò)模型,通過優(yōu)化得到了更加精準(zhǔn)的預(yù)測(cè)結(jié)果;第五章總結(jié)了全文內(nèi)容,并對(duì)未來發(fā)展提出了展望。

      2數(shù)據(jù)簡(jiǎn)介和數(shù)據(jù)預(yù)處理

      本文應(yīng)用的數(shù)據(jù),主要是來自于美國(guó)教育眾籌網(wǎng)站(www.donorschoose.org)的申請(qǐng)記錄。該網(wǎng)站始建于2000年,由一名紐約的老師創(chuàng)建。數(shù)據(jù)整體分為兩個(gè)部分:

      Data.csv 文件:包含了一個(gè)申請(qǐng)書填寫的主題內(nèi)容,包括項(xiàng)目ID、教師ID、教師稱謂、申請(qǐng)年級(jí)、申請(qǐng)地區(qū)、申請(qǐng)時(shí)間、申請(qǐng)類別、申請(qǐng)書標(biāo)題、申請(qǐng)書文本、資源需求概述、教師申請(qǐng)過的項(xiàng)目數(shù)和項(xiàng)目申請(qǐng)是否通過。

      Resource.csv 文件:包含了項(xiàng)目申請(qǐng)的所有資源,包括項(xiàng)目ID、申請(qǐng)物品的名稱、申請(qǐng)物品的數(shù)量和申請(qǐng)物品的單價(jià)。

      通過對(duì)數(shù)據(jù)的瀏覽和分析,首先對(duì)數(shù)據(jù)進(jìn)行了如下幾步的預(yù)處理工作:

      (1)將項(xiàng)目的申請(qǐng)時(shí)間、教師曾經(jīng)的申請(qǐng)數(shù)量進(jìn)行離散化處理。

      由于所有的18萬條數(shù)據(jù)基本集中在同一年,因此我們將“申請(qǐng)時(shí)間”數(shù)據(jù)轉(zhuǎn)化為“所在月份”,成為一個(gè)具有12個(gè)離散屬性的特征變量;同時(shí)為了應(yīng)用后續(xù)的分類預(yù)測(cè)模型,本文將“教師曾經(jīng)的申請(qǐng)數(shù)量”進(jìn)行離散化處理,根據(jù)數(shù)據(jù)的分布情況將該屬性分為8個(gè)間隔不等的區(qū)間段,轉(zhuǎn)化為具有8個(gè)離散屬性的特征變量。

      (2)將申請(qǐng)書中有所“project_essay”字段進(jìn)行合并。

      由于申請(qǐng)網(wǎng)站于2016年5月17日進(jìn)行過改版,因此該時(shí)間前后的文本數(shù)據(jù)存在不一致性。經(jīng)過分析可知,改版前的前兩個(gè)文本信息“project_essay1”和“project_essay2”的內(nèi)容基本與改版后的“project_essay1”一致,而改版前的“project_essay3”、“project_essay4”基本與改版后的“project_essay2”一致。因此,考慮到一個(gè)申請(qǐng)書全文的內(nèi)容,本文將每個(gè)申請(qǐng)書的2-4個(gè)字段的文本信息進(jìn)行合并,合并后的文字包含了一個(gè)申請(qǐng)書的核心文本信息,可以為關(guān)鍵詞提取和預(yù)測(cè)模型建立做好準(zhǔn)備。

      3基于TF-IDF算法提取文本關(guān)鍵信息

      3.1利用TF-IDF算法進(jìn)行關(guān)鍵詞初篩

      本文基于Python實(shí)現(xiàn)了完整的關(guān)鍵詞提取和結(jié)果統(tǒng)計(jì)過程。首先針對(duì)18萬條申請(qǐng)數(shù)據(jù)的申請(qǐng)書文本進(jìn)行分詞和詞性標(biāo)注,利用NLTK自然語言處理工具包實(shí)現(xiàn)該功能。之后進(jìn)一步利用NLTK的語料庫去除文本中包含的停用詞以及一些亂碼文字,從而有了標(biāo)注好不同詞性的單詞列表,以供后面TF-IDF算法應(yīng)用。

      單詞的TF-IDF值的計(jì)算分兩個(gè)步驟,首先是根據(jù)該單詞在本文中出現(xiàn)的次數(shù),計(jì)算詞頻即 TF 部分:

      TF=詞語在本文出現(xiàn)次數(shù)/本文單詞總數(shù)

      詞頻部分利用 sklearn 工具包中的 CountVectorizer() 函數(shù)來計(jì)算,該函數(shù)可以得到每個(gè)單詞在每篇文章中出現(xiàn)的詞頻,即形成所有單詞的“詞頻矩陣”。

      第二步是計(jì)算該單詞在其他文本中出現(xiàn)的情況,利用“逆文本頻率”即“IDF”來衡量:

      IDF=lg (本文庫總文檔數(shù)/包含本單詞的文檔數(shù)+1)

      這部分利用sklearn 工具包中的 TfidfTransformer() 函數(shù)來計(jì)算,該函數(shù)能夠基于詞頻矩陣來計(jì)算出每個(gè)單詞在每篇文章中的TF-IDF值。進(jìn)一步地,根據(jù)一篇文章中所有單詞TF-IDF值排序,可以找到該文章的幾個(gè)關(guān)鍵詞。這里展示某篇文章的內(nèi)容和關(guān)鍵詞提取結(jié)果:

      "My seventh graders dream big.They can't wait to go to college and they dream of college and careers in healthcare and engineering and law……My students love that they have a choice about where to sit,and thinking about what type of seat helps them learn the most helps them develop self awareness and be better advocates for their own education."

      關(guān)鍵詞提取結(jié)果:Dream,Love,Wait,help,better

      可以看出,關(guān)鍵詞的提取具有一定的效果,能反映出文章的思想和主要用詞。進(jìn)一步地對(duì)所有文章提取出的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),發(fā)現(xiàn)最高頻的關(guān)鍵詞統(tǒng)計(jì)結(jié)果為:

      Student,School,Classroom,Learn,Need,Work,Learn

      由此可見,在所有的申請(qǐng)書中,Student和School作為關(guān)鍵詞出現(xiàn)的次數(shù)最多,這也與教育眾籌的大背景有很大關(guān)系。另外在申請(qǐng)書中,表示需求、愿望的詞也會(huì)經(jīng)常出現(xiàn)且提取為關(guān)鍵詞,說明很多申請(qǐng)書的寫作都是以描述需求、表達(dá)愿望為主。

      3.2基于改進(jìn)的TF-IDF算法進(jìn)行文本分析

      由于目前提取出的高頻關(guān)鍵詞中,Student和School等單詞代表性不強(qiáng)、并不能很好地反應(yīng)文章的特殊需求;同時(shí)缺乏對(duì)比分析,難以得到非常有價(jià)值的結(jié)論。因此,進(jìn)一步做以下兩個(gè)方面的優(yōu)化:

      (1)篩除所有文本中的“常用詞”:本文對(duì)所有單詞在整個(gè)文本庫中出現(xiàn)的次數(shù)進(jìn)行了統(tǒng)計(jì)。對(duì)于在超過半數(shù)的文章中都出現(xiàn)過的單詞(例如Student、School等),將其定義為本類文章的“常用詞”。在進(jìn)行TF-IDF分析之前,先把每一篇文章詞語中的“常用詞”統(tǒng)一篩除,然后對(duì)剩余的詞語進(jìn)行分析和提取。

      (2)根據(jù)申請(qǐng)書的申請(qǐng)結(jié)果,本文將所有數(shù)據(jù)分為“通過”和“不通過”的兩個(gè)部分,并對(duì)兩個(gè)部分分別進(jìn)行關(guān)鍵詞提取。根據(jù)兩個(gè)部分的關(guān)鍵詞提取結(jié)果的差異,來分析一下文本因素對(duì)于申請(qǐng)書是否通過的影響。

      在進(jìn)行以上兩步的處理之后,本文選取Literacy&Language,Music & The Arts類別的所有申請(qǐng),應(yīng)用TF-IDF方法進(jìn)行兩個(gè)部分的關(guān)鍵詞提取。得到結(jié)果為“通過”和“不通過”的高頻關(guān)鍵詞分別如表1。

      通過對(duì)比兩類申請(qǐng)書的最高頻出現(xiàn)的5個(gè)關(guān)鍵詞,一方面可以看出本文的處理是很有成效的,一些常見的、很普適性的詞語沒有再出現(xiàn)于高頻的關(guān)鍵詞中。另一方面,通過對(duì)比兩類申請(qǐng)書最常出現(xiàn)的5個(gè)關(guān)鍵詞可以看出,能夠申請(qǐng)通過的申請(qǐng)書,普遍的用詞都更加客觀、精準(zhǔn),對(duì)需求的表述也更加清晰;然而不通過的申請(qǐng)書,描述往往都比較抽象、籠統(tǒng),沒有精準(zhǔn)地將需求表述清楚,也很難得到投資人的認(rèn)可和支持。

      4申請(qǐng)結(jié)果預(yù)測(cè)模型的建立與求解

      人工神經(jīng)網(wǎng)絡(luò)無需事先確定輸入輸出之間映射關(guān)系的數(shù)學(xué)方程,僅通過自身的訓(xùn)練,學(xué)習(xí)某種規(guī)則,在給定輸入值時(shí)得到最接近期望輸出值的結(jié)果。作為一種智能信息處理系統(tǒng),人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)其功能的核心是算法。BP神經(jīng)網(wǎng)絡(luò)是一種按誤差反向傳播(簡(jiǎn)稱誤差反傳)訓(xùn)練的多層前饋網(wǎng)絡(luò),其算法稱為BP算法,它的基本思想是梯度下降法,利用梯度搜索技術(shù),以期使網(wǎng)絡(luò)的實(shí)際輸出值和期望輸出值的誤差均方差為最小。

      BP網(wǎng)絡(luò)是在輸入層與輸出層之間增加若干層(一層或多層)神經(jīng)元,這些神經(jīng)元稱為隱單元,它們與外界沒有直接的聯(lián)系,但其狀態(tài)的改變,則能影響輸入與輸出之間的關(guān)系,每一層可以有若干個(gè)節(jié)點(diǎn)。BP神經(jīng)網(wǎng)絡(luò)的計(jì)算過程由正向計(jì)算過程和反向計(jì)算過程組成。正向傳播過程,輸入模式從輸入層經(jīng)隱單元層逐層處理,并轉(zhuǎn)向輸出層,每一層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。如果在輸出層不能得到期望的輸出,則轉(zhuǎn)入反向傳播,將誤差信號(hào)沿原來的連接通路返回,通過修改各神經(jīng)元的權(quán)值,使得誤差信號(hào)最小。

      本文所使用的所有BP神經(jīng)網(wǎng)絡(luò)模型通過調(diào)用python中的sklearn機(jī)器學(xué)習(xí)庫來實(shí)現(xiàn),在該模型中,考慮了如前兩個(gè)模型一致的特征。利用train_test_split()函數(shù)將訓(xùn)練集和測(cè)試集劃分為4:1的比例,并將特征和類別分開,產(chǎn)生了 X_train、Y_train、X_train、X-test四個(gè)變量用于訓(xùn)練和測(cè)試。

      為了便于神經(jīng)網(wǎng)絡(luò)的擬合,本文還針對(duì)每個(gè)特征進(jìn)行了歸一化處理,防止數(shù)字過大或過小對(duì)結(jié)果產(chǎn)生影響。訓(xùn)練后的模型在測(cè)試集上的結(jié)果如表2。

      可以看出,與其他模型相比,人工神經(jīng)網(wǎng)絡(luò)對(duì)模型的預(yù)測(cè)結(jié)果更加準(zhǔn)確,而且對(duì)“通過”和“不通過”樣本的預(yù)測(cè)性能比較平均。這也體現(xiàn)出了人工神經(jīng)網(wǎng)絡(luò)更強(qiáng)的非線性運(yùn)算能力。

      5結(jié)論與展望

      本文基于美國(guó)眾籌網(wǎng)站的18萬條申請(qǐng)記錄數(shù)據(jù)進(jìn)行了一系列分析,對(duì)教育眾籌成敗的影響因素做了深入討論。首先,本文基于TF-IDF算法,對(duì)申請(qǐng)書中的文本關(guān)鍵詞進(jìn)行了提取,使得大眾可以快速地了解到申請(qǐng)書的核心訴求。基于Python計(jì)算了單詞的TF-IDF值,并統(tǒng)計(jì)出了最常出現(xiàn)的一些關(guān)鍵詞。為了進(jìn)一步提高關(guān)鍵詞提取的代表性,我們一方面通過篩選排除了在半數(shù)以上文章中都出現(xiàn)過的“常用詞”,另一方面將所有申請(qǐng)書分為“通過”和“不通過”兩個(gè)部分,進(jìn)行分別的關(guān)鍵詞提取,從而分析了關(guān)鍵詞對(duì)申請(qǐng)結(jié)果的影響因素。之后本文建立了人工神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了對(duì)申請(qǐng)結(jié)果的精準(zhǔn)預(yù)測(cè),并對(duì)項(xiàng)目的申請(qǐng)者和審核者提出了合理化的建議。

      參考文獻(xiàn)

      [1]Mollick.The dynamics of crowdfunding:An exploratory study[J].Journal of Business Venturing,2013,59(4):1805-1844.

      [2]Colombo S.Product differentiation,price discrimination and collusion[J].Research in Economics,2014,64(1):18-27.

      [3]Frydrych D,Bock A J,Kinder T,Koech B.Exploring entrepreneurial legitimacy in reward-based crowdfunding[J].Venture Capital,2014,16(3):247-269.

      [4]Agrawal A K,Catalini C,Goldfarb A.The geography of crowdfunding[R].National bureau of economic research,2011.

      [5]黃健青,劉雪霏,鄭建明.眾籌項(xiàng)目成功的關(guān)鍵因素基于KIA與AON融資模式的實(shí)證研究[J].財(cái)貿(mào)經(jīng)濟(jì),2015,(9):74-84.

      [6]鄭海超,楊婷婷,陳冬宇,萬能.創(chuàng)新項(xiàng)目股權(quán)眾籌融資績(jī)效的影響因素研究[J].中國(guó)軟科學(xué),2015,(1):130-138.

      [7]曾江紅,甘信禹.社會(huì)資本對(duì)眾籌項(xiàng)目融資成功率影響的實(shí)證研究[J].技術(shù)經(jīng)濟(jì),2015,33(11):90-95.

      猜你喜歡
      影響因素分析人工神經(jīng)網(wǎng)絡(luò)
      利用人工神經(jīng)網(wǎng)絡(luò)快速計(jì)算木星系磁坐標(biāo)
      人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)簡(jiǎn)單字母的識(shí)別
      電子制作(2019年10期)2019-06-17 11:45:10
      滑動(dòng)電接觸摩擦力的BP與RBF人工神經(jīng)網(wǎng)絡(luò)建模
      集群背景下服務(wù)業(yè)FDI技術(shù)溢出效應(yīng)影響因素分析
      風(fēng)電場(chǎng)工程建設(shè)全過程造價(jià)影響因素分析
      薪酬激勵(lì)對(duì)員工滿意度影響問題的研究
      商(2016年33期)2016-11-24 18:59:01
      水稻生產(chǎn)中的要素投入粗放型及影響因素分析
      黑龍江省煤炭物流發(fā)展與動(dòng)態(tài)聯(lián)盟構(gòu)建的影響因素分析
      基于回歸分析法的高??萍籍a(chǎn)出能力影響因素分析與預(yù)測(cè)研究
      考試周刊(2016年3期)2016-03-11 10:06:38
      人工神經(jīng)網(wǎng)絡(luò)和安時(shí)法電池SOC估計(jì)
      象山县| 汝州市| 休宁县| 庄河市| 白水县| 新余市| 湖州市| 济源市| 崇明县| 桃江县| 连州市| 渝中区| 朝阳区| 武乡县| 盐城市| 五河县| 井研县| 迭部县| 汪清县| 鸡东县| 青冈县| 浦东新区| 青神县| 永善县| 从化市| 宜君县| 泸州市| 醴陵市| 辰溪县| 鹤庆县| 怀化市| 井冈山市| 定州市| 五河县| 比如县| 清丰县| 甘南县| 临颍县| 鲁甸县| 松潘县| 辽源市|