• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Archer Jockers:用機(jī)器算法解密暢銷(xiāo)小說(shuō)基因

      2019-04-19 08:39陳銘徐麗芳
      出版參考 2019年3期
      關(guān)鍵詞:文本挖掘機(jī)器學(xué)習(xí)暢銷(xiāo)書(shū)

      陳銘 徐麗芳

      摘 要:圖書(shū)咨詢公司Archer Jockers致力于使用人工智能破解圖書(shū)暢銷(xiāo)的一般模式,幫助不同領(lǐng)域的小說(shuō)家改進(jìn)他們的書(shū)稿,以數(shù)據(jù)驅(qū)動(dòng)的角度重新理解、優(yōu)化自己的小說(shuō)創(chuàng)作。此外,Archer Jockers還朝著為出版商、經(jīng)紀(jì)人和其他書(shū)籍業(yè)務(wù)相關(guān)機(jī)構(gòu)和個(gè)人提供定制服務(wù)的方向努力,包括挑選書(shū)籍、撰寫(xiě)圖書(shū)簡(jiǎn)介、書(shū)籍分析和暢銷(xiāo)書(shū)趨勢(shì)分析等,期望運(yùn)用算法找到最佳的小說(shuō)暢銷(xiāo)方案。

      關(guān)鍵詞:Archer Jockers 暢銷(xiāo)書(shū) 文本挖掘 機(jī)器學(xué)習(xí)

      暢銷(xiāo)書(shū)的概念最早起源于美國(guó),《大不列顛百科全書(shū)》對(duì)“暢銷(xiāo)書(shū)”(Bestseller)的定義是:在某個(gè)時(shí)期內(nèi)受到大眾歡迎,銷(xiāo)量在同類書(shū)中位列前茅的圖書(shū),可作為反映大眾文學(xué)趣味和評(píng)價(jià)標(biāo)準(zhǔn)的一種指標(biāo)。作為市場(chǎng)產(chǎn)物,一本暢銷(xiāo)書(shū)雖然不一定能成為經(jīng)典,但出色的銷(xiāo)量證明了它們相當(dāng)契合某個(gè)時(shí)期內(nèi)大眾的欣賞趣味、心理需求和價(jià)值觀念等。這也表明,一個(gè)作家要寫(xiě)出一本暢銷(xiāo)書(shū)必須具備洞察人性和把控故事節(jié)奏的能力,在撰寫(xiě)時(shí)知道如何創(chuàng)造緊湊的情節(jié)和故事的高潮。暢銷(xiāo)書(shū)應(yīng)該是什么樣的?這個(gè)答案也許在作家心中,也可能在出版社編輯和文學(xué)經(jīng)紀(jì)人的運(yùn)作里,但都要經(jīng)過(guò)讀者的檢驗(yàn)。有些書(shū)評(píng)人和編輯認(rèn)為一些書(shū)得以大賣(mài)是巧合和運(yùn)氣,畢竟暗藏于暢銷(xiāo)書(shū)中的獨(dú)特信號(hào)總是讓人無(wú)法捉摸。

      那么,暢銷(xiāo)書(shū)是否有“規(guī)律”可循?來(lái)自斯坦福大學(xué)和蘋(píng)果公司iBooks的自然語(yǔ)言處理專家茱蒂·阿切爾(Jodie Archer)和馬修·喬克思(Matthew Jockers)自2010年共同組成團(tuán)隊(duì),運(yùn)用人工智能技術(shù)研究小說(shuō),花5年時(shí)間分析了近三十年的5000本暢銷(xiāo)小說(shuō),用機(jī)器分類算法得到暢銷(xiāo)書(shū)最一般的構(gòu)成要素,定量和定性相結(jié)合探究暢銷(xiāo)書(shū)的基本原理。Matthew認(rèn)為:“關(guān)于暢銷(xiāo)書(shū)的分析,計(jì)算機(jī)能看到人們無(wú)法直接看到的信息,還能找到暢銷(xiāo)書(shū)最常見(jiàn)和可預(yù)測(cè)的特征?!?016年,Jodie和Matthew在文學(xué)經(jīng)紀(jì)人的推動(dòng)下將他們的發(fā)現(xiàn)總結(jié)成《暢銷(xiāo)書(shū)密碼》(The Bestseller Code)一書(shū)。該書(shū)被翻譯成8種語(yǔ)言出版發(fā)行,兩位研究者也因此成名。隨后,二人于2017年一同創(chuàng)立圖書(shū)咨詢公司阿切爾·喬克思(Archer Jockers)繼續(xù)他們的暢銷(xiāo)書(shū)研究,致力于幫助不同領(lǐng)域的小說(shuō)作家改進(jìn)他們的書(shū)稿,以數(shù)據(jù)驅(qū)動(dòng)的角度重新理解自己的小說(shuō)創(chuàng)作。此外,Archer Jockers還朝著為出版商、經(jīng)紀(jì)人和其他書(shū)籍業(yè)務(wù)商提供定制化服務(wù)的方向努力,期望通過(guò)算法找到最佳的圖書(shū)暢銷(xiāo)方案。

      一、技術(shù)路線:用算法程序“揉碎”和讀取語(yǔ)言數(shù)據(jù)

      Archer Jockers主要通過(guò)算法運(yùn)行作家書(shū)稿,依靠自主研發(fā)的計(jì)算機(jī)程序Bestsellerometer開(kāi)展業(yè)務(wù)工作。這是基于計(jì)算機(jī)科學(xué)和文學(xué)兩個(gè)不同領(lǐng)域的理論開(kāi)發(fā)的運(yùn)算程序,其核心是兩位創(chuàng)始人在研究“暢銷(xiāo)書(shū)密碼”時(shí)開(kāi)發(fā)的算法。機(jī)器擅長(zhǎng)海量閱讀和數(shù)據(jù)分析,可以大規(guī)模處理文本模式和細(xì)節(jié);而人類更傾向于閱讀故事情節(jié)而不會(huì)注意到文字的量化特征。Bestsellerometer則可以將小說(shuō)文本中的語(yǔ)言數(shù)據(jù)“揉碎”后進(jìn)行分析和讀取,并輸出有用的數(shù)據(jù)點(diǎn)幫助作家理解其作品的文風(fēng)、主題、角色和情節(jié)等主要元素。例如,小說(shuō)中平均句子長(zhǎng)度是偏短還是偏長(zhǎng)?敘述和人物對(duì)話的篇幅分別是多少?從情感角度出發(fā)得到的故事情節(jié)線起伏是否貼近暢銷(xiāo)書(shū)的敘述節(jié)奏?經(jīng)過(guò)Jodie和Matthew在研究暢銷(xiāo)書(shū)過(guò)程中長(zhǎng)達(dá)四年的訓(xùn)練,Bestsellerometer閱讀了近萬(wàn)本品質(zhì)不同的小說(shuō),已經(jīng)可以通過(guò)計(jì)算判斷一個(gè)作品是否將會(huì)暢銷(xiāo)。例如,J.K.羅琳的作品在Bestsellerometer的算法模型中得出的暢銷(xiāo)可能性為95%,美國(guó)超級(jí)暢銷(xiāo)書(shū)作家詹姆斯·帕特森作品的暢銷(xiāo)可能性為99.9%。

      為了讓Bestsellerometer的預(yù)測(cè)更為精確,二人進(jìn)行了大量工作,主要包括三個(gè)部分:第一,文本挖掘(Text Mining)。發(fā)現(xiàn)和提取小說(shuō)的文本特征,借助計(jì)算機(jī)程序從書(shū)面文字中挖掘信息。這一步驟屬于自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的研究主題,涉及分詞、識(shí)別句子、詞性標(biāo)注和依存句法等多個(gè)基本任務(wù)。但每一項(xiàng)“基本”任務(wù)對(duì)機(jī)器而言并不意味著“容易”,一旦真正深入研究小說(shuō)語(yǔ)言和語(yǔ)法的工作方式,情況都會(huì)變得相當(dāng)復(fù)雜。即使是教機(jī)器識(shí)別每個(gè)單詞開(kāi)頭和結(jié)尾的分詞任務(wù),也會(huì)出現(xiàn)很多難以解決的情況,例如cant和shouldnt這類帶著標(biāo)點(diǎn)符號(hào)的詞就不能依靠單詞之間的空格來(lái)識(shí)別為兩個(gè)不同的詞。NLP技術(shù)人員通過(guò)編寫(xiě)程序?qū)⒒谝?guī)則的“解析”轉(zhuǎn)向基于統(tǒng)計(jì)推斷的算法,利用詞典和統(tǒng)計(jì)推斷算法教會(huì)機(jī)器在海量閱讀時(shí)消除歧義和處理邊緣情況,包括命名實(shí)體識(shí)別(Named Entity Recognition,NER)等方法(注:NER是Bestsellerometer在自然語(yǔ)言處理過(guò)程中進(jìn)行文本挖掘的一種語(yǔ)言處理方法,目的是識(shí)別語(yǔ)料中人名、地名、組織機(jī)構(gòu)名等命名實(shí)體,判斷小說(shuō)是否暢銷(xiāo)與小說(shuō)人物以及地緣政治背景的選擇等要素是否相關(guān))。第二,機(jī)器學(xué)習(xí)(Machine Learning)。篩選文本挖掘抓取到的文本特征,總結(jié)出與“暢銷(xiāo)元素”強(qiáng)相關(guān)的代表特征。借助機(jī)器學(xué)習(xí)和分類實(shí)驗(yàn),Jodie和Matthew將最初得出的28000個(gè)文本特征進(jìn)行篩選,只留下10%,其中故事發(fā)生地和年份等文本特征被認(rèn)為與“暢銷(xiāo)與否”無(wú)關(guān)。而剩下的文本特征,例如親密關(guān)系主題等被確定為判斷暢銷(xiāo)書(shū)的依據(jù)。第三,機(jī)器歸類。利用前兩個(gè)步驟得出的暢銷(xiāo)書(shū)判據(jù)對(duì)“未知”小說(shuō)文本進(jìn)行歸類,放入由近3000個(gè)特征構(gòu)成的維度空間內(nèi),判斷它是否能夠暢銷(xiāo)。Bestsellerometer采用的歸類算法有三種:K近鄰(K Nearest Neighbors,KNN)算法,會(huì)自動(dòng)搜尋每本書(shū)在空間內(nèi)和它最接近的5本書(shū),由這5本書(shū)的暢銷(xiāo)性質(zhì)推測(cè)這本書(shū)是否具備暢銷(xiāo)書(shū)潛質(zhì)。支持向量機(jī)(Support Vector Machines,SVM)算法,假設(shè)暢銷(xiāo)書(shū)量表只需要“very”這個(gè)詞的使用率和“人物親密關(guān)系”2個(gè)文本特征作為維度(注:Jodie和Matthew通過(guò)研究發(fā)現(xiàn),在暢銷(xiāo)書(shū)中,“very”這個(gè)詞的使用率不高,而且作家會(huì)重點(diǎn)落墨于人物之間的親密關(guān)系;反之則可能為冷門(mén)書(shū))。 SVM算法先將每本書(shū)的位置在特征空間中標(biāo)注出來(lái);再通過(guò)統(tǒng)計(jì)推斷出暢銷(xiāo)書(shū)集合和冷門(mén)書(shū)集合之間的分界線;最后計(jì)算機(jī)根據(jù)小說(shuō)文本的位置判斷它是否暢銷(xiāo)。最近收縮形心(Nearest Shrunken Centroids,NSC)算法則是先計(jì)算暢銷(xiāo)書(shū)和冷門(mén)書(shū)的數(shù)學(xué)重心,并通過(guò)參數(shù)縮小重心之間的距離,通過(guò)比較每本書(shū)與2個(gè)重心的距離判斷它是否能夠暢銷(xiāo)。三種算法的平均預(yù)測(cè)精確度達(dá)到80%。

      二、產(chǎn)品形態(tài):多角度分析文本報(bào)告

      作為一家圖書(shū)咨詢公司,Archer Jockers致力于使用Bestsellerometer算法程序?yàn)樽骷姨峁┪谋痉治龇?wù),從小說(shuō)的文風(fēng)、主題、人物和情節(jié)等維度生成精細(xì)數(shù)據(jù),并提供1份包含建議和反饋圖表的詳細(xì)書(shū)稿分析報(bào)告。分析報(bào)告涵蓋小說(shuō)主題分析、情節(jié)和情感分析、角色設(shè)置、人物性格和句子結(jié)構(gòu)等多個(gè)板塊;書(shū)稿中的語(yǔ)言數(shù)據(jù)會(huì)與從數(shù)千本書(shū)挖掘到的類似數(shù)據(jù)進(jìn)行比較,然后由Bestsellerometer給每個(gè)板塊評(píng)定一組代表星級(jí)的分?jǐn)?shù)。就小說(shuō)主題而言,大多數(shù)暢銷(xiāo)書(shū)只有3-4個(gè)最顯眼的主題,描寫(xiě)重要主題的篇幅大致占據(jù)小說(shuō)篇幅的30%。而新作家往往會(huì)在小說(shuō)中引入太多主題導(dǎo)致情節(jié)變得難以控制,使故事走向“難以結(jié)束”和“迅速結(jié)束”兩個(gè)極端。小說(shuō)主題比重對(duì)Bestsellerometer的算法有重大影響:暢銷(xiāo)書(shū)主題需要存在潛在的劇烈沖突,同時(shí)還不能太脫離現(xiàn)實(shí)生活。一般而言,特別離奇和過(guò)于緩和的主題都不太會(huì)暢銷(xiāo),例如搖滾和園藝等。Archer Jockers使用不同的主題模型展示小說(shuō)的主題焦點(diǎn)與主題的整體分布情況,并與暢銷(xiāo)書(shū)主題作相應(yīng)的比較。例如圖中展示的是作家亞歷珊德拉·范麗卡(Alexandra Velika)的小說(shuō)《紐約脫衣舞小姐》(Big Apple Strippers,簡(jiǎn)稱“BAS”)與暢銷(xiāo)書(shū)以及市面上其他圖書(shū)中占比前十的主題分布比例(T-1是指書(shū)中占比第一的主題篇幅,T-2是指書(shū)中占比前2名的主題篇幅總和,以此類推)。由于BAS前3-4個(gè)主題的總比沒(méi)達(dá)到30%,而且其前10個(gè)主題中每一個(gè)的占比不僅大大落后于暢銷(xiāo)書(shū),甚至也落后于其他一般正式出版的圖書(shū),因此Archer Jockers建議其針對(duì)主題焦點(diǎn)添加更為豐富的內(nèi)容,刪除一些與重要主題無(wú)關(guān)的故事描寫(xiě)。

      除了小說(shuō)主題,情節(jié)線的起伏和節(jié)奏也是Archer Jockers小說(shuō)文本分析服務(wù)的關(guān)鍵。故事情節(jié)的高峰和低谷越密集,小說(shuō)人物和讀者的情緒起伏越頻繁,越容易引人入勝。在劇本和小說(shuō)中,最簡(jiǎn)化的故事曲線為三幕式架構(gòu):觸發(fā)、沖突和解決。利用三幕式架構(gòu)分析小說(shuō)可以快速看出情節(jié)的基本輪廓,但還不夠微觀詳細(xì)。為此,Bestsellerometer在分析小說(shuō)時(shí)會(huì)追蹤情緒詞語(yǔ),并將各種故事情節(jié)歸納成七大曲線,從而可以直觀地看出人物情緒是如何隨情節(jié)推進(jìn)而產(chǎn)生變化的。如圖4所示的BAS情節(jié)線,圖表中間的水平線代表毫無(wú)波動(dòng)的情緒,水平線以上的部分表示人物處于積極情緒中,例如開(kāi)心、興奮、曖昧和雀躍等,水平線以下的部分則表明人物進(jìn)入消極情緒中。向上的斜坡標(biāo)志著讀者將跟隨故事情節(jié)的推動(dòng)獲得越來(lái)越積極的情感體驗(yàn),往下的曲線波動(dòng)則表明事態(tài)朝著消極的方向發(fā)展。垂直的虛線表明BAS的敘事節(jié)奏。它們?cè)诠适聲r(shí)間軸上的分布間隔越均勻,讀者的閱讀體驗(yàn)就越趨于平衡。整體而言,由于小說(shuō)的大部分情節(jié)在水平線以下,這可能導(dǎo)致該書(shū)在市場(chǎng)上表現(xiàn)不佳,因此作者應(yīng)設(shè)置更多積極的情節(jié)轉(zhuǎn)折點(diǎn),避免情節(jié)線長(zhǎng)時(shí)間位于消極情緒中。另外,每一部小說(shuō)都有自己特定的敘事焦點(diǎn)。敘事焦點(diǎn)的變化推動(dòng)了情節(jié)的發(fā)展,從而影響讀者的閱讀節(jié)奏。Bestsellerometer的統(tǒng)計(jì)結(jié)果表明,情節(jié)線的振幅和頻率與小說(shuō)暢銷(xiāo)與否高度相關(guān),高低對(duì)稱且韻律協(xié)調(diào)的情節(jié)線更容易吸引讀者,例如現(xiàn)象級(jí)暢銷(xiāo)書(shū)《達(dá)·芬奇密碼》全書(shū)的情節(jié)線分布上屬于整體均勻?qū)ΨQ、韻律感強(qiáng)的“W”線型。

      三、發(fā)展方向:從作家市場(chǎng)轉(zhuǎn)向出版業(yè)暢銷(xiāo)書(shū)業(yè)務(wù)

      目前,Archer Jockers主要聚焦于作家市場(chǎng),為小說(shuō)家的書(shū)稿提供基于算法的個(gè)性化反饋,并給作家一些出版社編輯不能提供的修訂建議。它的服務(wù)包括個(gè)性化書(shū)稿分析、小說(shuō)系列分析以及VIP服務(wù)。個(gè)性化書(shū)稿分析需要作家支付200美元服務(wù)費(fèi)用,作家會(huì)在一周內(nèi)收到Archer Jockers的報(bào)告。小說(shuō)系列分析是幫助作家在寫(xiě)系列小說(shuō)時(shí),判斷是否應(yīng)該繼續(xù)下一本的寫(xiě)作,它會(huì)為作家提供整個(gè)小說(shuō)系列的情節(jié)走向和主題連續(xù)性等方面的反饋報(bào)告。根據(jù)小說(shuō)系列的具體冊(cè)數(shù)(5冊(cè)以內(nèi)),服務(wù)費(fèi)用大致在340-750美元之間。VIP服務(wù)主要針對(duì)一些需要一對(duì)一專業(yè)指導(dǎo)的作家,由原先出版社編輯出身的Jodie提供專業(yè)指導(dǎo)。Jodie會(huì)依據(jù)書(shū)稿分析報(bào)告與作家一起探討所有數(shù)據(jù)點(diǎn)對(duì)他們小說(shuō)的意義,幫助作家打開(kāi)思路。此外,Jodie還會(huì)給作家提供關(guān)于出版方面的業(yè)務(wù)指導(dǎo)等。該項(xiàng)服務(wù)費(fèi)用在165美元以上。隨著Archer Jockers業(yè)務(wù)的逐步開(kāi)展,已經(jīng)有多名作家對(duì)他們的服務(wù)表示認(rèn)可;而且有越來(lái)越多的作家開(kāi)始嘗試這項(xiàng)具有“算法智慧”的圖書(shū)咨詢服務(wù)。

      此外,Archer Jockers還朝著為出版商、文學(xué)經(jīng)紀(jì)人和其他暢銷(xiāo)書(shū)相關(guān)業(yè)務(wù)機(jī)構(gòu)提供定制服務(wù)的方向努力,包括挑選書(shū)籍、撰寫(xiě)圖書(shū)簡(jiǎn)介、書(shū)籍分析和暢銷(xiāo)書(shū)趨勢(shì)分析等。Jodie和Matthew認(rèn)為出版業(yè)內(nèi)的暢銷(xiāo)書(shū)銷(xiāo)量存在一個(gè)可預(yù)測(cè)的模式。美國(guó)東北大學(xué)的Albert-László Barabási團(tuán)隊(duì)也對(duì)此表示支持。后者通過(guò)對(duì)“紐約時(shí)報(bào)暢銷(xiāo)書(shū)排行榜”進(jìn)行數(shù)據(jù)研究,提出了一個(gè)暢銷(xiāo)書(shū)動(dòng)力學(xué)機(jī)制。Albert-László Barabási團(tuán)隊(duì)在調(diào)查中發(fā)現(xiàn),在虛構(gòu)類小說(shuō)市場(chǎng)中,女性作家的作品每年銷(xiāo)量更高,所占比例較男性作家更重。而Archer Jockers發(fā)現(xiàn),從語(yǔ)言風(fēng)格的量化結(jié)果出發(fā),女性作家掌握憑借簡(jiǎn)潔行文打動(dòng)人心的寫(xiě)作技巧,文風(fēng)更接近市面上暢銷(xiāo)書(shū)的文風(fēng)特征。如今,圖書(shū)出版業(yè)的競(jìng)爭(zhēng)相當(dāng)激烈。每年僅是在美國(guó)印刷出版的新書(shū)就超過(guò)20萬(wàn)種,而位列《紐約時(shí)報(bào)》暢銷(xiāo)書(shū)單的只有不到500本圖書(shū)。Jodie和Matthew認(rèn)為,將大數(shù)據(jù)算法和人工智能應(yīng)用于圖書(shū)出版業(yè)能準(zhǔn)確地預(yù)測(cè)小說(shuō)作品的暢銷(xiāo)品質(zhì)以及當(dāng)前市場(chǎng)動(dòng)態(tài),有望幫助出版商打造現(xiàn)象級(jí)暢銷(xiāo)書(shū)。如今,Archer Jockers不僅幫助出版商或經(jīng)紀(jì)人將小說(shuō)作品與市場(chǎng)上的暢銷(xiāo)書(shū)進(jìn)行比較并判斷其發(fā)行潛力,還能提供其他方面的決策支持。例如,在出版商把某作家的書(shū)稿發(fā)給Archer Jockers后,后者會(huì)通過(guò)機(jī)器閱讀該作家的作品,判斷其是否具備暢銷(xiāo)書(shū)作家的潛質(zhì),幫助出版商決定是否雇用這個(gè)作家。

      四、結(jié)語(yǔ)

      隨著大數(shù)據(jù)和人工智能的應(yīng)用滲透到出版的各個(gè)環(huán)節(jié),已經(jīng)有多家公司像Archer Jockers一樣將機(jī)器算法用于暢銷(xiāo)書(shū)運(yùn)作中。例如,有的公司依靠大數(shù)據(jù)挖掘出大量用戶搜索的非虛構(gòu)題材,然后雇人按照數(shù)據(jù)分析所得的大綱快速創(chuàng)作,借助數(shù)據(jù)挖掘獲得的先機(jī)獲得利潤(rùn)。如今,雖然許多出版商開(kāi)始認(rèn)可大數(shù)據(jù)和機(jī)器算法等先進(jìn)技術(shù)對(duì)行業(yè)運(yùn)作的推動(dòng)作用,但仍存在質(zhì)疑的聲音。部分業(yè)界人士認(rèn)為,機(jī)器算法可能有助于出版商盈利,但如果將銷(xiāo)量視為衡量小說(shuō)的文學(xué)標(biāo)準(zhǔn),會(huì)毀了小說(shuō)本身。換言之,純粹迎合讀者的小說(shuō)作品更像是機(jī)器進(jìn)行文字切割和加工后的工業(yè)產(chǎn)品,將小說(shuō)世界變成沒(méi)有多種可能性和“美感”的科學(xué)領(lǐng)域,限制了讀者的閱讀體驗(yàn)。毫無(wú)疑問(wèn),出版業(yè)屬于文化產(chǎn)業(yè),文學(xué)作品需要百花齊放而不是標(biāo)準(zhǔn)化生產(chǎn);機(jī)器算法等人工智能并不能取代作者所能給予讀者的文學(xué)智慧。在這科技無(wú)處不在的世界里,未來(lái)的分析算法該如何運(yùn)作才能做到不對(duì)小說(shuō)創(chuàng)作產(chǎn)生影響,這是每個(gè)像Archer Jockers這樣的圖書(shū)咨詢服務(wù)提供商都要思考的問(wèn)題。

      參考文獻(xiàn):

      [1]Encyclopedia Britannica Online, Bestseller[EB/OL].[2018-12-22].https://academic.eb.com/.

      [2]Jodie Archer,Matthew L.Jockers.The Bestseller Code: Anatomy of the Blockbuster Novel[M].London:St Martins Press,2016.

      [3]方卿,徐麗芳,許潔,等.出版價(jià)值引導(dǎo)研究[M]. 北京:商務(wù)印書(shū)館,2018.

      [4]Burcu Yucesoy et al.Success in Books: A Big Data Approach to Bestseller[J].EPJ Data Science,2018(7):7.

      [5]搜狐.他們?nèi)嗨榱?000本書(shū)籍的數(shù)據(jù),曝光了暢銷(xiāo)書(shū)的成功套路[EB/OL].[2018-12-22].http://www.sohu.com/a/229292059_100039183.

      [6]Jianbo Gao, Matthew L. Jockers et al. A multiscale theory for the dynamical evoluti-on of sentiment in novels[C].2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). Durham:2016.

      [7]澎湃.如何制造現(xiàn)象級(jí)暢銷(xiāo)書(shū)[EB/OL].[2018-12-22].https://www.thepaper.cn/newsDetail_forward_1536608.

      [8]The Atlantic. Can Big Data Find the Next “Harry Potter”[EB/OL].[2018-12-22].https://www.theatlantic.com/technology/archive/2016/09/bestseller-ometer/499256/.

      [9]陸利坤,游新冬.大數(shù)據(jù)技術(shù)在出版行業(yè)中的應(yīng)用研究[J].出版科學(xué),2017,25(06):89-96.

      (作者單位系武漢大學(xué)信息管理學(xué)院,武漢大學(xué)數(shù)字出版研究所)

      猜你喜歡
      文本挖掘機(jī)器學(xué)習(xí)暢銷(xiāo)書(shū)
      24小時(shí)完成的暢銷(xiāo)書(shū)
      前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      慧眼識(shí)璞玉,妙手煉渾金
      暢銷(xiāo)書(shū)架
      暢銷(xiāo)書(shū)架
      暢銷(xiāo)書(shū)為何暢銷(xiāo)
      衡阳县| 遵义市| 保德县| 新河县| 板桥市| 海宁市| 六安市| 阜城县| 军事| 大荔县| 青铜峡市| 乌鲁木齐市| 博客| 兴安盟| 柏乡县| 隆林| 高州市| 梁平县| 军事| 商城县| 郎溪县| 济宁市| 永川市| 永泰县| 太保市| 上饶县| 宝坻区| 无为县| 甘南县| 灌阳县| 河曲县| 瑞安市| 舒城县| 南汇区| 重庆市| 五寨县| 股票| 桂阳县| 衡东县| 扎鲁特旗| 紫金县|