摘 要 圖書影響力預測是出版大數(shù)據(jù)預測的重要組成部分,旨在通過模型化方法,解析和利用圖書出版發(fā)展規(guī)律,預測圖書的未來影響力,為管理決策提供社會效益評估手段和戰(zhàn)略管理工具。從圖書生產、傳播、消費全鏈條出發(fā),分析影響力的內在邏輯關系,建立圖書影響力分析框架;針對影響力的多維性和時滯性問題,結合選題決策模型、邏輯模型、圖書分類分期分級系統(tǒng),改進過程導向的圖書影響力預測模型;結合圖書的銷量預測、社會影響力預測、學術影響力預測模型,構建數(shù)據(jù)驅動的圖書綜合影響力預測模型。在開放數(shù)據(jù)和數(shù)字技術賦能下,數(shù)據(jù)驅動的圖書影響力預測有望成為保證和促進影響力經濟、社會效益優(yōu)先的重要手段和量化預測新模式。
關鍵詞 圖書;社會效益;影響力預測;數(shù)據(jù)驅動;銷量預測
影響力既是過程,也是結果。圖書影響力是由圖書的社會影響力、學術影響力、市場影響力等構成的一個系統(tǒng),是衡量圖書在社會活動中產生的控制力和價值貢獻、在學術活動中產生的作用力和知識貢獻、在文化消費活動中產生的競爭力和經濟貢獻的重要指標。
圖書影響力預測是出版大數(shù)據(jù)預測的重要組成部分,旨在通過模型化方法,解析和利用圖書出版發(fā)展規(guī)律,預測圖書的未來影響力。依據(jù)對圖書影響力內涵的不同界定,學術界形成了效果導向和過程導向兩種主流研究思路,在影響力預測上提供了多種見解和實現(xiàn)策略,但缺乏從影響力生成的過程、條件、要素視角對其進行分析與預測,也未能從模型層面系統(tǒng)考察納入情景數(shù)據(jù)的大數(shù)據(jù)預測模式。傳統(tǒng)的判斷預測依賴編輯的直覺與經驗判斷[1],統(tǒng)計預測依賴歷史數(shù)據(jù)的采樣范圍、時效性、顆粒度,大數(shù)據(jù)預測將情景數(shù)據(jù)納入預測模型,可解決認知偏差、數(shù)據(jù)時滯、數(shù)據(jù)缺失等問題。
本文擬采用系統(tǒng)論思想,探索數(shù)據(jù)驅動的圖書影響力預測,將效果研究與過程研究相結合,通過構建影響力的分析框架、預測模型和時空關系網絡,從影響力預測視角衡量圖書的市場表現(xiàn)和社會影響,預測圖書未來的影響力,解決圖書社會效益評估的可操作性和經濟效益評估的準確性、時效性問題,為管理決策提供社會效益評估手段和戰(zhàn)略管理工具。
1 圖書影響力分析框架建立
影響力分析是影響力預測的前提和基礎,影響力預測模型建立在影響力產生機制分析基礎之上。通過分析圖書影響力的內在邏輯關系,建立圖書影響力分析框架,有助于厘清各類影響力間的復雜關系。
1.1 過程分析
針對影響力產生機制的路徑多樣性和產生最終影響的載體多元性特征,從圖書生產、傳播、消費全鏈條出發(fā),分析生產過程產生影響力的核心要素、傳播過程產生影響力的作用方式、消費過程產生影響力的作用效果;從價值產生、價值提升、價值實現(xiàn)3個環(huán)節(jié),探析圖書影響力產生機制及影響路徑。
(1)生產過程
內容是出版的核心,質量是出版的關鍵。圖書質量、作者、編輯、出版社等是圖書在出版過程中產生影響力的核心因素。圖書質量是從選題策劃到校對印制的整個生產過程質量控制的最終結果,也是圖書產生影響力的根源。圖書入選重點項目和獲得獎項榮譽、社會評價、國際影響是出版社文化和社會影響力的量化指標,是其作為生產機構的社會效益的實現(xiàn)路徑。但是高質量的圖書產品僅是圖書社會效益的實現(xiàn)基礎,還需要圍繞傳播、傳承、消費多個過程得以最終實現(xiàn)其社會效益,需要結合多元主體協(xié)同完成用戶獲得與用戶使用過程。
(2)傳播過程
內容產生價值,傳播提升價值。從傳播學5W模型出發(fā),解讀圖書傳播過程的傳播主體、傳播內容、傳播渠道、傳播對象、傳播效果5個要素及其發(fā)展趨勢(見表1),探索圖書傳播的價值提升路徑。大數(shù)據(jù)時代圖書傳播的發(fā)展趨勢為從大眾傳播到人際傳播,從線下口碑到網絡口碑,從圖書知識到用戶體驗,從專業(yè)評論到大眾評論,從借閱記錄到數(shù)字指紋。
(3)消費過程
渠道傳播價值,消費實現(xiàn)價值。圖書消費活動包括通過購買、租借等方式選擇產品的圖書獲得過程和通過信息獲取、社會閱讀、學術引用、文本生產等方式開展閱讀活動的圖書使用過程。圖書與用戶之間的聯(lián)系通過用戶消費行為得以建立并證實圖書是精神產品。圖書與社會之間的聯(lián)系通過社會閱讀活動得以建立,并證實閱讀是開展社會自組織和社會控制的有效手段[2]。另外,公共圖書館館藏圖書的公共文化產品屬性體現(xiàn)于可供社會共享、具有正外部性和公共性等特點,正外部性產生于圖書消費過程中并體現(xiàn)于對用戶和社會的正面影響。
1.2 效果分析
影響力預測是保證和促進影響力經濟、社會效益優(yōu)先的重要手段。本文從市場表現(xiàn)(叫座、不叫座)和社會影響(叫好、不叫好)兩個角度,對經濟效益與社會效益的關系進行經濟學解釋和出版學分析,結果如表2所示。
“叫好又叫座”的A類型是出版業(yè)追求的理想狀態(tài),體現(xiàn)了社會效益與經濟效益相統(tǒng)一。在理想的圖書市場下,“叫好”是“叫座”的充分必要條件?!昂脮軙充N”“暢銷的是好書”是出版事業(yè)和出版產業(yè)發(fā)展的重要價值體現(xiàn)。出版物內容的信息密度、學術水準、思想內涵、傳播時空范圍等指標不僅事關讀者的認同和忠誠度,還會影響出版企業(yè)品牌的長遠發(fā)展[3]。
“叫好不叫座”的B類型較多體現(xiàn)于學術性專業(yè)性較強、擁有固定讀者群體的學術出版或專業(yè)出版中。我國政府采用國家出版基金、低稅率等方式,鼓勵和支持正外部性強的學術圖書、古籍圖書等,發(fā)揮國家政策和圖書產品的價值功能。主題出版具有記錄歷史真實、彰顯文化自信等突出價值[4],旨在加強出版的政治和文化功能。主題出版的部分圖書也存在“叫好不叫座”的問題,一些“題材重大”的主題出版凸顯價值引領等功能,相對容易進入主流媒體的“好書”榜單,但如果在敘事性、藝術感染力等方面不強,難以得到大眾認同,社會影響力將大打折扣。
對于“叫座不叫好”的C類型,圖書市場上某個時期常出現(xiàn)曇花一現(xiàn)的暢銷書現(xiàn)象。由于圖書本身存在質量粗糙、缺乏產生深遠影響的思想、不被主流媒體認可推介等,導致數(shù)量與質量之間存在背離現(xiàn)象。這類暢銷書缺乏持久影響力,只是吸引短暫的社會注意力,難以轉化為具有傳承性、延續(xù)性的常銷書。隨著出版制度的不斷完善和讀者閱讀品味的持續(xù)提高,C類型圖書的生存空間將日漸萎縮。
在“不叫好也不叫座”的D類型下,圖書出版的社會效益與經濟效益俱差。究其最初動機可能是追求“叫好又叫座”,最后產生了背道而馳的結果,與選題決策的判斷失誤、市場渠道的受限、個人利己動機等各種因素導致的偏差有關。
數(shù)字時代,出版機構出版精品圖書的主動作為和國民閱讀能力的普遍提高,以及數(shù)字技術全鏈全面賦能[5],為“雙效統(tǒng)一”和“叫好又叫座”的理想實現(xiàn)提供了可能。
2 圖書影響力預測問題的提出和模型構建
圖書影響力的多維性體現(xiàn)于圖書對經濟、社會、學術等不同維度的影響力,體現(xiàn)在數(shù)量、質量、效率、效果等多個方面。可通過分類型、分階段開展及時且全量的圖書影響力預測,重構時空關系,揭示出版發(fā)展規(guī)律。
2.1 圖書影響力預測問題的提出
(1)多維性。圖書影響力產生的過程存在復雜性和結果不確定性,導致難以歸因于某一圖書產品并量化其貢獻度。由于受眾多元化、渠道分散化等,影響力的全面追蹤局限于數(shù)據(jù)可獲得性和數(shù)據(jù)聚合能力。影響因素的多樣化和內生性問題,使得影響因素測度和關鍵因素識別存在困難。在開放科學、開放獲取、開放數(shù)據(jù)的推動下,可通過多維數(shù)據(jù)聚合,將效果研究和過程研究相結合,彌補效果研究在貢獻量化、全面追蹤、內生性等問題上的不足。
(2)時滯性。圖書影響力的時滯性體現(xiàn)在圖書市場表現(xiàn)數(shù)據(jù)在出版社、書店、圖書館、用戶之間反饋效率低、數(shù)據(jù)不全面;專家評價、用戶評價、學術引用等影響力反饋及時性、有效性存在較大差異;出版、發(fā)行、營銷、評價、使用等多個方面的線上和線下數(shù)據(jù)聚合能力不足;圖書的影響具有持久性、傳承性、滯后性等特征[6]。
2.2 效果導向的圖書影響力預測模型
效果導向的圖書影響力預測模型旨在將影響力視為一種結果,利用系統(tǒng)理論,展示影響力的時空范圍和時空關系,聚焦影響力客體類型,以市場影響力(圖書銷量)預測模型、社會影響力預測模型、學術影響力預測模型等為代表。
(1)圖書銷量預測模型
圖書銷量預測主要采用計量經濟模型、新產品擴散模型和人工智能模型等。①計量經濟模型從經濟角度考慮銷量與其影響因素的因果關系,依賴較多的歷史數(shù)據(jù)和相關影響因素的測度。②新產品擴散模型采用群體行為分析視角和經典Bass模型改進策略,將價格、廣告、用戶評分等因素納入模型的構建,依賴產品每期銷量數(shù)據(jù)和新產品擴散的現(xiàn)實情境。③人工智能模型采用人工神經網絡等對少量的非線性數(shù)據(jù)建模,但大部分算法都是黑箱模型,模型對于結果缺乏可解釋性。
以上方法大多依賴延遲性較大的統(tǒng)計調研數(shù)據(jù),預測時效性較低;忽視了用戶生成內容,缺乏大數(shù)據(jù)分析,預測準確性受限。情感分析是從用戶生成內容中挖掘用戶情感信息,可為經濟價值量化與開發(fā)提供用戶口碑傳播行為分析和效果測度工具。孟園等[7]基于細粒度情感分析技術,構建細粒度綜合情感指數(shù),結合ARMA模型對產品的銷量預測進行實證分析。Rocklage等[8]將圖書評論的星級、效價、文本情感納入計量經濟模型,提出基于情感分析的圖書銷量預測模型。
(2)圖書社會影響力預測模型
圖書社會影響力具有評價主體多元、傳播渠道分散、評論關聯(lián)情感等特點,圖書社會影響力的外在特征為用戶特征、媒介特征等。張紅麗等[9]提出基于網絡用戶評論的評分回歸預測模型。另外,替代計量強調追蹤學術文獻在網站和社會媒體上被提及或使用頻次,體現(xiàn)了受眾觸達率和關注度,可作為社會影響力的量化表征。李綱等[10]從論文、作者和期刊3個方面構建學術論文特征框架,構建論文推特提及量預測模型。另外,蘇娜[11]系統(tǒng)梳理并述評了國內外對科學研究的社會影響力評價理論與實踐。
(3)圖書學術影響力預測模型
圖書學術影響力具有引用時滯、數(shù)據(jù)多源、引用關聯(lián)情感等特點,圖書學術影響力的外在特征為圖書特征、作者特征、出版社特征、引證特征等。大數(shù)據(jù)時代,學術影響力預測強調聚合多平臺數(shù)據(jù)提升預測水平,強調推進圖書、作者、出版社等之間的協(xié)同預測。霍朝光等[12]對論文、學者、機構、期刊、項目、專利等不同學術實體影響力預測研究進行述評,總結學術影響力預測研究的指標體系、方法體系和特征體系。
3 數(shù)據(jù)驅動的圖書影響力預測模型構建
圖書影響力預測模型的可能改進策略包括:①組合預測。依據(jù)組合預測理論,2種或2種以上無偏的單項預測組合優(yōu)于每個單項預測。銷量預測可將經濟計量模型、Bass模型及改進模型、人工智能模型進行組合,提高預測準確度。②網絡口碑與經濟計量模型相結合,可將在線評論情感分析與經濟計量模型相結合進行銷量預測。③網絡口碑與新產品擴散模型相結合,可將在線評論情感分析與Bass模型及改進模型相結合進行銷量預測。④基于TEI@I方法論[13]的集成預測,采用先分解后集成策略,將百度指數(shù)結合經濟計量模型進行銷量預測。⑤協(xié)同預測,可采用圖書實體與作者實體協(xié)同策略,構建時空關系網絡,依據(jù)作者影響力預測圖書影響力。⑥定性與定量預測相結合,借鑒回報模型[14]的基本原理,將編輯直覺預測和同類圖書的影響力評價相結合,校正銷量直覺預測,拓展社會影響力預測。
3.1 過程導向的圖書影響力預測模型改進
依據(jù)圖書影響力預測模型的可能改進策略,提出改進思路及模型結構。
(1)改進思路
科學研究的經濟與社會影響力評價模型以回報模型、SIAMPI模型等為代表。Buxton等[14]提出評價醫(yī)學研究的經濟與社會影響力回報模型。該模型屬于中長期影響力評價模型,解決了時滯、歸因等問題,但案例分析需要較多資源投入。Spaapen等[15]提出SIAMPI模型,通過追蹤科學研究主體與利益相關方的多樣化聯(lián)系來評價社會影響力。本文所構建的過程導向的圖書影響力預測模型,旨在將影響力視為一個過程,利用知識轉移理論,展示圖書從作者流向社會的過程,聚焦于影響力產生機制。
(2)模型結構
通過選題決策模型綜合利用單一性信息(作者知名度)、同類圖書分布性信息(選題成功率、歷史銷量)、市場先驗信息(頭部效應)校正編輯直覺預測[1];通過邏輯模型劃分影響力產生過程的生產、傳播、消費3個過程,區(qū)分圖書的選題確定、投入、開展、直接成果、間接成果、采納、成效等7個階段,界定項目申請與篩選、產品擴散兩個關鍵轉換點,尋找影響路徑及案例;構建圖書影響力分類分期分級體系,對圖書出版類型(大眾出版、學術出版、專業(yè)出版)進行分類,對短期、中期和長期影響進行區(qū)分,對影響程度進行分級,通過圖書分類分期分級系統(tǒng)區(qū)分影響類型及載體,判定影響歸因于該圖書產品的程度;將定性方法與定量方法相結合,綜合利用編輯銷量直覺預測法、案例分析法、文獻計量法、專家評價法等進行影響力預測,從知識擴散視角對圖書生產(圖書類型、資助項目、國際合作、作者知名度、出版社聲譽)、知識轉化(被引次數(shù)、施引文獻水平、館配量)、知識轉移(國際引用率、領域外引用率、海外館藏量)進行文獻計量。
3.2 數(shù)據(jù)驅動的圖書綜合影響力預測模型構建
數(shù)據(jù)驅動的圖書綜合影響力預測,旨在聚合不同來源的圖書引用、借閱、提及、評論等數(shù)據(jù),追蹤用戶關注、科研前沿和先進思想文化,發(fā)現(xiàn)新思想、新理論、新方法,為選題決策、購買決策等提供量化預測依據(jù)。
本文采用數(shù)據(jù)驅動預測模式,將傳統(tǒng)的統(tǒng)計技術與異質信息網絡挖掘等大數(shù)據(jù)技術相結合,在構建圖書異質信息網絡模型的基礎上,結合圖書的銷量預測、社會影響力預測、學術影響力預測模型,構建預測指標體系和預測方法體系,從而構建數(shù)據(jù)驅動的圖書綜合影響力預測框架(如圖1所示),同時實現(xiàn)數(shù)據(jù)融合、網絡構建、實體鏈接和量化預測。
3.2.1 基本思路
數(shù)字時代,圖書產品在保持內容系統(tǒng)性、思想性的基礎上,彰顯傳播性。用戶、圖書、作者、出版社、媒介等構成價值創(chuàng)造的核心要素,核心要素間的連接作用決定影響力生成的方式,決定圖書價值產生、價值提升、價值實現(xiàn)的內在邏輯。圖書內容決定圖書與用戶、媒介、社會之間連接的持續(xù)性,媒介決定圖書與用戶、社會之間連接的廣度,用戶決定產品使用價值和圖書社會效益的實現(xiàn)程度。因此,連接作為圖書價值創(chuàng)造的基礎和前提,決定了影響力產生的方式、路徑、效果。本文堅持系統(tǒng)論思想,將圖書置于用戶、作者、出版社、媒介等相互聯(lián)系的整體之中,考察圖書從作者流向社會的過程和效果。采用異質信息網絡理論和方法[16],綜合考慮圖書、作者、出版社、用戶、媒介之間的交互關系,構建圖書異質信息網絡??紤]圖書、作者、出版社、用戶、媒介等圖書異質網絡實體互為特征、協(xié)同演化,構建數(shù)據(jù)驅動的圖書綜合影響力預測模型,采用子網絡建模不同類型實體間的交互關系和語義關系,橫向上協(xié)同開展作者影響力預測、出版社影響力預測、媒介影響力預測、用戶評分預測、銷量預測、學術影響力預測等,縱向上利用結構化、半結構化、非結構化數(shù)據(jù)進行屬性挖掘、結構探索、語義探究,實現(xiàn)以已知鏈接預測未知鏈接、以現(xiàn)有鏈接預測未來鏈接。
3.2.2 基本思想
采用數(shù)據(jù)驅動預測模式,將傳統(tǒng)的統(tǒng)計技術與異質信息網絡挖掘等大數(shù)據(jù)技術相結合,從社會影響力、學術影響力、市場影響力等維度,分析數(shù)據(jù)特征;從市場表現(xiàn)、網絡口碑、用戶行為等方面,篩選預測指標;從短期、中期、長期3個層面,構建預測模型。
3.2.3 基本流程
通過大數(shù)據(jù)、人工智能等技術和方法,對多源異構數(shù)據(jù)進行采集與預處理;建立圖書異質信息網絡,捕獲圖書、作者、出版社、用戶、媒介之間的交互關系和語義關系;對網絡口碑等進行多層次屬性挖掘和細粒度情感分析,挖掘用戶的真實偏好與需求信息,識別用戶對圖書產品總體及其各個屬性的態(tài)度;從圖書產品的生產、傳播、消費3個過程和市場表現(xiàn)、社會影響2個層面,系統(tǒng)性構建圖書產品的外顯的消費數(shù)量(叫座)和內隱的消費態(tài)度(叫好)的預測指標體系;將屬性挖掘、情感分析、量化預測集成于網絡構建和挖掘過程,預測圖書產品的社會影響力、學術影響力、市場影響力等?;玖鞒讨饕〝?shù)據(jù)采集與預處理、圖書異質信息網絡構建、學術影響力預測、市場影響力預測、社會影響力預測。
3.2.3.1 數(shù)據(jù)收集與預處理
(1)圖書生產數(shù)據(jù)收集。出版大數(shù)據(jù)包括圖書產品的全文本數(shù)據(jù)、元數(shù)據(jù)、經營數(shù)據(jù)、銷售數(shù)據(jù)、網絡數(shù)據(jù)、引證數(shù)據(jù)、館藏數(shù)據(jù)等。中國版本圖書館可提供圖書產品的CIP核準號、ISBN、正書名等圖書元數(shù)據(jù)字段。對于全文本數(shù)據(jù)、元數(shù)據(jù)、經營數(shù)據(jù)等,可通過注冊、自建、采購等方式獲取。
(2)圖書傳播數(shù)據(jù)采集。當當網可提供星級評分、評論內容、評論時間等在線評論信息以及前500圖書銷售排行榜。對于當當網、京東網、豆瓣讀書等平臺的網絡數(shù)據(jù),可利用LocoyPoster 軟件工具進行采集,通過ISBN與圖書元數(shù)據(jù)、經營數(shù)據(jù)、營銷數(shù)據(jù)、引證數(shù)據(jù)、館藏數(shù)據(jù)等進行關聯(lián)聚合。
(3)圖書消費數(shù)據(jù)收集。中文學術圖書引文索引(CBKCI)可提供4 000余本學術圖書的被引數(shù)量和施引文獻題錄。CNKI可提供14 000余本中文圖書的被引數(shù)量、閱讀數(shù)量和用戶數(shù)量。讀秀可提供230萬余種中文圖書的被引用指數(shù)、被圖書引用數(shù)量、引證圖書目錄和館藏量。SpringerLink平臺提供Bookmetrix指標,包括圖書及章節(jié)的被引、下載、提及、評論和用戶數(shù)量。WorldCat提供OCLC近兩萬家成員館編目的書目記錄和館藏記錄。百度指數(shù)平臺可提供搜索引擎用戶關注度數(shù)據(jù)。對于引證數(shù)據(jù)、館藏數(shù)據(jù)、搜索數(shù)據(jù)等,采用直接從文獻數(shù)據(jù)庫和平臺中收集相關數(shù)據(jù)。
(4)數(shù)據(jù)預處理。對于在線評論等網絡口碑數(shù)據(jù),可通過Python、NLPIR、Jiebar等工具,進行分句、分詞、詞性標注、詞頻統(tǒng)計等預處理;整合How Net情感詞典、大連理工大學情感詞匯本體庫等,形成基礎情感詞典;將在線評論時間依據(jù)預測需求,劃分為年、月、日等不同的時間粒度;將中圖法分類與電商網站圖書分類進行映射,依據(jù)各種分類體系劃分不同的主題粒度。
3.2.3.2 圖書異質信息網絡構建
針對影響力的多維性和信息融合問題,將異質信息網絡作為一種對復雜對象及其關系建模的方法,通過從網絡數(shù)據(jù)中挖掘鏈接關系和語義信息來發(fā)現(xiàn)隱藏模式。
(1)多模網絡構建。例如,由出版大數(shù)據(jù)形成的圖書信息網絡可被建模為一個5-模異質共現(xiàn)網絡,表示為一個帶有對象類型映射函數(shù)t=v→A和關系類型映射函數(shù)φ=ε→R的有向圖G=(v,ε),包含圖書名稱(B)、作者名稱(A)、出版社名稱(P)、媒介名稱(M)、用戶名稱(U)5個對象類型以及同一關系、創(chuàng)作關系、出版關系、傳播關系、評價關系5個關系類型,每個對象關聯(lián)文本屬性和時間屬性。
(2)元路徑分析。元路徑[16]是在網絡模式TG=(AR)的圖上的一條路徑,它的形式是,縮寫為A1A2…Al+1,描述了節(jié)點類型A1到Al+1之間的關系。不同元路徑以不同的語義表示對象間的關系序列,其中BAB、BUMUB元路徑分別表示同一作者創(chuàng)作了2本圖書、2個用戶在同一媒介上評價了2本圖書。元路徑分析可通過基于元路徑的相似性測度方法PathSim[16],發(fā)現(xiàn)更相似的兩個對象。基于相似圖書的銷量時間序列,可對圖書新產品進行銷量預測。異質信息網絡構建從網絡的內部結構入手,通過多模網絡構建,對異質節(jié)點間的共現(xiàn)關系進行融合;通過元路徑分析,對不同網絡層級進行關聯(lián),實現(xiàn)信息融合和網絡建模。
3.2.3.3 學術影響力預測
圖書學術影響力預測旨在提前識別出高質量圖書,綜合文獻計量、圖書、作者、出版社等特征,采用回歸分析方法和人工神經網絡方法等,構建引證數(shù)量預測模型,預測引證的變化。
(1)預測指標體系構建。圖書學術影響力的外在特征為圖書特征、作者特征、出版社特征、引證特征等。其中,圖書特征主要包括圖書主題成熟度、圖書名稱長度、參考文獻數(shù)量等;作者特征主要包括作者學術影響力(H指數(shù))、署名作者數(shù)量、作者創(chuàng)作圖書數(shù)量、作者被引用圖書數(shù)量、作者國別、作者所屬機構聲譽等;出版社特征主要包括出版社聲譽、出版社等級、編輯影響力等;引證特征主要包括被論文引用數(shù)量、被圖書引用數(shù)量、被引年份跨度、首次被引年份、早期施引者的學術影響力等。
(2)預測方法體系構建。①回歸分析預測方法。以外在特征為自變量,以引證數(shù)量為因變量;采用線性回歸、嶺回歸、逐步線性回歸模型,預測中短期引證數(shù)量,適用于存在明顯線性關系的截面數(shù)據(jù)或時間序列建模。②時間趨勢分析。從引證歷史數(shù)據(jù)觀察趨勢規(guī)律,采用分解分析、移動平均、指數(shù)平滑進行短期預測,采用趨勢外推進行中長期預測,適用于規(guī)律性強的時間序列建模。③人工神經網絡方法。采用時間遞歸神經網絡(RNN)等方法,利用數(shù)據(jù)的高維度特征,預測長期引證數(shù)量。④基于元路徑的關系預測方法[16]。對于圖書異質信息網絡,綜合考慮作者權威度、出版社影響力等相互作用和引用權重設置,通過構建圖書-作者、圖書-出版社-作者等子網絡,利用網絡實體間的交互關系和子網絡間的相互強化關系,采用基于元路徑的關系預測方法,實現(xiàn)引證關系預測。
3.2.3.4 市場影響力預測
圖書市場影響力預測旨在量化網絡口碑數(shù)據(jù),從圖書產品的內容、形式、價值、服務4個子維度出發(fā),采用細粒度情感分析方法,結合計量經濟模型、Bass模型及擴展、人工智能模型等,構建納入屬性情感的銷量預測模型,預測未來的銷量。
(1)預測指標體系構建。圖書市場影響力的外在特征為圖書特征、用戶特征、媒介特征等。其中,圖書特征主要包括圖書類型、產品生命周期等;用戶特征主要包括用戶級別、百度指數(shù)等;媒介特征主要包括用戶評分、評論數(shù)量、屬性情感等。
(2)預測方法體系構建。①隨機時間序列預測法。采用細粒度情感分析方法,進行屬性詞典構建、情感詞典構建、屬性抽取、情感詞抽取、屬性的情感分類,構造細粒度情感指數(shù),采用AR模型、ARMA模型等隨機時間序列預測法,構建屬性情感感知預測模型,預測中短期圖書銷量。②人工智能方法。將圖書名稱作為搜索關鍵詞,獲取圖書的百度指數(shù),采用SVM、隨機森林等人工智能方法,預測中短期圖書銷量,適用于存在搜索關鍵詞不易產生歧義的百度指數(shù)。③基于元路徑的相似性測度方法[16]。對于圖書異質信息網絡,綜合考慮用戶影響力、媒介影響力等相互作用和評論權重設置,通過構建圖書-用戶、圖書-媒介-用戶等子網絡,采用基于元路徑的相似性測度方法,結合相似圖書的歷史銷量數(shù)據(jù),實現(xiàn)圖書新產品銷量預測。
3.2.3.5 社會影響力預測
圖書社會影響力預測旨在量化外顯的消費數(shù)量(叫座)和內隱的消費態(tài)度(叫好),從圖書的傳播媒介、輻射范圍、傳播效果3個方面,獲取評價數(shù)據(jù)、使用數(shù)據(jù)和替代計量數(shù)據(jù),采用回歸分析方法和情感分析方法等,構建社會效益量化預測模型,預測評分、熱度等。
(1)預測指標體系構建。圖書社會影響力的外在特征為圖書特征、媒介特征等。其中,圖書特征主要包括重版率、重印率等;媒介特征主要包括圖書下載量、提及量、海外館藏量、國內館藏量等。
(2)預測方法體系構建。①回歸分析預測方法。以文本情感傾向、評論數(shù)量、讀過數(shù)量、在讀數(shù)量、想讀數(shù)量等為自變量,采用回歸分析方法和情感分析方法,構建圖書產品的評分預測模型,適用于存在明顯線性關系的截面數(shù)據(jù)或時間序列建模。②人工智能方法。結合圖書特征、媒介特征等,采用SVM、隨機森林等人工智能方法,構建圖書新產品的評分預測模型。③時間趨勢分析。對于時間序列數(shù)據(jù),以館藏量、下載量、提及量等為歷史數(shù)據(jù),采用分解分析、移動平均、指數(shù)平滑進行短期預測,采用趨勢外推進行中長期預測,構建圖書熱度預測模型。④基于加權元路徑的相似性測度方法[17]。對于圖書異質信息網絡,通過構建圖書-用戶、圖書-媒介-用戶等子網絡,采用基于加權元路徑的相似性測度方法,結合用戶-圖書歷史評分矩陣,實現(xiàn)評分預測。
4 結語
習近平總書記在文藝工作座談會上強調,“一個好的作品,應該是把社會效益放在首位,同時也應該是社會效益和經濟效益相統(tǒng)一的作品”。圖書影響力預測是保證和促進影響力經濟、社會效益優(yōu)先的重要手段。出版經濟是影響力經濟,影響力經濟建立在影響力之上[6]。保證和促進影響力經濟、社會效益優(yōu)先,關鍵在于雙效統(tǒng)一。圖書產品的雙效統(tǒng)一體現(xiàn)于“叫好又叫座”的主題出版圖書,體現(xiàn)于讀者喜聞樂見的暢銷書、常銷書,體現(xiàn)于“為人民出好書”的精品書、品牌書。
圖書是精神產品內核和物質產品形態(tài)的統(tǒng)一,在空間的社會傳播、時間的歷史傳承過程中,通過對用戶的精神影響,進而對社會產生作用,體現(xiàn)其社會效益;在口碑傳播、產品營銷過程,通過對用戶的消費影響,進而對經濟產生作用,體現(xiàn)其經濟效益。圖書社會效益的評價指標圍繞圖書質量、社會傳播、歷史傳承展開,其中社會傳播體現(xiàn)了作者、用戶、傳播媒介、輻射范圍、傳播效果之間交織的時空關系以及思想影響的深度和范圍,歷史傳承體現(xiàn)了圖書的長效影響力,但難以使用當前指標量化。圖書經濟效益的評價指標圍繞銷量展開,其中常銷書、館配量、重版率、重印率、產品生命周期等市場表現(xiàn)指標,體現(xiàn)了口碑傳播的廣度、深度、持久度,但難以即時量化。圖書的雙效評價存在時滯性特征,圖書影響力預測可以提前預測圖書產品的經濟效益和社會效益。
影響力經濟強調基于圖書內容的交互功能和注意力保持策略,主張以供給側圖書內容創(chuàng)新與質量提升來保證和促進影響力經濟、社會效益優(yōu)先。數(shù)據(jù)驅動的圖書影響力預測模型提供了一個開展圖書影響力預測的理論框架,勾勒了圖書影響力預測在模型層面的初步框架,有利于推動出版物量化預測從銷量預測拓展至影響力預測。
本文嘗試探索從需求側圖書影響力預測來保證和促進影響力經濟、社會效益優(yōu)先。①將效果研究與過程研究相結合,建立圖書影響力分析框架,分析影響力產生機制及載體影響,探析“雙效統(tǒng)一”模式的現(xiàn)實邏輯和實現(xiàn)路徑;②將編輯直覺預測和同類圖書的影響力評價相結合,改進過程導向的圖書影響力預測模型,拓展回報模型的應用范圍;③將協(xié)同預測與異質網絡構建相結合,結合圖書的銷量預測、社會影響力預測、學術影響力預測模型,構建數(shù)據(jù)驅動的圖書綜合影響力預測模型,拓展影響力預測新視野。
在開放數(shù)據(jù)和數(shù)字技術賦能下,數(shù)據(jù)驅動的圖書影響力預測有望成為保證和促進影響力經濟、社會效益優(yōu)先的重要手段和量化預測新模式。
(責任編輯:郭劍)
參考文獻
[1] 楊金花.圖書銷量預測偏差與校正[J].出版發(fā)行研究,2020(4):46-49.
[2] 徐麗芳.閱讀研究的萬花鏡:讀《閱讀社會學》的幾點啟示[J].傳媒,2021(1):77-78.
[3] 王鵬濤.新技術環(huán)境下閱讀演進研究:趨勢、特征與應對[J].編輯之友,2020(4):28-33.
[4] 萬安倫,黃婧雯.論主題出版的特質與價值[J].編輯之友,2019(10):33-37.
[5] 江小涓.數(shù)字時代的技術與文化[J].中國社會科學, 2021(8):4-34.
[6] 于殿利.出版是什么[M].北京:中國傳媒大學出版社, 2018:75.
[7] 孟園,王洪偉,王偉.網絡口碑對產品銷量的影響:基于細粒度的情感分析方法[J].管理評論,2017, 29(1):144-154.
[8] ROCKLAGE M D,RUCKER D D,NORDGREN L F.Mass-scale emotionality reveals human behaviour and marketplace success[J].Nature Human Behaviour, 2021:1-7.
[9] 張紅麗,劉濟郢,楊斯楠,等.基于網絡用戶評論的評分預測模型研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017, 1(8):48-58.
[10] 李綱,管為棟,馬亞雪,等.學術論文的社交媒體可見性預測研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(8):63-74.
[11] 蘇娜.科學研究的社會影響力評價:研究與實踐進展[J].情報學報,2020,39(10):1114-1119.
[12] 霍朝光,董克,魏瑞斌.學術影響力預測研究進展述評[J].情報學報,2021,40(7):768-779.
[13] WANG S Y.TEI@I:A New Methodology for Studying Complex Systems[C]// The International Workshop on Complexity Science,Tsukuba,Japan,2004.
[14] BUXTON M, HANNEY S.How can payback from health services research be assessed?[J].Journal of Health Services Research and Policy,1996,1(1):35-43.
[15] SPAAPEN J,VAN D L.Introducing‘productive interactions’in social impact assessment[J].Research Evaluation,2011,20(3):211-218.
[16] 孫藝洲,韓家煒.異構網絡挖掘原理與方法[M].段磊,朱敏,唐常杰,譯.北京:機械工業(yè)出版社,2016:148-151.
[17] 石川,俞士綸.異質信息網絡分析與應用[M].胡琳梅,石川,譯.北京:機械工業(yè)出版社,2021:95-100.
Research on Data Driving Book Impact Prediction Models
Juan Ren1 Zhao Yang2
1.Shanghai Publishing and Media Research Institute, Shanghai Publishing and Printing College,Shanghai 200093,China; 2.Shanghai Jiao Tong University Library, Shanghai 200240,China
Abstract Book impact prediction is an important part of publishing big data prediction. It aims to analyze and use the development rule of publishing, predict the future impact of books, and provide social benefit evaluation means and strategic management tools for decision-making. It establishes the analysis framework from the whole chain of book production, communication and consumption to analyze the intrinsic logic of book impact. Aiming at the problems of multi-dimensions and time-lag of book impact, it proposes that a process oriented book impact prediction model can be constructed by combining the topic selection decision-making model, logical model and book classification model system with stages and levels. Combined the book sales prediction model, book social impact prediction model with book academic impact prediction model, a data-driven book comprehensive impact prediction model can be constructed. With the empowerment of open data and digital technology, study on data-driven book impact prediction is expected to become an important method and a new quantitative prediction pattern to ensure both social benefits and influence economy.
Keywords Book; Social benefits; Impact prediction; Data driving; Sales