江小珍
(北京航空航天大學(xué)出版社有限公司,北京 海淀 100191)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,用戶在PC網(wǎng)頁或手機APP中留下了包括定位、消息記錄、消費記錄、閱讀記錄、評價等不同類別的龐大信息數(shù)據(jù)集,而如何從這些信息數(shù)據(jù)集所包含的海量數(shù)據(jù)中挖掘需求、發(fā)現(xiàn)機會,是包括出版行業(yè)在內(nèi)的各行業(yè)需要面對的機遇和挑戰(zhàn)。隨著云計算等技術(shù)的普及,大數(shù)據(jù)技術(shù)的應(yīng)用門檻和成本不斷降低,非互聯(lián)網(wǎng)企業(yè)也可以通過大數(shù)據(jù)技術(shù)對目標(biāo)數(shù)據(jù)進(jìn)行提取、存儲、分析和可視化展現(xiàn),以此發(fā)掘商業(yè)價值。出版社可以結(jié)合自身實際,由淺入深地逐步推進(jìn)大數(shù)據(jù)在圖書選題策劃、圖書營銷發(fā)行等不同工作環(huán)節(jié)中的應(yīng)用。
大數(shù)據(jù) (big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
1.數(shù)據(jù)體量巨大
據(jù)統(tǒng)計,人類有史以來的所有印刷品承載的數(shù)據(jù)量的大小是百PB(1PB=1024TB)量級。當(dāng)前個人電腦硬盤的主流容量為TB(1TB=1024GB)量級,一些大企業(yè)的數(shù)據(jù)量達(dá)到了EB(1EB=1024PB)量級,公共互聯(lián)網(wǎng)上的數(shù)據(jù)量則更加的龐大。
2.數(shù)據(jù)類型繁多
早期PC互聯(lián)網(wǎng)上的主要數(shù)據(jù)是便于存儲的、以文本或數(shù)字類型數(shù)據(jù)為主的結(jié)構(gòu)化數(shù)據(jù)。當(dāng)前,移動互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù)占比越來越大,主要包括圖片、音頻、視頻等類型的數(shù)據(jù)。數(shù)據(jù)種類的多樣化對數(shù)據(jù)處理能力提出了更高的要求。
3.價值密度低和處理速度快
大數(shù)據(jù)價值密度的高低和數(shù)據(jù)總量的大小成反比,例如,在實際工作中,連續(xù)不斷數(shù)小時的安防監(jiān)控視頻,有用的部分可能只有幾秒。在類似的需求場景下,如何通過大數(shù)據(jù)挖掘技術(shù)來完成數(shù)據(jù)的“提純”就至關(guān)重要。
數(shù)據(jù)源的開放、公開、易獲得是大數(shù)據(jù)的基本特征之一。一些商業(yè)機構(gòu)會定期向社會提供數(shù)據(jù)源,如百度數(shù)據(jù)開放平臺 (http://open.baidu.com);部分政府機構(gòu)也會提供一些權(quán)威的開放數(shù)據(jù)源,如國家統(tǒng)計局網(wǎng)站 (http://www.stats.gov.cn);公共互聯(lián)網(wǎng)每天產(chǎn)生的大數(shù)據(jù)可以通過應(yīng)用程序接口 (API)和爬蟲技術(shù),在一定的開放性規(guī)則下獲取或采集到,如阿里云的 API市場平臺 (https://market.aliyun.com/)。而傳統(tǒng)數(shù)據(jù)主要在機構(gòu)內(nèi)部流動,跨機構(gòu)獲取數(shù)據(jù)的壁壘和成本非常高。
大數(shù)據(jù)關(guān)注的是全部數(shù)據(jù),而不是抽樣數(shù)據(jù)。隨著云計算成本的降低、數(shù)據(jù)挖掘算法的不斷改進(jìn)和豐富,以及機器學(xué)習(xí)和人工智能技術(shù)的發(fā)展,大數(shù)據(jù)對全部數(shù)據(jù)進(jìn)行的分析應(yīng)用法取代了傳統(tǒng)的數(shù)據(jù)抽樣分析法,使得數(shù)據(jù)分析的全面性和準(zhǔn)確性得到了提升。
傳統(tǒng)的數(shù)據(jù)分析重實證研究,強調(diào)在理論的前提下先建立假設(shè),再收集數(shù)據(jù)來驗證假設(shè),是一種自上而下的決策和思維過程。而大數(shù)據(jù)重預(yù)測,這種預(yù)測是一種自下而上的知識發(fā)現(xiàn)過程,是在沒有理論假設(shè)的前提下,去洞察社會現(xiàn)象、趨勢和規(guī)律。例如,通過采集、分析社交網(wǎng)絡(luò)上帶有時間標(biāo)簽的海量信息,可以預(yù)測事件的發(fā)展走向、電影票房的變化趨勢等。
與傳統(tǒng)數(shù)據(jù)分析關(guān)注的因果關(guān)系不同,大數(shù)據(jù)關(guān)注的重點是“是什么”,而不是“為什么”。大數(shù)據(jù)分析更關(guān)注發(fā)現(xiàn)數(shù)據(jù)間的相關(guān)性,通過對海量數(shù)據(jù)進(jìn)行相關(guān)性分析,可以發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息和知識。
圖書出版工作的主要生產(chǎn)環(huán)節(jié)包括:選題策劃、組稿、編輯加工、排版制作、印制、營銷發(fā)行等。其中,在選題策劃的指向性、營銷發(fā)行的精準(zhǔn)性上,大數(shù)據(jù)技術(shù)能夠發(fā)揮其作用。
1.傳統(tǒng)選題策劃過程中存在的不足
廣義來說,選題是指經(jīng)過分析、考量,選中主題后擬實施的項目。出版社的傳統(tǒng)圖書選題策劃過程主要依靠編輯在工作中所積累的經(jīng)驗,以及其所使用的市場調(diào)研手段,比如,問卷調(diào)查、書店探訪等。這種傳統(tǒng)的選題策劃方式存在著調(diào)研數(shù)據(jù)樣本較小、數(shù)據(jù)時效性滯后、人為主觀性較強的缺點,并且,受編輯自身知識結(jié)構(gòu)、工作經(jīng)驗、審美與價值觀念的影響較大。
2.大數(shù)據(jù)技術(shù)對選題策劃過程的優(yōu)化作用
使用大數(shù)據(jù)技術(shù)可以有效優(yōu)化傳統(tǒng)的選題策劃流程,提高選題的質(zhì)量,從而提升出版社的整體選題策劃水平。
首先,使用大數(shù)據(jù)技術(shù)圍繞選題進(jìn)行廣泛的信息采集。信息采集的內(nèi)容包括市場環(huán)境信息,比如,學(xué)術(shù)信息、行業(yè)信息、出版信息、競爭對手的產(chǎn)品信息等;讀者的閱讀需求信息,比如,用戶閱讀行為、購買記錄、連載書訪問量等。信息采集的來源包括:互聯(lián)網(wǎng)上能夠滿足讀者個性化閱讀需求的平臺,比如,博客、微博、論壇、貼吧、書評網(wǎng)站、各大門戶網(wǎng)站的讀書頻道、文學(xué)網(wǎng)站、社交網(wǎng)站等;讀者進(jìn)行網(wǎng)上購書的主要電商平臺,比如,當(dāng)當(dāng)、京東、亞馬遜等;行業(yè)數(shù)據(jù)平臺,比如,開卷數(shù)據(jù)、出版物數(shù)據(jù)中心服務(wù)平臺 (PDC平臺)等。
其次,使用數(shù)據(jù)挖掘與處理技術(shù)對收集到的各種信息進(jìn)行梳理、篩選、挖掘和分析,并得出一些指向性的數(shù)據(jù)預(yù)測結(jié)果。這些預(yù)測結(jié)果的類型可能是近期熱門的內(nèi)容題材、某類書籍在市場中受歡迎程度、已出版的同類書籍的銷售情況等,這些信息可以為選題策劃的決策提供更準(zhǔn)確的參考,降低選題失敗的風(fēng)險。
出版行業(yè)對大數(shù)據(jù)的應(yīng)用還體現(xiàn)在營銷和發(fā)行工作中。在互聯(lián)網(wǎng)公司個性化的內(nèi)容推送環(huán)境下,個性化、定制化、主動化已成為當(dāng)代讀者的需求和特點。人們對圖書的需求開始變得更多元且細(xì)化,小眾市場的浮現(xiàn)也創(chuàng)造了強大的市場價值,因此,圖書的營銷和發(fā)行也需要向更加個性化、精準(zhǔn)化,更具及時性的方向發(fā)展和轉(zhuǎn)變。為此,圖書出版方可以通過使用大數(shù)據(jù)技術(shù),從以下幾個方面來提高圖書的發(fā)行量:
1.時效性
研究發(fā)現(xiàn),讀者在電商平臺的購買習(xí)慣和行為正在發(fā)生較明顯的變化:讀者購買的決策時間更短了。出版社在電商平臺進(jìn)行廣告投放時,選擇的時間段對交易轉(zhuǎn)化來說非常重要。大數(shù)據(jù)營銷可以基于對海量數(shù)據(jù)的處理,分析出讀者最容易實施購買行為的黃金時段,從而指導(dǎo)其進(jìn)行廣告推送,這樣更有利于提升產(chǎn)品的銷量。
2.個性化
傳統(tǒng)的圖書營銷以媒介為導(dǎo)向,出版社推送什么內(nèi)容,讀者就被動地接受什么內(nèi)容。而大數(shù)據(jù)技術(shù)指導(dǎo)下的圖書營銷能夠以讀者為導(dǎo)向,根據(jù)讀者的偏好和關(guān)注點,安排相關(guān)的內(nèi)容并及時推送給讀者。
3.關(guān)聯(lián)性
大數(shù)據(jù)營銷可以將廣告與消費者的行為習(xí)慣進(jìn)行結(jié)合,在每個時間段內(nèi)上下關(guān)聯(lián),給讀者營造一個完整的購買情境,從而激發(fā)讀者的購買欲望。
4.性價比
大數(shù)據(jù)營銷可以更加精準(zhǔn)化地推送相關(guān)廣告,做到有的放矢。相比之下,在達(dá)到相同的銷售目標(biāo)的前提下,大數(shù)據(jù)營銷比傳統(tǒng)營銷所需要的廣告量更少,性價比也更高。
隨著云計算及相關(guān)軟、硬件技術(shù)的進(jìn)步,大數(shù)據(jù)應(yīng)用的技術(shù)門檻和使用成本在不斷降低,但是,出版社在工作中嘗試應(yīng)用大數(shù)據(jù)時也存在觀念難以扭轉(zhuǎn)、技術(shù)人才不足等問題。出版社在應(yīng)用大數(shù)據(jù)時要結(jié)合自身實際,由簡單到復(fù)雜分步驟進(jìn)行,以此減少阻力,實現(xiàn)平滑過渡。
對編輯來說,掌握專業(yè)的大數(shù)據(jù)技術(shù)具有一定困難,而利用現(xiàn)有的大數(shù)據(jù)工具和平臺來做數(shù)據(jù)采集和分析,既不需要編輯具備專業(yè)的IT技術(shù)能力,也無需出版社投入資金成本。從廣義上的大數(shù)據(jù)應(yīng)用來說,在編輯日常工作中,就已經(jīng)在使用出版行業(yè)內(nèi)的基礎(chǔ)大數(shù)據(jù)工具和平臺了,比如,開卷數(shù)據(jù)、出版物數(shù)據(jù)中心服務(wù)平臺 (PDC平臺)等。在出版行業(yè)以外,各大互聯(lián)網(wǎng)公司和專業(yè)的大數(shù)據(jù)軟件應(yīng)用公司也提供了大數(shù)據(jù)分析工具,比如,字節(jié)跳動的巨量算數(shù)、騰訊的微信指數(shù)、百度的百度指數(shù)等。本文對上線較久的百度指數(shù)工具的趨勢研究、需求圖譜、人群畫像三個主要模塊,進(jìn)行分析說明。
1.趨勢研究
趨勢研究通過對設(shè)定關(guān)鍵詞的搜索量的數(shù)據(jù)進(jìn)行比對,來分析某個方面的發(fā)展趨勢,可以是不同關(guān)鍵詞的搜索量之間的對比,也可以是對同一個關(guān)鍵詞在不同時間段的搜索量之間的對比。比如,針對同一個領(lǐng)域的不同名家作者,可以借助趨勢研究工具,對過去一兩年內(nèi)這些作者的搜索量進(jìn)行分析對比,預(yù)測未來誰的合作價值更大;再比如,分析在一個出版大方向上的不同子方向,哪一個子方向的熱度可能會更高;又如,分析、預(yù)測某類圖書產(chǎn)品在未來不同的時間出版發(fā)行對銷售的影響,等等。借助趨勢研究工具,可以通過對不同關(guān)鍵詞的搜索趨勢進(jìn)行對比、分析,并做出科學(xué)預(yù)判。
2.需求圖譜
需求圖譜可揭示用戶在搜索關(guān)鍵詞之前或之后經(jīng)常搜索的詞。圖譜中的圓點越大,說明該詞被搜索的次數(shù)越多;而離中心的圓圈越近,說明該詞與設(shè)定的關(guān)鍵詞的相關(guān)度越高。這一功能可以用來發(fā)現(xiàn)之前未發(fā)現(xiàn)的信息,也可以用來修正對市場的判斷。比如,用選題名稱或書籍?dāng)M用的名字作為關(guān)鍵詞來做需求圖譜時,可以看到用戶搜索的其他相關(guān)關(guān)鍵詞,這些相關(guān)關(guān)鍵詞可能有助于發(fā)現(xiàn)競爭對手和相關(guān)線索,也可能有助于發(fā)現(xiàn)更易被用戶接受的圖書名稱,甚至有助于發(fā)現(xiàn)這一領(lǐng)域較受歡迎的作者。總而言之,借助需求圖譜可以發(fā)現(xiàn)更多的相關(guān)可能性和機會。
3.人群畫像
人群畫像是對互聯(lián)網(wǎng)上搜索關(guān)鍵詞的用戶進(jìn)行畫像分析,包括地域分布和人群屬性等。在利用人群畫像提取了關(guān)鍵詞訪問人群在各省市的分布情況、年齡分布以及性別后,編輯可以據(jù)此修正圖書產(chǎn)品的策劃和工作思路,營銷發(fā)行人員可以根據(jù)特定地域的用戶偏好進(jìn)行針對性地運營和推廣,以實現(xiàn)圖書社會效益和經(jīng)濟效益的雙豐收。
現(xiàn)有的大數(shù)據(jù)分析工具和平臺的優(yōu)點是使用成本低,缺點是不能很好地滿足個性化和深入的大數(shù)據(jù)應(yīng)用需求。有條件的出版社在現(xiàn)有大數(shù)據(jù)分析工具和平臺不能滿足需求時,可以投入一定的人力、物力資源去自建大數(shù)據(jù)分析工具。
自建大數(shù)據(jù)分析工具,首先要厘清需求。確定需要采集哪些類別的數(shù)據(jù)、從哪里采集、對所采集的數(shù)據(jù)如何進(jìn)行數(shù)據(jù)項和維度分析、分析后的數(shù)據(jù)結(jié)果通過何種方式進(jìn)行展現(xiàn)等。在厘清需求之后,可以建立自己的技術(shù)團(tuán)隊來進(jìn)行研發(fā),也可以外包給大數(shù)據(jù)軟件公司進(jìn)行研發(fā)。
出版社在應(yīng)用大數(shù)據(jù)會遇到各業(yè)務(wù)板塊、各自分散的大數(shù)據(jù)應(yīng)用滿足不了出版社整體需求的情況。比如,在數(shù)據(jù)管理方面,存在數(shù)據(jù)集分散、維護(hù)困難、人力耗費過多,部分?jǐn)?shù)據(jù)休眠、應(yīng)用弱,以及基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一的問題;在數(shù)據(jù)應(yīng)用方面,存在信息獲取不全面、決策信息支持不夠的問題。解決這些問題需要基于出版社的實際情況,整合各業(yè)務(wù)板塊中分散的大數(shù)據(jù)應(yīng)用,建立出版社統(tǒng)一的大數(shù)據(jù)運營中臺。通過打通社內(nèi)數(shù)據(jù)、行業(yè)數(shù)據(jù)、公共互聯(lián)網(wǎng)平臺的數(shù)據(jù)和整合各項應(yīng)用工具,無需來回切換不同的工具和平臺,只需運用大數(shù)據(jù)運營中臺就能實現(xiàn)各項大數(shù)據(jù)的應(yīng)用需求。
1.選題策劃
編輯可以使用選題策劃工具,發(fā)現(xiàn)最有潛力的市場,提煉出不同讀者群體的不同需求,挑選出社會公眾關(guān)注度高的題材,并在社交媒體上發(fā)起市場調(diào)查,從而實現(xiàn)精準(zhǔn)的選題策劃。
2.營銷發(fā)行
營銷發(fā)行人員無需使用外部工具和平臺即可對公共互聯(lián)網(wǎng)平臺的數(shù)據(jù)進(jìn)行采集和分析,實現(xiàn)精準(zhǔn)營銷,提升讀者的購買率。
3.運營管理
在數(shù)據(jù)處理方面,運營人員可以在數(shù)據(jù)平臺中實現(xiàn)一次制作、全平臺流轉(zhuǎn)、自動更新;在經(jīng)營分析方面,管理人員可以通過可視化的大數(shù)據(jù)進(jìn)行結(jié)果展現(xiàn),對出版社的經(jīng)營狀況有更直觀的了解,從而做出更加科學(xué)的決策;在績效分析方面,管理人員可以通過透視分析工具清晰看出圖書的盈利情況,并通過關(guān)聯(lián)分析對編輯的績效了然于胸;在指標(biāo)監(jiān)控方面,管理人員可以在移動端隨時查看各項經(jīng)營指標(biāo),并且在經(jīng)營出現(xiàn)異常時,數(shù)據(jù)平臺會觸發(fā)預(yù)設(shè)的指標(biāo)閾值設(shè)定并主動推送異常報警消息,管理人員可以據(jù)此及時發(fā)現(xiàn)問題、修正問題。
以上是對大數(shù)據(jù)在圖書選題策劃、圖書營銷發(fā)行工作中的應(yīng)用的初步思考和實踐。
2021年,最火的互聯(lián)網(wǎng)熱詞是“元宇宙”,先行的探索者們已經(jīng)在嘗試研究構(gòu)建一個與現(xiàn)實世界平行的數(shù)字世界,這是大數(shù)據(jù)發(fā)展的一個令人激動的方向。目前,“元宇宙”還處于早期研究階段,但大數(shù)據(jù)已經(jīng)滲透到了各行各業(yè),成為了影響社會生產(chǎn)和發(fā)展的重要因素之一。展望未來,針對大數(shù)據(jù)的挖掘及運用會帶來生產(chǎn)方式的變革。出版社應(yīng)順應(yīng)時代的發(fā)展趨勢,積極利用大數(shù)據(jù)技術(shù)提升工作質(zhì)量和效率,實現(xiàn)更好的社會效益和經(jīng)濟效益。