姜元春 王繼成 賀菲菲 陳航 劉業(yè)政
摘 要:科技大數(shù)據(jù)在科技創(chuàng)新、社會(huì)經(jīng)濟(jì)運(yùn)行和國(guó)家安全等活動(dòng)中發(fā)揮著重要的作用,其價(jià)值評(píng)估問(wèn)題是目前學(xué)術(shù)界和工業(yè)界關(guān)注的難題?;趦r(jià)值鏈理論和品牌價(jià)值理論,本文構(gòu)建了科技大數(shù)據(jù)的全過(guò)程價(jià)值鏈模型,提出了科技大數(shù)據(jù)的核心價(jià)值鏈;基于科技大數(shù)據(jù)核心價(jià)值鏈,構(gòu)建了科技大數(shù)據(jù)價(jià)值評(píng)估指標(biāo)體系,并針對(duì)其中難以量化的關(guān)鍵指標(biāo),提出了基于社交網(wǎng)絡(luò)分析和動(dòng)態(tài)主題模型的指標(biāo)測(cè)度方法,同時(shí)以科技論文數(shù)據(jù)為例驗(yàn)證了所提測(cè)度方法的有效性。本文研究為科技大數(shù)據(jù)價(jià)值評(píng)估難題提供了新的研究視角、理論框架和模型方法。
關(guān)鍵詞:科技大數(shù)據(jù);價(jià)值評(píng)估;價(jià)值鏈模型;機(jī)器學(xué)習(xí)方法
中圖分類號(hào):F045.3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2097-0145(2022)03-0031-08doi:10.11847/fj.41.3.31
Multi-dimensional Value Chain Model and Value Evaluation Method for Scientific Big Data
JIANG Yuan-chun1,2, WANG Ji-cheng1,2, HE Fei-fei1,2, CHEN Hang1,2, LIU Ye-zheng1,2
(1.School of Management, Hefei University of Technology, Hefei 230009, China; 2.Key Lab of Process Optimization and Intelligent Decision-making, Ministry of Education, Hefei 230009, China)
Abstract:Scientific big data plays an important role in scientific and technological innovation, socio-economic operation and national security. Its value evaluation is a difficult problem concerned by academy and industry. Based on the value chain theory and brand value theory, this paper constructs a whole-process value chain model of scientific big data, and designs a core value chain model of scientific big data. Based on the core value chain model, we design a criteria system to evaluate the value of scientific big data. For the criteria which are difficult to measure, the evaluation methods based on social network analysis model and dynamic topic model are constructed, and the effectiveness of the proposed methods is verified with the data of academic papers. This research provides a new research perspective, theoretical framework and theoretic models for the problem of value evaluation for scientific big data.
Key words:scientific big data; value evaluation; value chain model; machine learning model
1 引言
科技大數(shù)據(jù)是一類能夠反映人類科技活動(dòng)狀態(tài)和過(guò)程的信息資源,可以支持人類洞察新思想、發(fā)現(xiàn)新規(guī)律、發(fā)明新技術(shù)、開發(fā)新產(chǎn)品。2020年3月,國(guó)務(wù)院《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置的體制機(jī)制的意見》正式發(fā)布。該意見將數(shù)據(jù)與土地、勞動(dòng)力、資本、技術(shù)作為并列的一個(gè)重要要素,指出要提升社會(huì)數(shù)據(jù)資源的價(jià)值,加強(qiáng)數(shù)據(jù)資源整合和安全保護(hù),并強(qiáng)調(diào)引導(dǎo)培育大數(shù)據(jù)交易市場(chǎng)。由于數(shù)據(jù)價(jià)值是數(shù)據(jù)交易流通的基礎(chǔ),因此,數(shù)據(jù)價(jià)值評(píng)估成為數(shù)據(jù)要素市場(chǎng)化配置的重要環(huán)節(jié)?!翱萍即髷?shù)據(jù)”作為“大數(shù)據(jù)”集合中的高價(jià)值密度組分,其價(jià)值正逐步得到重視。與其他類型的大數(shù)據(jù)類似,科技大數(shù)據(jù)的價(jià)值評(píng)估問(wèn)題是目前學(xué)術(shù)界和工業(yè)界關(guān)注的難題。
圍繞科技大數(shù)據(jù)價(jià)值評(píng)估問(wèn)題,現(xiàn)有研究從不同維度和視角進(jìn)行了探討[1~3],為科技大數(shù)據(jù)的價(jià)值發(fā)現(xiàn)奠定了有效的理論基礎(chǔ)??萍即髷?shù)據(jù)的產(chǎn)生、分析、傳播和應(yīng)用是一個(gè)全生命周期的系統(tǒng)過(guò)程,其價(jià)值在生命周期的不同階段得到創(chuàng)造、整合、傳遞和實(shí)現(xiàn)?,F(xiàn)有關(guān)于科技大數(shù)據(jù)價(jià)值的研究通常面向科技大數(shù)據(jù)全生命周期中的單一主體或聚焦于全生命周期的特定階段,科技大數(shù)據(jù)價(jià)值評(píng)估的系統(tǒng)框架尚未建立。在科技大數(shù)據(jù)價(jià)值評(píng)估框架的基礎(chǔ)上,如何對(duì)科技大數(shù)據(jù)的多元價(jià)值進(jìn)行評(píng)估仍是目前理論研究的難點(diǎn)問(wèn)題,相關(guān)方法需要持續(xù)探索。
針對(duì)上述問(wèn)題,本文首先對(duì)科技大數(shù)據(jù)的價(jià)值及其特征進(jìn)行系統(tǒng)分析,在此基礎(chǔ)上,基于波特戰(zhàn)略理論和品牌價(jià)值理論,構(gòu)建了科技大數(shù)據(jù)的全過(guò)程價(jià)值鏈模型,提出了科技大數(shù)據(jù)的核心價(jià)值鏈;基于科技大數(shù)據(jù)核心價(jià)值鏈,構(gòu)建了科技大數(shù)據(jù)價(jià)值評(píng)估指標(biāo)體系,并針對(duì)其中難以量化的關(guān)鍵指標(biāo),提出了基于社交網(wǎng)絡(luò)分析和動(dòng)態(tài)主題模型的指標(biāo)測(cè)度方法。本文研究對(duì)構(gòu)建科技大數(shù)據(jù)價(jià)值評(píng)估的系統(tǒng)性框架具有理論和實(shí)踐意義。
2 科技大數(shù)據(jù)的價(jià)值及特征
2.1 科技大數(shù)據(jù)的多元價(jià)值
圍繞科技大數(shù)據(jù)的價(jià)值及其評(píng)估問(wèn)題,研究者近年來(lái)從不同維度和視角進(jìn)行了探討。李陽(yáng)等[1]研究認(rèn)為科技大數(shù)據(jù)不僅是科學(xué)研究的結(jié)果,且日益成為科學(xué)研究的重要基礎(chǔ),是支持科研活動(dòng)與科技創(chuàng)新的關(guān)鍵。王晶金等[2]研究指出科技成果的應(yīng)用轉(zhuǎn)化在國(guó)家創(chuàng)新體系建設(shè)中具有重要意義。楊友清和陳雅[3]研究認(rèn)為科技大數(shù)據(jù)集科學(xué)價(jià)值和使用價(jià)值于一體,并對(duì)科技創(chuàng)新的發(fā)展產(chǎn)生影響。除了科學(xué)價(jià)值,諸云強(qiáng)等[4]認(rèn)為,經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值也是科技大數(shù)據(jù)的重要維度。此外,科技大數(shù)據(jù)對(duì)不同的使用者價(jià)值不同,可以支撐個(gè)體的科研需求、企業(yè)的技術(shù)創(chuàng)新、政府的管理決策[5],需要構(gòu)建動(dòng)態(tài)的價(jià)值評(píng)估指標(biāo)體系[6]。從研究現(xiàn)狀看,關(guān)于科技大數(shù)據(jù)價(jià)值評(píng)估的研究尚處于探索階段。本文從用戶視角并借鑒營(yíng)銷學(xué)的品牌價(jià)值理論[7]分析科技大數(shù)據(jù)的價(jià)值,將科技大數(shù)據(jù)的價(jià)值分為使用價(jià)值和象征價(jià)值。使用價(jià)值是指科技大數(shù)據(jù)滿足用戶的功能效用的程度,用戶使用科技大數(shù)據(jù)的功能效用主要表現(xiàn)在洞察新思想、發(fā)現(xiàn)新規(guī)律、發(fā)明新技術(shù)、開發(fā)新產(chǎn)品等方面;象征價(jià)值是指科技大數(shù)據(jù)滿足用戶的心理效用的程度,用戶使用科技大數(shù)據(jù)的心理效用主要表現(xiàn)在地位、身份等的提升。具體分析結(jié)果如表1所示,從中可以看出,科技大數(shù)據(jù)作為一類特殊的信息資源,其價(jià)值主要在于創(chuàng)新,包含知識(shí)、產(chǎn)品、服務(wù)、政策創(chuàng)新等。
2.2 科技大數(shù)據(jù)價(jià)值的特征
雖然我們借鑒了營(yíng)銷學(xué)中的品牌價(jià)值理論將科技大數(shù)據(jù)價(jià)值劃分為使用價(jià)值和象征價(jià)值,但科技大數(shù)據(jù)的價(jià)值與商品價(jià)值畢竟存在著差異,表現(xiàn)出自身的一些特征,如圖1。
圖1 科技大數(shù)據(jù)價(jià)值特征關(guān)系圖
(1)多元性??萍即髷?shù)據(jù)價(jià)值的多元性特征主要是指同一科技大數(shù)據(jù)本體往往具有多種潛在價(jià)值。例如,科技大數(shù)據(jù)不僅可以幫助企業(yè)提升生產(chǎn)效率,具有使用價(jià)值,也可以提升企業(yè)科技形象,具有象征價(jià)值。受使用者價(jià)值標(biāo)準(zhǔn)與追求的影響,科技大數(shù)據(jù)價(jià)值的多元性特征往往會(huì)體現(xiàn)得更加明顯。
(2)稀疏性。雖然科技大數(shù)據(jù)是大數(shù)據(jù)集合中的高價(jià)值密度組分,其價(jià)值依然具有稀疏性特征。一方面是因?yàn)橛袃r(jià)值的數(shù)據(jù)被大量無(wú)價(jià)值的數(shù)據(jù)掩蓋;另一方面,對(duì)具體使用者而言,真正有價(jià)值的數(shù)據(jù)往往隱藏在其他科技大數(shù)據(jù)之中,需要借助相關(guān)技術(shù)進(jìn)行跟蹤和識(shí)別。
(3)增值性??萍即髷?shù)據(jù)的價(jià)值并非固定不變。在數(shù)據(jù)創(chuàng)造、生產(chǎn)、交易和使用的過(guò)程中,科技大數(shù)據(jù)蘊(yùn)含的價(jià)值會(huì)得到不斷發(fā)掘??萍即髷?shù)據(jù)價(jià)值的增值性特征也會(huì)在數(shù)據(jù)的價(jià)值傳遞中得到體現(xiàn)。例如,科技論文中的某些知識(shí)引發(fā)新知識(shí)的產(chǎn)生??萍即髷?shù)據(jù)的價(jià)值傳遞及其產(chǎn)生的價(jià)值增值路徑,是科技大數(shù)據(jù)價(jià)值增值性特征的重要體現(xiàn)。
(4)互補(bǔ)性??萍即髷?shù)據(jù)的價(jià)值不僅取決于數(shù)據(jù)本身的價(jià)值,還取決于使用者已有的數(shù)據(jù)基礎(chǔ)。與已有數(shù)據(jù)在數(shù)據(jù)量、樣本特征以及時(shí)間、空間維度上形成互補(bǔ)的科技大數(shù)據(jù),對(duì)使用者而言通常會(huì)具有更大的價(jià)值。
(5)標(biāo)準(zhǔn)不確定性。不同類型的科技數(shù)據(jù)往往具有不同的價(jià)值標(biāo)準(zhǔn)。例如,論文、專利和科技情報(bào)的價(jià)值標(biāo)準(zhǔn)互不相同。受科技大數(shù)據(jù)價(jià)值多元性特征的影響,同一類數(shù)據(jù)的價(jià)值標(biāo)準(zhǔn)也不統(tǒng)一。標(biāo)準(zhǔn)不確定性使得無(wú)法設(shè)計(jì)一套通用的評(píng)估指標(biāo)體系對(duì)不同類型科技大數(shù)據(jù)的價(jià)值進(jìn)行評(píng)估。
(6)情景相關(guān)性。傳統(tǒng)商品的使用價(jià)值具有同一性,即對(duì)于不同主體而言,其使用價(jià)值是一致的,而科技大數(shù)據(jù)的使用價(jià)值則往往不具有同一性,對(duì)于不同主體其價(jià)值往往不同。例如,同一發(fā)明專利,對(duì)一個(gè)企業(yè)價(jià)值連城,對(duì)另一個(gè)企業(yè)可能一文不名。因此,需要結(jié)合相關(guān)主體的價(jià)值目標(biāo)和使用情景對(duì)科技大數(shù)據(jù)的價(jià)值進(jìn)行評(píng)估。
3 科技大數(shù)據(jù)全過(guò)程價(jià)值鏈模型
Porter[8]認(rèn)為,每一個(gè)企業(yè)都是在設(shè)計(jì)、生產(chǎn)、銷售、傳遞(核心價(jià)值活動(dòng))和輔助其產(chǎn)品的過(guò)程(輔助價(jià)值活動(dòng))中進(jìn)行種種活動(dòng)的集合體,所有這些活動(dòng)可以用一個(gè)價(jià)值鏈來(lái)表明。針對(duì)大數(shù)據(jù)的價(jià)值創(chuàng)造過(guò)程,Miller和Mork[9]提出了數(shù)據(jù)價(jià)值鏈的概念,
將大數(shù)據(jù)的核心價(jià)值活動(dòng)分為三階段七種價(jià)值活動(dòng),即數(shù)據(jù)發(fā)現(xiàn)階段的收集與標(biāo)注、準(zhǔn)備、組織活動(dòng),數(shù)據(jù)整合階段的整合活動(dòng),以及數(shù)據(jù)利用階段的分析、可視化、決策活動(dòng)??萍即髷?shù)據(jù)作為一種特殊的產(chǎn)品類型和數(shù)據(jù)類型,本文基于波特的產(chǎn)品價(jià)值鏈模型和米勒的大數(shù)據(jù)價(jià)值鏈模型,將科技大數(shù)據(jù)的生成與獲取、整合與分析、傳遞與交易、決策與應(yīng)用等核心價(jià)值活動(dòng)納入統(tǒng)一架構(gòu),形成價(jià)值創(chuàng)造的動(dòng)態(tài)過(guò)程,并整合科技大數(shù)據(jù)基礎(chǔ)設(shè)施、技術(shù)與工具、人才隊(duì)伍、盈利模式等輔助價(jià)值活動(dòng),構(gòu)建了科技大數(shù)據(jù)全過(guò)程價(jià)值鏈模型,如圖2所示。
(1)生成與獲取——價(jià)值創(chuàng)造??萍即髷?shù)據(jù)的生成與獲取是價(jià)值創(chuàng)造活動(dòng),使得科技大數(shù)據(jù)從無(wú)到有, 處于科技大數(shù)據(jù)價(jià)值鏈的頂端,主要增值部分就在其原創(chuàng)性的科技知識(shí)含量之中。科學(xué)實(shí)驗(yàn)數(shù)據(jù)的采集、科技論文和專利的撰寫、科技項(xiàng)目的立項(xiàng)、科技政策的制定等都是科技數(shù)據(jù)的價(jià)值創(chuàng)造過(guò)程。科技大數(shù)據(jù)價(jià)值創(chuàng)造過(guò)程的參與者包括科研機(jī)構(gòu)、科技工作者等。
(2)整合與分析——價(jià)值整合??蒲袡C(jī)構(gòu)、科技工作者產(chǎn)生的數(shù)據(jù)可能是碎片化的,科技大數(shù)據(jù)的整合與分析就是通過(guò)聚合、組織、存儲(chǔ)、分析、挖掘等活動(dòng),使科技大數(shù)據(jù)從“溪流”變成可相互支持、相互驗(yàn)證的“海洋”, 成為可傳遞和利用的產(chǎn)品,實(shí)現(xiàn)科技大數(shù)據(jù)價(jià)值整合。整合過(guò)程的參與者包括各類數(shù)字出版商、知識(shí)產(chǎn)權(quán)登記組織、知識(shí)產(chǎn)權(quán)服務(wù)商、相應(yīng)政府部門以及各類數(shù)據(jù)處理服務(wù)商等。
(3)傳遞與交易——價(jià)值傳遞??萍即髷?shù)據(jù)的傳遞與交易是價(jià)值傳遞活動(dòng),是價(jià)值整合與價(jià)值實(shí)現(xiàn)間的橋梁,沒(méi)有價(jià)值傳遞,聚合的數(shù)據(jù)價(jià)值就無(wú)法得到充分應(yīng)用,甚至?xí)兂梢欢颜加么罅抠Y源的數(shù)字垃圾。價(jià)值傳遞任務(wù)包括科技大數(shù)據(jù)的交易、推廣和服務(wù)等活動(dòng),傳遞過(guò)程的參與者包括各類科技大數(shù)據(jù)平臺(tái)以及支撐科技大數(shù)據(jù)平臺(tái)運(yùn)行的各類服務(wù)商等。
(4)決策與應(yīng)用——價(jià)值實(shí)現(xiàn)。科技大數(shù)據(jù)的價(jià)值通過(guò)科技大數(shù)據(jù)的消費(fèi)使用而得以實(shí)現(xiàn)。在科技大數(shù)據(jù)價(jià)值鏈模型中,價(jià)值創(chuàng)造、價(jià)值整合和價(jià)值傳遞是成本投入的過(guò)程,最終在價(jià)值實(shí)現(xiàn)環(huán)節(jié)實(shí)現(xiàn)成本投入的變現(xiàn)。
4 科技大數(shù)據(jù)價(jià)值評(píng)估指標(biāo)體系
從科技大數(shù)據(jù)全過(guò)程價(jià)值鏈模型可以看出,在科技大數(shù)據(jù)的價(jià)值創(chuàng)造、整合、傳遞和實(shí)現(xiàn)過(guò)程中,不同階段的價(jià)值活動(dòng)各不相同,涉及的價(jià)值活動(dòng)主體也不相同,構(gòu)建適用于相應(yīng)階段的價(jià)值評(píng)估指標(biāo)體系,實(shí)現(xiàn)對(duì)不同階段活動(dòng)的精準(zhǔn)價(jià)值評(píng)估,有助于促進(jìn)科技大數(shù)據(jù)在不同主體間交易流通,服務(wù)不同價(jià)值主體,實(shí)現(xiàn)多元的價(jià)值目標(biāo)。
4.1 價(jià)值創(chuàng)造環(huán)節(jié)的價(jià)值評(píng)估指標(biāo)體系
科技大數(shù)據(jù)價(jià)值創(chuàng)造環(huán)節(jié),生產(chǎn)者指標(biāo)、數(shù)量指標(biāo)和內(nèi)容質(zhì)量是這一環(huán)節(jié)影響科技大數(shù)據(jù)價(jià)值的重要指標(biāo)。生產(chǎn)者指標(biāo)衡量的是科技大數(shù)據(jù)創(chuàng)造過(guò)程中數(shù)據(jù)生產(chǎn)者對(duì)科技大數(shù)據(jù)價(jià)值的影響,包括組織信用、個(gè)人信用和物理信用三個(gè)方面。數(shù)量指標(biāo)可以從樣本規(guī)模、屬性數(shù)量、多樣性三個(gè)方面進(jìn)行衡量??紤]到科技大數(shù)據(jù)價(jià)值在創(chuàng)新性上的特殊性,內(nèi)容質(zhì)量維度可以從新穎性、流行性、前沿性、有用性、易用性等方面評(píng)價(jià)科技大數(shù)據(jù)的質(zhì)量。科技大數(shù)據(jù)價(jià)值創(chuàng)造環(huán)節(jié)評(píng)估指標(biāo)層次結(jié)構(gòu)如表2。
4.2 價(jià)值整合環(huán)節(jié)的價(jià)值評(píng)估指標(biāo)體系
影響科技大數(shù)據(jù)整合價(jià)值的因素包括整合參與者信用、整合質(zhì)量、科技大數(shù)據(jù)的時(shí)間屬性和空間屬性等??萍即髷?shù)據(jù)整合過(guò)程中的參與者影響著科技大數(shù)據(jù)的價(jià)值,可以從參與者的組織信用和物理信用兩方面來(lái)衡量。整合質(zhì)量是指整合數(shù)據(jù)的粗細(xì)程度和符合規(guī)定的程度,可以使用粒度和完整性兩個(gè)指標(biāo)衡量。時(shí)間屬性是指整合數(shù)據(jù)的時(shí)間戳信息,可以從時(shí)間跨度、時(shí)效性、實(shí)時(shí)性三個(gè)方面衡量??臻g屬性是指整合數(shù)據(jù)涉及的“空間”范圍,可以從區(qū)域、領(lǐng)域和行業(yè)三個(gè)方面衡量。科技大數(shù)據(jù)價(jià)值整合環(huán)節(jié)評(píng)估指標(biāo)層次結(jié)構(gòu)如表3。
4.3 價(jià)值傳遞使用環(huán)節(jié)的價(jià)值評(píng)估指標(biāo)體系
科技大數(shù)據(jù)價(jià)值傳遞使用環(huán)節(jié),交易促進(jìn)者和使用者是此環(huán)節(jié)影響科技大數(shù)據(jù)價(jià)值的兩個(gè)重要維度。交易促進(jìn)者是鏈接科技大數(shù)據(jù)與用戶的中間橋梁,對(duì)科技大數(shù)據(jù)的傳遞價(jià)值產(chǎn)生重要影響,可以從版權(quán)范圍、壟斷性、收費(fèi)模式、組織信用和物理信用五個(gè)方面衡量其作用。使用者對(duì)科技大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的影響可以從領(lǐng)域匹配性、使用者偏好和目的性三個(gè)方面來(lái)衡量,不同特征的使用者使得數(shù)據(jù)資源能夠發(fā)揮的價(jià)值不同?;谏鲜龇治?,科技大數(shù)據(jù)價(jià)值傳遞使用環(huán)節(jié)評(píng)估指標(biāo)層次結(jié)構(gòu)如表4。
綜上,科技大數(shù)據(jù)價(jià)值評(píng)估指標(biāo)體系如圖3所示。
5 科技大數(shù)據(jù)價(jià)值評(píng)估關(guān)鍵指標(biāo)測(cè)度
在科技大數(shù)據(jù)價(jià)值評(píng)估眾多指標(biāo)中,一些指標(biāo)如樣本規(guī)模、屬性數(shù)量易于測(cè)度,但諸如組織信用、個(gè)人信用以及內(nèi)容質(zhì)量中的新穎性、流行性、前沿性等指標(biāo)則較為抽象,難以測(cè)量,見表2~表4。以下將針對(duì)科技大數(shù)據(jù)生產(chǎn)者信用、科技大數(shù)據(jù)新穎性、流行性及前沿性等關(guān)鍵指標(biāo)給出相應(yīng)的測(cè)度方法。
5.1 基于分層PageRank算法的個(gè)人信用和組織信用度量方法
科技大數(shù)據(jù)生產(chǎn)者之間存在著廣泛的聯(lián)系,社交網(wǎng)絡(luò)可以作為這種關(guān)系的表示模型,社交網(wǎng)絡(luò)中的結(jié)點(diǎn)影響力可以用來(lái)測(cè)度個(gè)人信用和組織信用。考慮到生產(chǎn)者個(gè)人與組織之間存在著隸屬關(guān)系,可利用生產(chǎn)者個(gè)人全局影響力與所屬組織影響力協(xié)同度量生產(chǎn)者個(gè)人的影響力,進(jìn)而提出了一種分層PageRank算法來(lái)計(jì)算個(gè)人信用和組織信用。度量流程如圖4所示。
具體步驟如下:
Step 1 構(gòu)建科技大數(shù)據(jù)生產(chǎn)者個(gè)人之間在創(chuàng)造、合作、引用和分享科技數(shù)據(jù)方面的關(guān)系網(wǎng)絡(luò)
G=(U,E,W),網(wǎng)絡(luò)中的節(jié)點(diǎn)表示科技大數(shù)據(jù)生產(chǎn)者個(gè)人,節(jié)點(diǎn)集合記為U={u1,…,ui,…,un},其中ui表示第i個(gè)生產(chǎn)者,n表示生產(chǎn)者的數(shù)量,1in;邊表示生產(chǎn)者個(gè)人之間存在著合作關(guān)系,邊集合記為E,其中生產(chǎn)者個(gè)人ui和uj之間的合作關(guān)系記為
eij,若eij=1,則表示ui與uj之間存在合作關(guān)系,反之則不存在;邊的權(quán)重wij表示生產(chǎn)者個(gè)人間的合作次數(shù),權(quán)重集合記為W。
Step 2 檢測(cè)科技大數(shù)據(jù)生產(chǎn)者個(gè)人所屬組織,即利用社區(qū)檢測(cè)Louvain方法[10]發(fā)現(xiàn)科技論文合作網(wǎng)絡(luò)中的生產(chǎn)者組織分布。具有相同所屬組織或相似研究領(lǐng)域的生產(chǎn)者們往往具有緊密性和聚集性,而不同組織或領(lǐng)域群體之間的關(guān)系相對(duì)分散和疏離。若將所屬相同組織的生產(chǎn)者視為一個(gè)科技大數(shù)據(jù)創(chuàng)造群體,合作網(wǎng)絡(luò)中則包含了很多存在著相互合作但又所屬不同科技數(shù)據(jù)創(chuàng)造領(lǐng)域的群體。在Louvain方法中,首先將每個(gè)生產(chǎn)者個(gè)人視為一個(gè)獨(dú)立的群體;然后將生產(chǎn)者個(gè)人ui分配到其每個(gè)鄰居所在的群體中并計(jì)算分配前后的模塊度增量,若最大模塊度增量大于0,則將ui分配到最大模塊度增量所對(duì)應(yīng)的群體;接著對(duì)其他生產(chǎn)者個(gè)人重復(fù)執(zhí)行與ui相同的操作,直至生產(chǎn)者個(gè)人集合U的所屬群體不再變化為止;最終得到了多個(gè)生產(chǎn)者組織集合,記為G^={g1,…,gs,…,gz},其中g(shù)s表示第s個(gè)生產(chǎn)者組織,z表示生產(chǎn)者組織的數(shù)量,1<s<z。
Step 3 構(gòu)建科技大數(shù)據(jù)生產(chǎn)者組織間的關(guān)系網(wǎng)絡(luò),即基于檢測(cè)到的生產(chǎn)者個(gè)人所屬組織,利用生產(chǎn)者組織間的合作關(guān)系及其次數(shù)構(gòu)建生產(chǎn)者組織間的關(guān)系網(wǎng)絡(luò)。在生產(chǎn)者組織間的關(guān)系網(wǎng)絡(luò)中,節(jié)點(diǎn)表示生產(chǎn)者組織,節(jié)點(diǎn)集合為G^;邊表示生產(chǎn)者組織之間存在著合作關(guān)系,邊集合記為E^,其中生產(chǎn)者組織gi和gj之間的合作關(guān)系記為ij,若ij=1,則表示gi和gj之間存在合作關(guān)系,反之則無(wú)合作關(guān)系;邊的權(quán)重表示兩個(gè)生產(chǎn)者組織內(nèi)全部生產(chǎn)者個(gè)人合作的次數(shù),權(quán)重集合記為W^,其中生產(chǎn)者組織gi和gj之間合作的次數(shù)記為ij。
Step 4 度量科技大數(shù)據(jù)生產(chǎn)者個(gè)人所屬組織信用,即利用PageRank方法[11]度量生產(chǎn)者組織間關(guān)系網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性程度。對(duì)于生產(chǎn)者組織集合G^,首先給每個(gè)生產(chǎn)者組織設(shè)置相同的信用值,然后將每個(gè)生產(chǎn)者組織的信用值除以相連的出鏈邊數(shù)后作為每個(gè)出鏈邊的權(quán)值,接著將每個(gè)生產(chǎn)者組織的入鏈邊的權(quán)值之和作為每個(gè)生產(chǎn)者組織的新信用值。重復(fù)執(zhí)行更新過(guò)程,直至兩次更新的信用值不變?yōu)橹梗瑥亩玫缴a(chǎn)者組織的信用集合,記為
P^G^={g1,…,gs,…,gz}
,其中g(shù)s表示生產(chǎn)者組織gs的信用值。
Step 5 度量科技大數(shù)據(jù)生產(chǎn)者個(gè)人信用,通過(guò)分層的PageRank方法來(lái)實(shí)現(xiàn)。該方法認(rèn)為生產(chǎn)者個(gè)人信用是由生產(chǎn)者個(gè)人的全局信用及其所屬生產(chǎn)者組織的信用共同決定的。對(duì)于合作網(wǎng)絡(luò)G,首先給每個(gè)生產(chǎn)者個(gè)人設(shè)置相同的信用值,然后將每個(gè)生產(chǎn)者個(gè)人的信用值除以相連的出鏈邊數(shù)后作為每個(gè)出鏈邊的權(quán)值,接著將每個(gè)生產(chǎn)者個(gè)人的入鏈邊的權(quán)值之和作為每個(gè)生產(chǎn)者個(gè)人的新信用值。重復(fù)執(zhí)行更新過(guò)程,直至兩次更新的信用值不變?yōu)橹?,從而得到生產(chǎn)者個(gè)人的全局信用集合,記為
PG={u1,…,ui,…,un},其中ui表示生產(chǎn)者個(gè)人ui的全局信用值。若生產(chǎn)者個(gè)人ui隸屬于組織gs,那么生產(chǎn)者個(gè)人的信用值為psi=gs×ui。
我們隨機(jī)抽取了230個(gè)生產(chǎn)者個(gè)人生成的科技論文大數(shù)據(jù),其合作關(guān)系網(wǎng)絡(luò)如圖5(a)所示,包含702條合作關(guān)系;檢測(cè)出4個(gè)科技大數(shù)據(jù)生產(chǎn)者組織,如圖5(b)所示。通過(guò)科技大數(shù)據(jù)生產(chǎn)者組織間的關(guān)系網(wǎng)絡(luò),分別計(jì)算出科技大數(shù)據(jù)生產(chǎn)者組織和個(gè)人的信用值,如圖6(b)所示,并按照信用從低到高定義4個(gè)生產(chǎn)者組織為A、B、C、D。相比于PageRank方法(圖6(a)),分層PageRank算法下生產(chǎn)者組織和個(gè)人之間起到了相互促進(jìn)的正向作用。表5對(duì)比了信用最大的10位生產(chǎn)者個(gè)人的信用,可以看出,分層PageRank方法中組織D中的高信用個(gè)人數(shù)量明顯增加,個(gè)人影響力排名顯著提升,而低信用生產(chǎn)者組織A的高信用個(gè)人占比有所降低。
5.2 基于動(dòng)態(tài)主題模型的科技大數(shù)據(jù)創(chuàng)新性度量方法
基于動(dòng)態(tài)主題模型的科技大數(shù)據(jù)新穎性、流行性和前沿性等創(chuàng)新性指標(biāo)度量方法,將每一條科技數(shù)據(jù)看做一個(gè)文檔,通過(guò)動(dòng)態(tài)主題模型訓(xùn)練得出相應(yīng)的文檔主題分布,并基于文檔主題分布中的最大概率值得到對(duì)應(yīng)主題,從而將科技數(shù)據(jù)劃分為不同主題。假設(shè)科技數(shù)據(jù)di所對(duì)應(yīng)主題k下所有文檔的平均發(fā)表時(shí)間為MPubYear(k),該科技數(shù)據(jù)的發(fā)表時(shí)間記為PubYear(di),則該科技數(shù)據(jù)的新穎性為Novelty(di)=MPubYear(k)-PubYear(di)
基于主題分布,科技大數(shù)據(jù)的流行性與前沿性可以通過(guò)以下步驟進(jìn)行測(cè)度:
Step 1 計(jì)算不同時(shí)間切片下的主題熱度。按照時(shí)間劃分計(jì)算不同時(shí)間切片各個(gè)主題的熱度,對(duì)于一個(gè)時(shí)間切片t,該時(shí)間切片內(nèi)文檔集合記為Dt,文檔數(shù)量為Nt,每個(gè)文檔記為dtj,dtj的文檔主題分布為p(kt|dtj)。所有時(shí)間切片下各主題熱度TopicHot(kt)為
TopicHot(kt)=∑dtj∈Dtp(kt|dtj)Nt
Step 2 計(jì)算科技數(shù)據(jù)的流行性?;诓煌瑫r(shí)間切片下的主題熱度TopicHot(kt),每個(gè)科技數(shù)據(jù)的流行性Popularity(dtj)為
Popularity(dij)=∑ktTopicHot(kt)×p(kt|dtj)
Step 3 計(jì)算科技數(shù)據(jù)的前沿性。對(duì)于一條科技數(shù)據(jù)dtj,其對(duì)應(yīng)的時(shí)間切片為t,對(duì)應(yīng)年份的主題熱度為TopicHot(kt)。主題k在每一個(gè)時(shí)間切片內(nèi)都有一個(gè)對(duì)應(yīng)的主題熱度值,記其中主題熱度最高的時(shí)間切片為tm,最高主題熱度值為TopicHot(ktm)??萍紨?shù)據(jù)dtj在每個(gè)主題上的前沿性Frontier(dtj,k)可通過(guò)下式計(jì)算得到
Frontier(dtj,k)=TopicHot(ktm)-TopicHot(kt),t<tm
0,t=tm
TopicHot(kt)-TopicHot(ktm),t>tm
每個(gè)科技數(shù)據(jù)的前沿性Frontier(dtj)計(jì)算如下
Frontier(dtj)=∑k∈KFrontier(dtj,k)
本文應(yīng)用上述新穎性、流行性、前沿性指標(biāo)對(duì)科技論文價(jià)值進(jìn)行了評(píng)估預(yù)測(cè),科技論文的價(jià)值使用下載量指示,并取對(duì)數(shù)值。其他影響變量包括參與機(jī)構(gòu)數(shù)量、期刊影響力因子、期刊跨學(xué)科性、獲取論文信息時(shí)論文發(fā)表時(shí)長(zhǎng)。實(shí)驗(yàn)數(shù)據(jù)來(lái)自4本著名管理學(xué)期刊近10年共計(jì)5964篇論文,評(píng)估預(yù)測(cè)模型選擇引導(dǎo)聚集(Bootstrap Aggregating,Bagging)回歸模型和支持向量回歸(Support Vector Regression,SVR)模型,訓(xùn)練集90%,測(cè)試集10%,使用10倍交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果見表6。結(jié)果表明,新穎性、流行性、前沿性指標(biāo)對(duì)科技論文價(jià)值具有很好的評(píng)估預(yù)測(cè)能力。
6 結(jié)論與展望
價(jià)值評(píng)估是數(shù)據(jù)要素流通交易的基礎(chǔ),是加快構(gòu)建數(shù)據(jù)要素市場(chǎng)化配置體制機(jī)制的核心任務(wù)。本文以科技大數(shù)據(jù)為研究對(duì)象,針對(duì)科技大數(shù)據(jù)價(jià)值評(píng)估難的問(wèn)題,分析了科技大數(shù)據(jù)的多元價(jià)值及其特征,構(gòu)建了科技大數(shù)據(jù)的全過(guò)程價(jià)值鏈模型,設(shè)計(jì)了科技大數(shù)據(jù)價(jià)值鏈模型核心維度的測(cè)量方法,并驗(yàn)證了所提方法的有效性。
科技大數(shù)據(jù)多元價(jià)值鏈模型與價(jià)值評(píng)估問(wèn)題非常復(fù)雜,相關(guān)理論研究尚處于探索階段。為了進(jìn)行有效的科技大數(shù)據(jù)價(jià)值評(píng)估,后續(xù)研究需要結(jié)合科技大數(shù)據(jù)的情景相關(guān)性特點(diǎn),對(duì)科技大數(shù)據(jù)的多元價(jià)值進(jìn)行深入刻畫。在科技大數(shù)據(jù)價(jià)值鏈模型中,數(shù)據(jù)價(jià)值的增值路徑及其影響機(jī)制尚不清晰,需要深入的理論探索。面向科技大數(shù)據(jù)的核心價(jià)值維度,需要進(jìn)一步探索更加簡(jiǎn)便、準(zhǔn)確的測(cè)度方法。此外,本文利用科技論文數(shù)據(jù)對(duì)所提指標(biāo)測(cè)度方法的有效性進(jìn)行了驗(yàn)證,后續(xù)將拓展科技大數(shù)據(jù)類型,對(duì)所提指標(biāo)體系和指標(biāo)測(cè)度方法的有效性做進(jìn)一步驗(yàn)證。
參 考 文 獻(xiàn):
[1]李陽(yáng),孫建軍,裴雷.科學(xué)大數(shù)據(jù)與社會(huì)計(jì)算:情報(bào)服務(wù)的現(xiàn)代轉(zhuǎn)型與創(chuàng)新發(fā)展[J].圖書與情報(bào),2017,(5):27-32.
[2]王晶金,李盛林,梁亞坤.新政策下科技成果轉(zhuǎn)移轉(zhuǎn)化問(wèn)題與對(duì)策研究[J].科技進(jìn)步與對(duì)策,2018,35(14):102-107.
[3]楊友清,陳雅.科學(xué)大數(shù)據(jù)共享研究:基于國(guó)際科學(xué)數(shù)據(jù)服務(wù)平臺(tái)[J].新世紀(jì)圖書館,2014,(3):24-28.
[4]諸云強(qiáng),朱琦,馮卓,等.科學(xué)大數(shù)據(jù)開放共享機(jī)制研究及其對(duì)環(huán)境信息共享的啟示[J].中國(guó)環(huán)境管理,2015,7(6):38-45.
[5]佟澤華,韓春花,孫杰,等.科研大數(shù)據(jù)再生的內(nèi)涵解析[J].情報(bào)理論與實(shí)踐,2020,43(9):39-46,78.
[6]王菲菲,弋新月,賈晨冉,等.Altmetrics視角下科技文獻(xiàn)學(xué)術(shù)影響力動(dòng)態(tài)評(píng)價(jià)體系構(gòu)建與實(shí)證研究[J].情報(bào)理論與實(shí)踐,2020,43(8):77-83.
[7]Park W, MacInnis D, Eisingerich A, et al.. Brand admiration: building a business people love[M]. John Wiley & Sons, Inc., 2016.
[8]Porter M. Competitive advantage: creating and sustaining superior performance[M]. New York: Free Press, 1985.
[9]Miller H, Mork P. From data to decisions: a value chain for big data[J]. IT Professional, 2013, 15(1): 57-59.
[10]Blondel V, Guillaume J, Lambiotte R, et al.. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, (10): 10008.
[11]Page L, Brin S, Motwani R, et al.. The page rank citation ranking: bringing order to the web[R]. Stanford InfoLab Working Paper, 1999.