• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本挖掘的中國跨境電商政策量化研究

      2023-01-03 10:13:28施寒瀟毛郁欣
      商業(yè)經(jīng)濟(jì)與管理 2022年11期
      關(guān)鍵詞:政府政策制度改革制度創(chuàng)新

      施寒瀟,毛郁欣

      (浙江工商大學(xué) 管理工程與電子商務(wù)學(xué)院, 浙江 杭州 310018)

      一、 引 言

      跨境電子商務(wù)(簡稱跨境電商)是指分屬不同關(guān)境的交易主體,通過電子商務(wù)平臺達(dá)成交易、進(jìn)行電子支付結(jié)算,并通過跨境電商物流及異地倉儲送達(dá)商品,從而完成交易的一種國際商業(yè)活動??缇畴娚套鳛橐环N貿(mào)易新業(yè)態(tài),正廣泛而深刻地影響全球貿(mào)易格局。中國跨境電商產(chǎn)業(yè)的發(fā)展在世界范圍內(nèi)處于領(lǐng)先地位,且已經(jīng)成為拉動經(jīng)濟(jì)增長的新引擎[1-3]??缇畴娚棠壳耙呀?jīng)成為我國發(fā)展速度最快、潛力最大、帶動作用最強(qiáng)的外貿(mào)新業(yè)態(tài),而跨境電商的快速發(fā)展又離不開政策的支持。自2013年以來,我國各級政府和有關(guān)部門密集出臺了一系列支持發(fā)展跨境電商的政策,政策普遍具備很強(qiáng)的實(shí)操性,極大地促進(jìn)了跨境電商行業(yè)的規(guī)范發(fā)展??缇畴娚陶咧刑N(yùn)含著大量指導(dǎo)支持跨境電商發(fā)展的重要信息,這些信息對地區(qū)和電商企業(yè)規(guī)劃跨境電商發(fā)展有重要意義。然而,各級政府部門發(fā)布的跨境電商政策較為分散,并不完全統(tǒng)一,再加上跨境電商本身屬于新興行業(yè),相應(yīng)的政策也會隨著行業(yè)和時(shí)代的發(fā)展而迭代,政策內(nèi)容呈現(xiàn)出較為明顯的動態(tài)變化的特征。因此,運(yùn)用科學(xué)的方法對不同區(qū)域和不同部門出臺的跨境電商政策內(nèi)容進(jìn)行研究和分析[4],具有十分現(xiàn)實(shí)的意義,科學(xué)合理的政策有助于推動產(chǎn)業(yè)的良性健康發(fā)展。然而,從信息學(xué)的角度來看,跨境電商政策本身屬于自然語言描述的無結(jié)構(gòu)文本,如果單純依靠人工的方式進(jìn)行分析,當(dāng)政策文本的規(guī)模較大時(shí),分析的效率必然會下降,而且容易出現(xiàn)疏漏。因此,運(yùn)用信息技術(shù)特別是文本挖掘技術(shù)對政策文本進(jìn)行量化研究和分析是一個比較可行的解決方案。

      二、 國內(nèi)外研究現(xiàn)狀

      目前,國內(nèi)外已有一些學(xué)者開展了與電商或跨境電商政策相關(guān)的文本分析研究,和國內(nèi)的研究成果相比,由于國情和行業(yè)差異,國外直接針對跨境電商政策的研究還不多見,或者說,國外學(xué)者并未嚴(yán)格區(qū)分“一般電商”和“跨境電商”,內(nèi)容上以電商政策的定性研究為主。而根據(jù)研究方法的不同,可以大致將現(xiàn)有研究分為以下三類:

      1.定性或者宏觀層面研究。邢光遠(yuǎn)等(2020)[5]對“一帶一路”倡議下中國跨境電商的政策演進(jìn)與發(fā)展態(tài)勢進(jìn)行了研究和分析。徐德順(2021)[6]分析了后疫情時(shí)代中國跨境電商面臨新的挑戰(zhàn),并給出了政策建議。張晚冰(2021)[7]分析了提出了跨境電商零售出口的體系,并研究了政府政策影響體系的具體路徑。Richards和Farrokhnia(2016)[8]運(yùn)用扎根理論對電商政策進(jìn)行研究,通過具體案例重點(diǎn)研究了世貿(mào)組織電商政策面臨的困境。Hanna(2016)[9]主要研究了政府電商政策對于企業(yè)尤其是中小企業(yè)創(chuàng)新的影響。

      2.基于統(tǒng)計(jì)方法的定量研究。趙楊等(2018)[10]應(yīng)用PMC指數(shù)模型評價(jià)方法,通過構(gòu)建投入產(chǎn)出表計(jì)算出單一政策的PMC指數(shù)得分,對我國跨境電子商務(wù)具體政策的實(shí)施效果進(jìn)行重點(diǎn)評價(jià)與分析。熊勵等(2022)[11]應(yīng)用多期雙重差分模型從國家層面設(shè)立綜合試驗(yàn)區(qū)及地方層面實(shí)施政策兩個角度評價(jià)政策效應(yīng),并探討不同綜合試驗(yàn)區(qū)的跨境電商政策效應(yīng)差異。邱國斌等(2022)[12]采用模糊集定性比較分析方法,探究了跨境電商發(fā)展各個指標(biāo)之間相互作用的邏輯關(guān)系。Roberta等(2019)[13]則通過Agent模擬的方式研究城市貨運(yùn)政策對電商發(fā)展的影響。Lin等(2011)[14]主要研究了B2B電商政策、IT成熟度和評價(jià)實(shí)踐之間的契合度,及其對電商績效的影響。

      3.基于文本挖掘的定量研究。和傳統(tǒng)的統(tǒng)計(jì)方法相比,這類方法更有利于挖掘潛在的規(guī)律和特征。李泓燁等(2021)[15]應(yīng)用政策工具、政策力度、政策主題三維度分析框架,對跨境電商政策文本進(jìn)行分析,并提出了政策優(yōu)化建議。鈕欽(2016)[16]、侯振興和閭燕(2017)[17]都采用了內(nèi)容分析法,前者從政策工具和商業(yè)生態(tài)系統(tǒng)維度對中國農(nóng)村電商相關(guān)的中央政策文本進(jìn)行分析,在培育農(nóng)村電商生態(tài)系統(tǒng)方面提出建議;后者從政策工具和農(nóng)產(chǎn)品生態(tài)系統(tǒng)維度對農(nóng)產(chǎn)品電商發(fā)展政策進(jìn)行分析,發(fā)現(xiàn)政策中存在的不足。盛赟等(2019)[18]從文本制定主體、文本類型、文本內(nèi)容及政策工具角度,對浙江省跨境電商物流相關(guān)的政策文本進(jìn)行分析,為跨境電商物流政策在主體單一和聯(lián)動性不足等問題上提出改進(jìn)意見。余傳明等(2018)[19]運(yùn)用主題時(shí)間模型,通過計(jì)算不同年份下主題的平均強(qiáng)度并提取每個主題下概率高的詞匯,分析農(nóng)村電商扶貧政策內(nèi)容的演化情況和政策的區(qū)域差異性。金珺(2020)等[20]運(yùn)用文本挖掘工具和社交網(wǎng)絡(luò)分析工具對省級農(nóng)村電商政策進(jìn)行了研究。肖開紅等(2019)[21]采用詞頻分析、共詞分析、社會網(wǎng)絡(luò)分析與文本挖掘等分析方法,對中國涉農(nóng)電商政策的演進(jìn)進(jìn)行研究。

      和其他產(chǎn)業(yè)相比,跨境電商作為新興的業(yè)態(tài),相關(guān)的研究成果正在不斷涌現(xiàn),但是直接針對電商或跨境電商政策文本分析的研究還比較少,特別是利用文本挖掘方法進(jìn)行的研究工作則更加缺乏,因此,目前這一方向上的研究尚不成熟。而從研究方法上來看,現(xiàn)有的政策文本挖掘研究主要集中在特征提取、聚類、分類以及主題提取等方面。針對現(xiàn)有的跨境電商政策研究的不足,本文提出采用文本挖掘的方法開展跨境電商政策的量化分析和研究。深入分析中國跨境電商政策,有助于我們更好地理解政策的重點(diǎn),從而把握跨境電商行業(yè)的發(fā)展趨勢。

      三、 跨境電商政策文本分析框架

      本研究主要基于文本挖掘方法進(jìn)行跨境電商政策文本分析,而文本挖掘分析的重要環(huán)節(jié)是挖掘方法的選取以及挖掘流程的設(shè)計(jì)。本研究設(shè)計(jì)的跨境電商政策文本挖掘的流程如圖1所示。主要按照以下步驟進(jìn)行基于文本挖掘的跨境電商政策文本分析和研究:

      (1)首先進(jìn)行政策文本語料庫的構(gòu)建,以及文本預(yù)處理,從而降低后續(xù)采用文本挖掘方法分析政策文件提供符合輸入要求的數(shù)據(jù);

      (2)基于TF-IDF算法提取初始特征,重點(diǎn)抽取名詞和名詞短語,從而降低文本挖掘特別是聚類分析的復(fù)雜度,提升分析效果;

      (3)PMI算法特征過濾及人工特征篩選,得到特征集合,從而在步驟(2)的基礎(chǔ)之上進(jìn)一步縮小文本處理的范圍,提升分析效率;

      (4)基于Word2Vec訓(xùn)練模型的特征向量化,便于開展基于特征向量的文本聚類;

      (5)K-Means特征聚類形成特征聚類集合,根據(jù)聚類結(jié)果分析政策文件的關(guān)注和聚焦的重點(diǎn)內(nèi)容;

      (6)基于ROSTCM進(jìn)行語義網(wǎng)絡(luò)分析,從另一個視角分析和展示政策重點(diǎn)內(nèi)容之間的關(guān)聯(lián)關(guān)系,作為步驟(5)結(jié)果的補(bǔ)充;

      (7)基于聚類分析和語義網(wǎng)絡(luò)分析的結(jié)果,綜合形成跨境電商政策文本分析的最終結(jié)果,并形成對策和建議。

      圖1 跨境電商政策文本挖掘的流程

      (一) 文本預(yù)處理

      在建立跨境電商政策文本語料庫的前提下,本研究利用開源分詞工具來完成文本預(yù)處理,主要包括以下三個步驟:

      1.使用分詞工具對原始政策文本內(nèi)容進(jìn)行分詞,并對分詞結(jié)果中不理想的詞進(jìn)行修正。如“海外倉”是一個詞,但自動分詞的結(jié)果是“海外”“倉”兩個詞;此外,還有專有名詞的修正。如“一帶一路”是絲綢之路經(jīng)濟(jì)帶和21世紀(jì)海上絲綢之路的簡稱,有特定含義,但分詞的結(jié)果是“一帶”“一路”。

      2.加載中文停用詞表,對分詞后的文本進(jìn)行停用詞過濾。停用詞即常出現(xiàn)的詞,且詞本身不涉及關(guān)鍵信息,如“一個”“一則”“的”等。

      3.對經(jīng)過分詞和去停用詞的文本進(jìn)行詞性標(biāo)注,將詞語標(biāo)記上詞性符號,重點(diǎn)對名詞進(jìn)行標(biāo)記。

      (二) 特征提取

      文本預(yù)處理之后會產(chǎn)生很多的特征詞,如果直接使用預(yù)處理后的特征詞進(jìn)行挖掘,不但會造成特征表示上的維度災(zāi)難,而且也得不到高質(zhì)量的聚類結(jié)果。因此,特征提取在文本挖掘中十分重要,好的特征提取結(jié)果可以給后續(xù)的挖掘以及最后的聚類結(jié)果帶來更好的效果。

      1.TF-IDF算法提取初步特征詞。詞頻-逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)被廣泛運(yùn)用于特征詞的權(quán)重計(jì)算[22]。本研究使用TF-IDF來計(jì)算政策文本中特征詞的權(quán)值,按權(quán)值大小排序,并選擇TF-IDF值超過特定閾值的特征詞作為初始特征。此外,由于同一個特征詞在不同的政策文件中會重復(fù)出現(xiàn)且權(quán)值不同,故同一個特征詞取最大的TF-IDF值作為權(quán)值,并進(jìn)行去重處理形成初始特征集。

      2.PMI算法特征過濾。點(diǎn)互信息PMI(Pointwise Mutual Information)是從信息論里的互信息概念中衍生而來的[23]?;バ畔I(Mutual Information)衡量的是兩個隨機(jī)變量之間的相關(guān)性,即一個隨機(jī)變量中包含的關(guān)于另一個隨機(jī)變量的信息量。點(diǎn)互信息PMI這個指標(biāo)常常用來衡量兩個事物之間的相關(guān)性,比如兩個詞。本研究使用PMI算法將跨境電商政策預(yù)處理語料作為輸入,先通過頻率計(jì)算詞語的共現(xiàn)概率,然后再計(jì)算詞語共現(xiàn)的標(biāo)準(zhǔn)化互信息值NMI(Normalized Mutual Information),最后返回符合NMI閾值的特征詞列表及PMI特征詞共現(xiàn)列表。最終通過人工篩選初始特征詞和PMI算法過濾得到的特征詞,形成跨境電商政策文本的特征集,完成特征提取的工作。

      (三) 基于Word2Vec訓(xùn)練的特征詞向量化

      Word2Vec是能把詞語轉(zhuǎn)化為多維詞向量的模型,根據(jù)詞語的上下文預(yù)測詞向量。詞向量由多維實(shí)數(shù)表示,雖然不能說明每一維度的實(shí)際含義,但它卻蘊(yùn)含了豐富的信息。由于訓(xùn)練時(shí)會根據(jù)前后就近位置預(yù)測詞語,考慮了詞語間的共現(xiàn),因此它保持了同義詞之間強(qiáng)的相關(guān)性。運(yùn)用Word2Vec詞向量模型訓(xùn)練跨境電商政策文本語料,可以將其中的跨境電商特征詞轉(zhuǎn)化為多維實(shí)數(shù)向量。與傳統(tǒng)的空間向量模型相比,它考慮了詞與詞之間的共現(xiàn),同義詞所對應(yīng)的詞向量在多維空間中會更加接近,這為后續(xù)更準(zhǔn)確的挖掘工作做好了鋪墊。

      Word2Vec中有兩個重要的算法模型:Skip-gram模型和CBOW模型。這兩個模型都包含了輸入層、投影層和輸出層三層。Skip-gram模型是通過輸入特征詞來預(yù)測特征詞上下文的空間向量[24];而CBOW模型是通過輸入特征詞上下文來預(yù)測特征詞的空間向量。Skip-gram模型進(jìn)行預(yù)測的次數(shù)要多于CBOW模型,每個詞在作為中心詞時(shí),都要使用周圍詞進(jìn)行一次預(yù)測,相當(dāng)于比CBOW模型的方法多進(jìn)行了k次(假設(shè)k為窗口大小),所以Skip-gram模型訓(xùn)練時(shí)間要比CBOW模型長。但在Skip-gram模型中,每個詞都要受到周圍詞的影響,每個詞在作為中心詞的時(shí)候,都要進(jìn)行k次的預(yù)測、調(diào)整,這種多次的調(diào)整會使得詞向量相對更加準(zhǔn)確。因此,在政策文本挖掘過程中本研究選擇Skip-gram模型進(jìn)行詞的向量化訓(xùn)練。

      Skip-gram模型是將一個詞語作為輸入,來預(yù)測它的上下文。假設(shè)有一個句子結(jié)構(gòu)為wn-2,wn-1,wn,wn+1,wn+2,Skip-gram模型就是通過輸入wn來預(yù)測wn-2,wn-1,wn+1,wn+2的詞向量。利用Skip-gram模型預(yù)測特征詞的上下文,對應(yīng)公式如下:

      (1)

      其中,w為當(dāng)前詞,u為其周圍詞。

      (四) 基于K-Means的文本聚類

      K-Means是經(jīng)典的劃分聚類算法,算法的優(yōu)點(diǎn)是時(shí)間復(fù)雜度低,聚類效果不錯;缺點(diǎn)是初始k值比較難選定,且對初始中心敏感,會受離群點(diǎn)的影響。針對k值難確定問題可以使用誤差平方和的手肘法和輪廓系數(shù)來確定具體的k值。算法的基本步驟如下:

      (1)隨機(jī)選擇k個簇類中心點(diǎn);

      (2)遍歷所有數(shù)據(jù)點(diǎn),把數(shù)據(jù)點(diǎn)劃分到距離最近的一個簇類中;

      (3)劃分之后就有k個簇,計(jì)算每個簇類中點(diǎn)的平均值作為新的簇類中心點(diǎn);

      (4)重復(fù)步驟(2)和(3),直到聚類中心不再發(fā)生變化,或是迭代次數(shù)達(dá)到設(shè)定的值。

      對于K-Means聚類中k值的選擇,可以依據(jù)基于誤差平方和SSE(Sum of the Squared Errors)的手肘法。SSE的計(jì)算公式如下:

      (2)

      其中,Ci是第i個簇,p是Ci中的樣本點(diǎn),mi是Ci的質(zhì)心即Ci中所有樣本的均值,SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。

      手肘法的核心思想是隨著簇類數(shù)k的增大,聚類的劃分會更加細(xì)致,每個簇的聚合程度會逐漸提高,這使得誤差平方和將不斷變小。當(dāng)k小于理想聚類數(shù)時(shí),由于k的增大會使每個簇的聚合程度快速增加,故誤差平方和的下降幅度會變得很大。而當(dāng)k達(dá)到理想聚類數(shù)時(shí),再增加k所得到的聚合程度會迅速減小,對應(yīng)誤差平方和的下降幅度會驟減,然后隨著k值的繼續(xù)變大,誤差平方和的變化會趨于平緩。誤差平方和與k的關(guān)系圖是一個類似手肘的形狀,而這個肘部對應(yīng)的k值就是數(shù)據(jù)理想的聚類數(shù)。

      此外,k值的選擇還可以通過輪廓系數(shù)來確定,選擇系數(shù)較大時(shí)所對應(yīng)的k值[25]。輪廓系數(shù)的計(jì)算公式如下:

      (3)

      其中,a(i)是i向量到同一個簇內(nèi)其他點(diǎn)的平均距離;b(i)是i向量到與它相鄰最近的一個簇內(nèi)所有點(diǎn)的平均距離。輪廓系數(shù)的值是在-1至1之間,越趨近于1代表內(nèi)聚度和分離度都相對較優(yōu),越趨近于-1代表內(nèi)聚度和分離度都相對較差。將所有數(shù)據(jù)點(diǎn)的輪廓系數(shù)求平均,就是聚類結(jié)果總的輪廓系數(shù)。

      四、 政策文本挖掘與研究結(jié)論

      (一) 研究數(shù)據(jù)采集

      本研究的數(shù)據(jù)采集策略是在法律法規(guī)數(shù)據(jù)庫和各級政府網(wǎng)站上用跨境電商相關(guān)的關(guān)鍵詞(跨境電子商務(wù)、跨境電商、跨境+電商、跨境貿(mào)易等)進(jìn)行檢索,時(shí)間跨度設(shè)定為2013—2020年。雖然跨境電商模式在我國的發(fā)展可以追溯到20世紀(jì)90年代,但是目前業(yè)界更傾向于將2013年(前后)稱為跨境電商的“元年”,其中一個重要原因就是自2013年起,跨境電商出口規(guī)模占出口貿(mào)易總額的比重不斷提升。而隨著跨境電商重要性的提升和行業(yè)快速發(fā)展,也推動了相關(guān)政策的制定和發(fā)布。2014年7月,海關(guān)總署發(fā)布的《關(guān)于跨境貿(mào)易電子商務(wù)進(jìn)出境貨物、物品有關(guān)監(jiān)管事宜的公告》和《關(guān)于增列海關(guān)監(jiān)管方式代碼的公告》,即業(yè)內(nèi)熟知的“56號”和“57號”文件接連出臺,使跨境電商獲得了政策層面的認(rèn)可。因此,本研究選取2013年作為政策數(shù)據(jù)收集的起始年份,對相關(guān)的政策文件進(jìn)行篩選,去除和跨境電商沒有直接關(guān)系的政策文件,并摘錄符合要求的政策文本。主要按照以下兩個標(biāo)準(zhǔn)對政策文件進(jìn)行篩選:

      (1)政策文件直接以跨境電商相關(guān)關(guān)鍵詞命名;

      (2)政策文件包含和跨境電商直接相關(guān)的內(nèi)容。

      最終采集到的研究數(shù)據(jù)主要包括近年來我國國務(wù)院、商務(wù)部、海關(guān)總署、稅務(wù)總局等政府部門以及30個省份(含自治區(qū)、直轄市,不含港澳臺)發(fā)布的276個跨境電商政策文件。以省(含自治區(qū)、直轄市)為單位對地方政府部門發(fā)布的跨境電商政策進(jìn)行統(tǒng)計(jì),結(jié)果顯示發(fā)布相關(guān)政策最多的是廣東,其次是浙江和江蘇,都是目前跨境電商最發(fā)達(dá)的地區(qū)。此外,福建、上海、重慶等地也發(fā)布了較多的政策。對于非地方性政策文件,按發(fā)文機(jī)關(guān)或部門進(jìn)行統(tǒng)計(jì),結(jié)果顯示,除國務(wù)院以外,發(fā)布相關(guān)政策較多的是海關(guān)總署、商務(wù)部以及原質(zhì)檢總局等部門。

      表1 部分跨境電商相關(guān)政策示例

      (二) 特征提取與向量化

      在特征詞提取過程中將閾值設(shè)置為0.1,即特征詞的TF-IDF值大于0.1才會被提取。表2給出了部分TF-IDF值較大的初始特征詞。

      由于同一個特征詞可能會在不同文件中重復(fù)出現(xiàn),因此需要將提取出來的初始特征詞進(jìn)行去重處理,然后根據(jù)預(yù)處理時(shí)的詞性標(biāo)注把非名詞的特征去除,再利用PMI算法進(jìn)行過濾(特征詞共現(xiàn)的NMI值范圍為0至1,設(shè)置閾值為0.1),提取出部分特征結(jié)果如表3所示。

      表2 初始特征

      表3 PMI算法特征過濾結(jié)果

      通過PMI算法過濾得到446個特征詞,由于計(jì)算機(jī)程序的識別中仍然存在不符合的特征,最后經(jīng)過人工過濾得到355個特征詞,作為最終的特征詞集合。

      (三) 詞向量訓(xùn)練結(jié)果

      在特征詞提取的基礎(chǔ)之上,進(jìn)一步使用Word2Vec訓(xùn)練模型得到詞向量,設(shè)置模型參數(shù)如表4所示。

      根據(jù)訓(xùn)練預(yù)處理后的政策文本語料得到語料庫詞表,詞表中每個詞對應(yīng)200維的空間向量??缇畴娚烫卣髟~則對應(yīng)語料庫詞表中的355個200維的詞向量。訓(xùn)練出的詞向量效果可以用詞與詞之間的相似度和單個詞的相關(guān)詞列表來查看,相似度計(jì)算公式如下:

      (4)

      以政策文件中的四組詞對“檢驗(yàn)”和“檢疫”、“進(jìn)口”和“出口”、“稅款”和“技術(shù)”以及“支付”和“交易”為例,計(jì)算每組詞對的相似度,結(jié)果如表5所示。

      另外,以政策文件中的關(guān)鍵詞“海關(guān)”為例,遍歷計(jì)算詞表中所有詞的相似度,得到與其相似度最高的前20個相關(guān)詞,結(jié)果如表6所示。

      從對類似表6的結(jié)果進(jìn)行人工分析比對,從詞對相似度和相關(guān)詞相似度來看,處理結(jié)果符合認(rèn)知邏輯,說明通過Word2Vec訓(xùn)練模型可以訓(xùn)練得到合理的詞向量。因此,可以對政策文本其他特征詞實(shí)施同樣的操作,從而確認(rèn)訓(xùn)練出的詞向量效果。

      表4 Word2Vec的參數(shù)描述

      表5 詞對相似度

      表6 相關(guān)詞相似度

      (四) 基于K-Means的聚類結(jié)果分析

      如前文所述,K-Means聚類算法中的k值選擇可以通過基于SSE的手肘法來確定。手肘法是根據(jù)誤差平方和曲線的曲率變化來判定合適的k值,曲率越大,越明顯的拐點(diǎn)處為越優(yōu)的k值。在得到特征向量后,利用公式(2)計(jì)算不同k值情況下的誤差平方和,結(jié)果如圖2(a)所示。

      圖2 k值選擇結(jié)果分析

      顯然,從圖2中的誤差平方和曲線來看,其肘部(曲率最高)所對應(yīng)的k值為8,故對于這個數(shù)據(jù)集的聚類而言,較為合理的聚類數(shù)可以設(shè)定為8。在得到特征向量后,利用公式(3)計(jì)算不同k值情況下的輪廓系數(shù),結(jié)果如圖2(b)所示。選擇不同k值時(shí)輪廓系數(shù)的變化情況,如表7所示。

      從輪廓系數(shù)看隨著k值的增加輪廓系數(shù)逐步降低,在選定的k值范圍里輪廓系數(shù)的變化范圍在0.25至0.45之間,而輪廓系數(shù)的取值范圍在-1至1之間,輪廓系數(shù)越接近1,k值越優(yōu)。由于分2個簇與實(shí)際情況顯然不符,因此,k值也可以取5。在確定k的取值后,使用K-Means聚類算法對從政策文本中提取出的特征進(jìn)行聚類。當(dāng)k=8和k=5時(shí),對應(yīng)的K-Means聚類的二維散點(diǎn)圖分別如圖3(a)和圖3(b)所示。

      表7 不同k值對應(yīng)的輪廓系數(shù)

      圖3 不同k值對應(yīng)的聚類散點(diǎn)圖

      經(jīng)過綜合比較,最終確定k取值為8,然后對跨境電商政策中提取的特征進(jìn)行聚類,聚類結(jié)果如表8所示,表中選擇性列出了部分有代表性的聚類結(jié)果。

      表8 跨境電商政策特征聚類結(jié)果

      對表8中所列的各個簇類做進(jìn)一步的解釋和歸納如下:簇類1,主要是跨境電商政策實(shí)施的熱點(diǎn)區(qū)域,同時(shí)還包括部分跨境貿(mào)易的國家和城市;簇類2,主要涉及跨境貿(mào)易的城市區(qū)域改革與建設(shè);簇類3,主要涉及跨境電商的知識產(chǎn)權(quán)、法律法規(guī)以及網(wǎng)絡(luò)安全;簇類4,主要涉及跨境電商的出入境政策和稅務(wù);簇類5,主要涉及跨境電商的交易和支付;簇類6,主要和跨境電商的熱門產(chǎn)品有關(guān);簇類7,主要和跨境商品的質(zhì)量安全和檢疫檢驗(yàn)有關(guān);簇類8,主要是出臺相關(guān)政策的各種政府部門。

      這些特征簇從宏觀層面看,涉及跨境電商發(fā)展的制度法規(guī)、環(huán)境建設(shè)等;從微觀層面看,涉及跨境電商運(yùn)行的具體環(huán)節(jié),如交易、產(chǎn)品、支付、稅收、質(zhì)量管理、知識產(chǎn)權(quán)等。由此可見,我國各級政府部門正在努力建立建設(shè)健全制度,構(gòu)建良好的發(fā)展平臺和環(huán)境來推動跨境電商產(chǎn)業(yè)的健康發(fā)展。從簇類內(nèi)部的特征數(shù)來看,簇類1和簇類8包含的特征數(shù)雖然比較多,但是其特征主要是行政區(qū)劃和部門,信息比較明確,不需要做過多的解釋和分析。而除簇類1和簇類8以外,包含特征數(shù)較多的簇類為3、4、6,說明知識產(chǎn)權(quán)、稅收、產(chǎn)品等是近年來跨境電商政策關(guān)注和聚焦的重點(diǎn)內(nèi)容。簇類3說明,和傳統(tǒng)電商相比,跨境電商在行業(yè)發(fā)展的早期就開始強(qiáng)調(diào)知識產(chǎn)權(quán)、法律法規(guī)以及網(wǎng)絡(luò)安全問題,這也更有利于保證行業(yè)的良性和持續(xù)發(fā)展。簇類4則強(qiáng)調(diào)了跨境電商的出入境政策和稅務(wù),和傳統(tǒng)電商相比,這些屬于跨境電商特有的內(nèi)容,跨境電商企業(yè)在政策層面應(yīng)重點(diǎn)關(guān)注。簇類6指出了跨境電商政策重點(diǎn)關(guān)注的商品,一方面說明這些商品屬于跨境電商的熱銷品類,對企業(yè)而言是可以重點(diǎn)經(jīng)營的;另一方面也說明這些商品屬于監(jiān)管重點(diǎn),企業(yè)在生產(chǎn)和銷售時(shí),更應(yīng)重視和確保商品的品質(zhì)。相比較而言,簇類2、5、7雖然也是跨境電商發(fā)展中非常重要的要素,但是和其他簇類相比,包含的特征數(shù)較少,單純從聚類的結(jié)果來看并不顯著。其中一個可能的原因是,簇類2、5、7涉及的跨境電商區(qū)域建設(shè)、支付、檢疫檢驗(yàn)等問題已經(jīng)相對比較成熟,因此在政策層面不需要通過較多的文本進(jìn)行闡述,甚至在有些地方性政策中已經(jīng)不再專門闡述。

      此外,還選取了兩份典型的省級跨境電商政策,分別是浙江省發(fā)布的《浙江省人民政府關(guān)于印發(fā)中國(湖州)、中國(嘉興)、中國(衢州)、中國(臺州)、中國(麗水)跨境電子商務(wù)綜合試驗(yàn)區(qū)實(shí)施方案的通知》(記為政策實(shí)例1);江蘇省發(fā)布的《省政府關(guān)于同意中國(常州)、中國(連云港)、中國(淮安)、中國(鹽城)、中國(宿遷)跨境電子商務(wù)綜合試驗(yàn)區(qū)實(shí)施方案的批復(fù)》(記為政策實(shí)例2),通過對具體政策的分析來驗(yàn)證聚類結(jié)果。將兩個政策實(shí)例的內(nèi)容和聚類結(jié)果進(jìn)行對比(見表9),可以看到政策實(shí)例和聚類結(jié)果的一致性比較高。此外,兩個政策實(shí)例之間也有較為明顯的差異。表8的聚類結(jié)果具有一定的典型性,較好地反映了近年來跨境電商政策的關(guān)鍵要素,但是不同地區(qū)在制定政策時(shí)也會結(jié)合和考慮當(dāng)?shù)氐膶?shí)際情況。

      表9 聚類結(jié)果實(shí)例對比

      (五) 語義網(wǎng)絡(luò)分析

      除了聚類分析,本研究還利用ROSTCM數(shù)據(jù)挖掘工具[26]對跨境電商政策文本進(jìn)行了初步的語義網(wǎng)絡(luò)分析。本研究主要使用ROSTCM中的網(wǎng)絡(luò)分析功能,對跨境電商政策文本進(jìn)行語義網(wǎng)絡(luò)分析。將經(jīng)過預(yù)處理的跨境電商政策文本用ROSTCM分析來生成可視化的語義網(wǎng)絡(luò)(見圖4),通過網(wǎng)絡(luò)圖可以進(jìn)一步分析詞與詞之間的關(guān)聯(lián)關(guān)系,從而更加直觀地了解政策文本中重要詞語間蘊(yùn)含的關(guān)聯(lián)關(guān)系。

      從圖4的語義網(wǎng)絡(luò)可以看出,電子商務(wù)、平臺、發(fā)展、創(chuàng)新、建設(shè)、試驗(yàn)、改革、制度、政策、模式等關(guān)鍵詞在網(wǎng)絡(luò)中屬于關(guān)鍵節(jié)點(diǎn),從一定程度上反映出我國近年來跨境電商政策的聚焦重點(diǎn)。另外,根據(jù)關(guān)鍵節(jié)點(diǎn)在網(wǎng)絡(luò)中的連通關(guān)系,通過組合關(guān)鍵詞可以進(jìn)一步得到平臺建設(shè)、改革創(chuàng)新、制度改革、制度創(chuàng)新、模式創(chuàng)新、政府政策、海關(guān)出口等關(guān)聯(lián)短語。

      此外,還基于PMI方法計(jì)算獲得了高頻詞共現(xiàn)矩陣,并通過Gephi工具進(jìn)行可視化展示,包括平均加權(quán)度、模塊化、平均聚類系數(shù)等參數(shù)的計(jì)算。通過合理地布局,得到如圖5所示的聚類圖像展示。

      在此基礎(chǔ)上,過濾出聚類系數(shù)為0.6以上的數(shù)據(jù),并重新處理和展示,最終得到如圖6所示的結(jié)果。從圖6中可以觀察到,管理/規(guī)劃、運(yùn)營/服務(wù)、信用/規(guī)則、檢疫/檢驗(yàn)、賣家/供貨商、商品質(zhì)量/消費(fèi)者、稅務(wù)、司法、證書/營業(yè)執(zhí)照等特征詞屬于網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)。

      圖4 跨境電商政策語義網(wǎng)絡(luò)

      圖5 高頻詞共現(xiàn)矩陣的聚類圖像展示

      通過上述語義網(wǎng)絡(luò)分析,可以初步得出我國近年來跨境電商政策一方面聚焦創(chuàng)新、試驗(yàn)、建設(shè)、發(fā)展等宏觀問題,另一方面也重點(diǎn)關(guān)注稅務(wù)、商品質(zhì)量、檢疫檢驗(yàn)等具體問題。語義網(wǎng)絡(luò)分析的結(jié)果和聚類分析的結(jié)果具有一定的重合性和關(guān)聯(lián)性,從另一個維度體現(xiàn)了跨境電商政策的要點(diǎn)和重點(diǎn)。因此,語義網(wǎng)絡(luò)分析可以作為聚類分析的補(bǔ)充。

      圖6 聚類系數(shù)過濾后的圖像展示

      五、 研究結(jié)論與建議

      (一) 研究結(jié)論

      本研究基于文本挖掘的跨境電商政策量化分析方法,通過從跨境電商政策文本中提取特征,再進(jìn)一步使用聚類方法和語義網(wǎng)絡(luò)方法分析了跨境電商政策的重點(diǎn)內(nèi)容。該方法能夠從大量的政策文本中挖掘出特征信息,并為跨境電商政策分析和行業(yè)研究提供決策支持,得到如下結(jié)論。

      第一,跨境電商領(lǐng)域已經(jīng)形成較為充分的政策數(shù)據(jù)集。近年來,我國各級政府部門發(fā)布了一系列跨境電商政策文件,通過分類整理,可以獲得一個較為完整的跨境電商政策數(shù)據(jù)集,包含了我國30個省份(含自治區(qū)、直轄市,不含港澳臺),以及國務(wù)院、商務(wù)部、海關(guān)總署、稅務(wù)總局等部門發(fā)布的跨境電商政策文件。這個數(shù)據(jù)集能夠被用于研究和分析跨境電商領(lǐng)域的政策特征和演化規(guī)律,并為跨境電商行業(yè)發(fā)展提供決策支持。

      第二,跨境電商政策文本呈現(xiàn)出較為顯著的簇類特征。從聚類分析的結(jié)果來看,我國跨境電商政策的內(nèi)容呈現(xiàn)出較為顯著的特征簇。這些特征簇從宏觀層面看,涉及跨境電商發(fā)展的制度法規(guī)、環(huán)境建設(shè)等;從微觀層面看,涉及跨境電商運(yùn)行的具體環(huán)節(jié),如交易、產(chǎn)品、支付、稅收、質(zhì)量管理、知識產(chǎn)權(quán)等。說明我國各級政府部門正在努力建立健全制度,構(gòu)建良好的發(fā)展平臺和環(huán)境來推動跨境電商產(chǎn)業(yè)的健康發(fā)展。同時(shí)也說明,和傳統(tǒng)電商相比,跨境電商在發(fā)展早期就有比較完善的制度來規(guī)范行業(yè)發(fā)展。

      第三,語義網(wǎng)絡(luò)分析能進(jìn)一步發(fā)現(xiàn)跨境電商的政策重點(diǎn)。通過對跨境電商政策文本進(jìn)行語義網(wǎng)絡(luò)分析,挖掘網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),能從不同維度進(jìn)一步反映我國近年來跨境電商政策的聚焦重點(diǎn)。從語義網(wǎng)絡(luò)分析的結(jié)果來看,可以初步得出我國近年來跨境電商政策主要聚焦在創(chuàng)新、試驗(yàn)、建設(shè)、發(fā)展等方面。語義網(wǎng)絡(luò)分析的結(jié)果和聚類分析的部分結(jié)果有一定的重合度和關(guān)聯(lián)性,可以作為聚類分析的補(bǔ)充。

      第四,文本挖掘?yàn)榭缇畴娚陶哐芯刻峁┝诵碌囊暯恰@梦谋就诰虻姆椒?,對跨境電商政策文本進(jìn)行挖掘和分析,有助于分析我國跨境電商政策中的關(guān)鍵內(nèi)容。本研究融合多種文本挖掘和分析方法,形成以“文本預(yù)處理、特征提取、特征過濾、特征向量化、文本特征聚類、語義網(wǎng)絡(luò)分析”為流程的研究模式,為跨境電商政策研究提供了新的思路,同時(shí)也可以擴(kuò)展到其他領(lǐng)域的政策文本研究中去。

      (二) 對策建議

      跨境電商目前已經(jīng)成為我國發(fā)展速度最快、潛力最大、帶動作用最強(qiáng)的外貿(mào)新業(yè)態(tài),而跨境電商的快速發(fā)展又離不開政策的支持??茖W(xué)合理的政策有助于推動產(chǎn)業(yè)的良性健康發(fā)展。結(jié)合上述研究結(jié)論,本研究提出如下建議。

      第一,跨境電商政策在強(qiáng)化“長板”的同時(shí),也應(yīng)積極補(bǔ)足“短板”。通過文本挖掘能發(fā)現(xiàn)當(dāng)前政策的關(guān)注焦點(diǎn),但同時(shí)也從一個側(cè)面反映出當(dāng)前政策存在一定的“盲區(qū)”。因此,各地區(qū)、各部門在制定跨境電商政策時(shí),應(yīng)強(qiáng)化“長板”,補(bǔ)足“短板”,積極推動跨境電商產(chǎn)業(yè)的均衡發(fā)展。目前,各地在制定和發(fā)布跨境電商政策文件時(shí),充分考慮了區(qū)域性特征和實(shí)際情況,而如何針對自身的不足通過政策引導(dǎo)和推動加以彌補(bǔ),也是值得深入思考和研究的問題。

      第二,跨境電商政策應(yīng)盡可能覆蓋和適應(yīng)動態(tài)變化的行業(yè)形勢。當(dāng)前國內(nèi)外形勢正在發(fā)生深刻復(fù)雜的變化,我國發(fā)展仍處于重要戰(zhàn)略機(jī)遇期。和動態(tài)變化的經(jīng)濟(jì)社會形勢相比,政策文件的制定和實(shí)施會有一定的滯后性。為此,應(yīng)更加科學(xué)合理地研究和發(fā)布政策,讓政策能夠盡可能地覆蓋和適應(yīng)動態(tài)變化的行業(yè)形勢(如后疫情、雙循環(huán)等)。另外,還應(yīng)適當(dāng)結(jié)合和參考國外電商相關(guān)政策文本,不斷改進(jìn)和完善我們的政策。

      第三,要充分利用信息技術(shù)和大數(shù)據(jù)思維來研究和分析政策。和人工分析相比,基于文本挖掘方法進(jìn)行政策分析,能夠?qū)崿F(xiàn)對大量文本數(shù)據(jù)的有效處理和分析,同時(shí)也有助于發(fā)現(xiàn)一些隱性的或潛在的規(guī)律,并確保政策的一致性和延續(xù)性。當(dāng)然,目前對于政策文本的分析還停留在相對淺層,如何通過加強(qiáng)分析粒度來進(jìn)行更加深入具體的分析,也是后續(xù)需要重點(diǎn)研究和解決的問題。

      第四,跨境電商政策對企業(yè)有較強(qiáng)的導(dǎo)向作用,企業(yè)應(yīng)通過解讀政策來更好地理解行業(yè)和洞察商機(jī)。從聚類分析結(jié)果來看,跨境電商政策本身就指出了重點(diǎn)監(jiān)管的商品品類,對企業(yè)生產(chǎn)經(jīng)營具有一定的導(dǎo)向作用。同時(shí),聚類分析結(jié)果也體現(xiàn)了政府部門對跨境電商知識產(chǎn)權(quán)、法律法規(guī)、稅收等要素的重視,意味著企業(yè)在生產(chǎn)經(jīng)營時(shí),也應(yīng)更多關(guān)注這些問題。

      第五,跨境電商政策的內(nèi)容應(yīng)適當(dāng)考慮垂直行業(yè)特征。從目前政策文本的內(nèi)容分析來看,絕大部分政策并沒有針對垂直行業(yè)或者跨境電商熱門品類的內(nèi)容或描述。而實(shí)際上垂直行業(yè)或者品類之間的差異對跨境電商運(yùn)營是有較大影響的,監(jiān)管的要求也會有所不同。因此,后續(xù)可以考慮針對跨境電商的熱門品類(如寵物用品、戶外用品、消費(fèi)電子等)制定和出臺專門的政策,或者在政策中有專門的內(nèi)容體現(xiàn)。

      猜你喜歡
      政府政策制度改革制度創(chuàng)新
      淺議中國死刑制度改革
      商(2016年32期)2016-11-25 00:00:00
      對建立政府綜合財(cái)務(wù)報(bào)告幾個難點(diǎn)問題的思考
      新型城鎮(zhèn)化背景下我國耕地保護(hù)的困境與制度創(chuàng)新芻議
      政府規(guī)制和財(cái)政政策在節(jié)能建筑市場中的作用
      淺談實(shí)驗(yàn)室管理與改革
      科技視界(2016年21期)2016-10-17 20:23:36
      加強(qiáng)對政府全口徑預(yù)算決算的審查和監(jiān)督
      商(2016年27期)2016-10-17 04:36:59
      社保制度改革之思考
      中小企業(yè)融資瓶頸及策略分析
      電子政務(wù):我國政治文明建設(shè)的重要推動力量
      以麗水市為例:討論政府政策對中小型企業(yè)發(fā)展的影響
      科技視界(2016年14期)2016-06-08 22:07:40
      长子县| 南和县| 渭南市| 青川县| 澄迈县| 广州市| 桃园市| 吴江市| 南安市| 酉阳| 家居| 瑞丽市| 施秉县| 府谷县| 芒康县| 青神县| 安岳县| 德庆县| 正安县| 潢川县| 紫阳县| 华阴市| 双牌县| 绥宁县| 青神县| 嘉义市| 泌阳县| 宝兴县| 石门县| 阳春市| 弥勒县| 讷河市| 甘泉县| 杭州市| 吴旗县| 明溪县| 卢龙县| 曲水县| 辽中县| 大新县| 磐安县|