黃文彬,白浩東
(北京大學(xué)信息管理系,北京 100871)
全國中小公司股份轉(zhuǎn)讓系統(tǒng)(簡稱“新三板”)主要提供中小微型公司安全合法的融資渠道,以更高的價格進行股權(quán)流通,實現(xiàn)資產(chǎn)增值,并且吸引優(yōu)質(zhì)的投資人選擇具有發(fā)展良好前景的公司投資標(biāo)的,以提高個人獲利。在股權(quán)交易市場中,投資人經(jīng)常利用主營業(yè)務(wù)或商品劃分出相關(guān)或相近的、具有類似市場表現(xiàn)的公司集合,并從中篩選業(yè)績表現(xiàn)較好的公司做投資分析,如盈余預(yù)測、對比估值等。劃分公司集合的方法通常參考行業(yè)分類體系、概念板塊、使用市場倍數(shù)指標(biāo)三種方法,其中,參考行業(yè)分類體系劃分可比公司獲得了廣泛的研究和討論[1]。為了區(qū)分公司產(chǎn)品達到統(tǒng)計的目的或者為了區(qū)分公司所對應(yīng)市場的特點,國家相關(guān)管理單位或金融機構(gòu)依據(jù)業(yè)務(wù)需求制定了行業(yè)分類體系,該體系需要滿足國家經(jīng)濟要求與商業(yè)標(biāo)準,形成適用范圍大、修改周期長、影響層面廣以及劃分粒度較宏觀等特點。由于新三板掛牌公司多屬于成長型中小公司,具有產(chǎn)品或業(yè)務(wù)所屬的范疇粒度小和業(yè)務(wù)變動速度快的特性,這就造成行業(yè)分類體系無法匹配最新的行業(yè)動態(tài)和公司實際最新業(yè)務(wù)特點,并不能滿足投資人尋找投資標(biāo)的公司集合的需求。參考概念板塊劃分篩選源于人民幣普通股票市場(簡稱“A股市場”)投資人的選股方法,主要由市場研究團隊或媒體自發(fā)性依據(jù)某種概念或話題,構(gòu)建非層級結(jié)構(gòu)式標(biāo)簽劃分的公司集合,如同花順概念板塊行情中心(http://q.10jqka.com.cn/gn/)。話題或概念具有豐富的意義,包括業(yè)務(wù)、商業(yè)模式、地域和事件等。從A股市場的劃分方式直接套用到新三板市場,造成掛牌公司業(yè)務(wù)的實際粒度未達到與概念匹配的適用性問題。采用市場倍數(shù)能夠更好地服務(wù)于后續(xù)預(yù)測估值工作[2],研究人員依靠市場指標(biāo)市凈率、市倍率等對某特定行業(yè)下的公司進行篩選對比。然而,這些指標(biāo)只適用于一級市場中業(yè)務(wù)成熟的公司,新三板中大量中小公司并沒有市場接受的市值,更不必說市場倍數(shù)。
綜上所述,為了提供協(xié)助新三板市場投資人在短時間內(nèi)利用業(yè)務(wù)關(guān)聯(lián),從上萬家掛牌公司中,篩選劃分公司類別形成投資標(biāo)的,本文提出基于自動構(gòu)建術(shù)語分類體系的方法,利用新三板掛牌公司年度報告的商業(yè)模式文本數(shù)據(jù),得到具有層次結(jié)構(gòu)的公司劃分結(jié)果,以此作為投資人的選股依據(jù)和理解投資標(biāo)的與其他公司的關(guān)聯(lián)關(guān)系的基礎(chǔ)。首先研究者從年度報告文本中抽取出公司主營業(yè)務(wù)范圍相關(guān)的術(shù)語和術(shù)語相似性,根據(jù)術(shù)語相似關(guān)系進行聚類計算,并構(gòu)建出術(shù)語網(wǎng)絡(luò),利用術(shù)語網(wǎng)絡(luò)和公司業(yè)務(wù)所含術(shù)語集判定該公司所屬的類別標(biāo)簽,其結(jié)果可反映出新三板市場劃分公司的特殊性,為投資人發(fā)現(xiàn)特定概念公司、理解概念與業(yè)務(wù)的映射關(guān)聯(lián)。
行業(yè)分類體系,是指在市場中根據(jù)相似的工業(yè)流程、相似的產(chǎn)品以及相似的市場組織分類公司的工具和方法[3]。投資人經(jīng)常利用該體系開展找尋標(biāo)桿公司來確定市場份額、挖掘潛在競爭對手、衡量公司績效和行業(yè)指數(shù)等作為商業(yè)研究和投資分析。根據(jù)不同的目的將分類標(biāo)準分為兩種類型:管理型和投資型,兩者分別用于政府宏觀經(jīng)濟普查統(tǒng)計和證券投資活動[3]。1999年8月,全球行業(yè)分類系統(tǒng)(Global Industry Classification Standard,GICS[4])由標(biāo)準普爾(Standard&Poor's,S&P)與摩根士丹利公 司(Morgan Stanley Capital International,MSCI)聯(lián)手推出適用于投資型的行業(yè)分類標(biāo)準,也是如今全球金融業(yè)內(nèi)較全面和統(tǒng)一的行業(yè)定義,是投資型行業(yè)分類體系的典型代表。該系統(tǒng)采用業(yè)務(wù)劃分方法提供投資人員更好的參考標(biāo)準,明確區(qū)分不同行業(yè)具有的投資價值,反映股票市場當(dāng)前的投資理念,GICS在多種行業(yè)分類標(biāo)準中具有更好的劃分公司能力[5]。有些國內(nèi)金融機構(gòu)也根據(jù)GICS制定適用于我國市場環(huán)境的行業(yè)分類體系,如申萬行業(yè)體系[6]以及新三板投資型行業(yè)分類體系[7]。然而,行業(yè)分類體系并不能很好地解決新三板市場投資人篩選劃分公司問題,例如,①末級行業(yè)分類的公司可能缺少可比性,自頂向下的行業(yè)分類導(dǎo)致不同子行業(yè)內(nèi)公司數(shù)量和業(yè)務(wù)內(nèi)容偏差較大,不利于投資人進一步篩選公司;②公司業(yè)務(wù)可能存在多種交叉,固定的等級列舉式分類體系無法揭示某個業(yè)務(wù)對應(yīng)多行業(yè)的所屬關(guān)系,使得劃分的公司集合存在遺漏或缺失的可能性;③行業(yè)分類體系構(gòu)建成本高,經(jīng)常性的修正會影響投資效率。
為了彌補行業(yè)分類體系的不足,投資研究人員利用投資人可能會重點關(guān)注的話題或概念(包括業(yè)務(wù)、商業(yè)模式、地域、事件等)給予公司標(biāo)簽,并聚集相同或相關(guān)標(biāo)簽的公司形成重點關(guān)注的選股標(biāo)的,稱為“概念板塊”,如“蘋果”概念板塊、“雄安新區(qū)”概念板塊等。概念板塊的靈活性能夠彌補行業(yè)分類體系無法納入新興投資熱點的不足,提供投資人直觀的業(yè)務(wù)理解。由于概念板塊是經(jīng)由研究人員或媒體自發(fā)性所建構(gòu)的,目前僅限于A股市場,在新三板市場并不存在大眾認可的概念板塊劃分。
另外,許多研究人員也會通過組合市場倍數(shù)來篩選可比公司集合。市場倍數(shù)的功能可顯示出在預(yù)測公司未來收入和股價變動時具有強相關(guān)性[2,8]。然而,市場倍數(shù)僅適用于A股市場或公司運營狀況穩(wěn)定、市場倍數(shù)可靠的情況。在新三板市場中流動性不強,股價以及市場倍數(shù)無法用于預(yù)測公司未來收益狀況。
近年來,國外基于文本數(shù)據(jù)進行行業(yè)分析的研究逐漸增多[1,9-12]。例如,Hoberg等[10-11]依據(jù)10-K數(shù)據(jù)庫構(gòu)建了兩種領(lǐng)域體系:為利用公司產(chǎn)品描述文檔文本聚類,對形成的類別進行描述形成領(lǐng)域劃分,屬于較傳統(tǒng)的固定結(jié)構(gòu)[10];根據(jù)公司產(chǎn)品描述構(gòu)建關(guān)系網(wǎng)絡(luò),利用公司相似性確定競爭關(guān)系所形成的網(wǎng)絡(luò)結(jié)構(gòu)[11]。由于其研究目標(biāo)主要是改進行業(yè)分類體系,并沒有深入公司業(yè)務(wù)細節(jié),分類結(jié)果屬于粒度較粗的行業(yè)劃分,投資人的應(yīng)用價值較低。Tetlock等[12]同樣利用文本信息進行行業(yè)分析,但只使用了詞匯的情感色彩而非詞匯的語義關(guān)聯(lián)。國內(nèi)的研究者曹四華[13]使用LDA(latent Dirichlet alloca‐tion)主題模型對上市公司的年度報告文本進行分析,但LDA方法并不能給出可解釋性強的、層次化的行業(yè)劃分。本文的貢獻在于利用文本數(shù)據(jù)克服行業(yè)分類體系固化的問題,提供一套依據(jù)較細粒度的業(yè)務(wù)概念與關(guān)聯(lián)自動劃分出公司集合的方法。
術(shù)語分類體系(taxonomy)是一個將概念術(shù)語按照上下位關(guān)系組織起來的語義層次結(jié)構(gòu)[14]。術(shù)語分類體系自動構(gòu)建(automatic taxonomy construc‐tion,ATC)是基于文本發(fā)現(xiàn)領(lǐng)域術(shù)語以及術(shù)語之間關(guān)聯(lián),構(gòu)建具有上下位關(guān)系的樹狀結(jié)構(gòu)體系。自動構(gòu)建術(shù)語分類體系包括兩個步驟:上下位關(guān)系抽取和術(shù)語分類體系推導(dǎo)[14]。
上下位關(guān)系抽取是指從語料中獲得術(shù)語概念以及這些概念之間的上下位關(guān)系,主要分為基于模式的方法和基于分布的方法。如果x和y出現(xiàn)在同一個句子中,并滿足特定模式,那么基于模式的方法預(yù)測術(shù)語對(x,y)之間存在上下位關(guān)系。最早的且最具有影響力的工作是Hearst[15]提出的人工定義的上下位模式。后續(xù)工作采用boosting策略[16]自動優(yōu)化改進模式,基于模式的方法得到高準確率和低召回率的結(jié)果。基于分布的方法是采用非監(jiān)督度量或者監(jiān)督模型預(yù)測術(shù)語之間的上下位關(guān)系。該方法包含術(shù)語抽取和關(guān)系預(yù)測兩個子步驟。術(shù)語抽取是從語料中抽取出所有可能的術(shù)語詞,這些術(shù)語詞之間可能存在上下位關(guān)系。術(shù)語抽取通常采用統(tǒng)計指標(biāo)或機器學(xué)習(xí)等方法完成。例如,利用TF-IDF(term frequency-inverse document frequency)方法、LDA模型、TextRank模型等無監(jiān)督的方法。在有監(jiān)督即存在部分關(guān)系標(biāo)注數(shù)據(jù)的情況下,關(guān)系抽取任務(wù)則可以看作兩詞之間是否存在上下位關(guān)系的分類問題。關(guān)系預(yù)測步驟則是采用非監(jiān)督度量或者監(jiān)督模型預(yù)測給定任意兩個已抽取術(shù)語的上下位關(guān)系。典型非監(jiān)督度量的方法包含利用共現(xiàn)頻次、詞袋模型余弦相似度和詞嵌入模型結(jié)果計算術(shù)語間關(guān)系度量[14]。監(jiān)督模型預(yù)測關(guān)系則是依賴已有術(shù)語關(guān)系的詞典,通過合理外推可以預(yù)測整個術(shù)語集上的關(guān)聯(lián)關(guān)系?;谀J降姆椒ǜ泳_,但非常依賴語料和人工模式制定,如果語料不具備揭示術(shù)語關(guān)系,那么基于模式方法將會導(dǎo)致極低召回率[17]。相反地,基于分布方法可以在非嚴格的語料上獲得較好的召回率,卻無法檢測嚴格上下位關(guān)系使得準確率較低。
術(shù)語分類體系推導(dǎo)是指在大量上下位關(guān)系集合的基礎(chǔ)上,整理合并形成層次結(jié)構(gòu)的過程。體系推導(dǎo)主要有聚類和圖結(jié)構(gòu)推導(dǎo)兩種方法。聚類方法是指假設(shè)具有同一上位詞的下位詞聚為一類,上位詞代表類簇。因為術(shù)語分類體系是層次結(jié)構(gòu)的,所以往往采用具有層次性結(jié)果的聚類方法(如層次聚類[18-19])、共現(xiàn)關(guān)系導(dǎo)出的包含方法(subsumption method)[20]。圖結(jié)構(gòu)推導(dǎo)是指將術(shù)語分類體系當(dāng)做有向圖結(jié)構(gòu),將術(shù)語和關(guān)系組織成為圖結(jié)構(gòu),并挖掘形成樹狀結(jié)構(gòu)成為術(shù)語分類體系[21]。自動構(gòu)建術(shù)語分類體系是一個極為廣泛的研究領(lǐng)域,融合了多種自然語言處理方法,同時,也極大地影響其他自然語言處理相關(guān)的應(yīng)用。本文采用基于分布的關(guān)系抽取方法和聚類推導(dǎo)體系的方法,實現(xiàn)根據(jù)公司業(yè)務(wù)劃分公司,以獲得投資標(biāo)的或?qū)Ρ裙尽?/p>
本文的核心任務(wù)是利用術(shù)語分類體系構(gòu)建方法依據(jù)公司業(yè)務(wù)內(nèi)容劃分公司集合,具體的方法流程如圖1所示,主要分為三個階段:數(shù)據(jù)預(yù)處理、術(shù)語分類體系構(gòu)建和劃分公司集合。數(shù)據(jù)預(yù)處理階段主要是利用哈爾濱工業(yè)大學(xué)自然語言處理工具包(http://www.ltp-cloud.com/intro)對商業(yè)模式文本進行切詞詞性標(biāo)注等。術(shù)語分類體系構(gòu)建階段又包括關(guān)系抽取和體系推導(dǎo)的兩子階段。關(guān)系抽取階段中,因為選取投資標(biāo)的的變動性高,需要盡量減少人工的參與,所以本文采用基于分布的方法,該抽取方法又可分成“術(shù)語抽取”和“關(guān)系構(gòu)建”兩個步驟。首先,本階段從預(yù)處理切詞標(biāo)注后的公司商業(yè)模式文本中,抽取短語單詞特征并利用半監(jiān)督分類模型判斷術(shù)語,完成術(shù)語抽取的目的;其次,在關(guān)系構(gòu)建步驟中采用計算術(shù)語相似度的方法,在體系推導(dǎo)子階段中通過建立在術(shù)語相似度矩陣上聚類形成術(shù)語分類體系;最后,在劃分公司集合階段中是基于所構(gòu)建的體系基礎(chǔ)上,將出現(xiàn)相同末級術(shù)語的公司匯總為公司集合。
圖1 基于術(shù)語分類體系自動劃分公司集合方法的流程圖
3.1.1 術(shù)語抽取
本文以新三板公司商業(yè)模式文本集作為本文的語料庫,為了能夠完整表述公司業(yè)務(wù),本文采用了更具有表達能力的短語作為術(shù)語,該方法分為兩個階段:抽取短語及單詞特征、半監(jiān)督術(shù)語分類模型。
表1 短語特征表
抽取短語及單詞特征階段需要同時抽取短語及其特征。由于商業(yè)模式文本中絕大部分業(yè)務(wù)術(shù)語都屬于名詞性短語,基于該特性的模式匹配方法獲得的短語能夠包含絕大部分的業(yè)務(wù)概念術(shù)語。本文利用人工依據(jù)經(jīng)驗事先確定詞性語法模式從詞性標(biāo)注和依存句法分析樹標(biāo)注后的文本材料中抽取短語。同時,抽取的短語特征有短語自身的特征以及術(shù)語所屬單詞的特征(如表1所示),主要包含行業(yè)信息和頻率統(tǒng)計量兩類特征。由于行業(yè)信息對于詞具有重要作用,利用給定詞在不同行業(yè)所屬公司的年度報告中的詞頻所計算的行業(yè)信息熵,判斷這個詞是否具有領(lǐng)域劃分的作用。本階段獲得短語集及其特征,作為下一階段半監(jiān)督分類判斷術(shù)語的輸入。
半監(jiān)督術(shù)語分類模型構(gòu)建使用正樣本無標(biāo)記樣本學(xué)習(xí)方法(positive and unlabeled learning,PULearn‐ing)[22]來構(gòu)建概率化支持向量機(probablilistic sup‐port vector machine,PSVM)分類器?,F(xiàn)實學(xué)習(xí)任務(wù)情況中,往往負樣本P獲取不易,正樣本P規(guī)模小且難以擴大,未標(biāo)記U的規(guī)模大。PULeanring則是用于解決這樣的情況的半監(jiān)督分類方法。有研究[23]指出,PULearning可以利用重寫經(jīng)驗風(fēng)險的方法轉(zhuǎn)化為損失敏感的有監(jiān)督分類問題,分類無標(biāo)記樣本和少量正樣本。本文利用這一結(jié)論使用傳統(tǒng)分類模型進行術(shù)語判斷,在實驗研究中采用PULearn‐ing方法的對稱問題(即負樣本無標(biāo)記樣本學(xué)習(xí)NULeanring),來降低人工分類的預(yù)備工作量和提高分類精度,以達到自動分類的效果。標(biāo)記負樣本的過程中,候選術(shù)語短語中如果出現(xiàn)了領(lǐng)域停用詞表中的詞匯,將該短語標(biāo)記為負樣本,否則為無標(biāo)記樣本。而標(biāo)記過程需要領(lǐng)域停用詞表,使得負樣本盡可能覆蓋非術(shù)語部分短語的各種類型。領(lǐng)域停用詞表中包括通用停用詞表和描述公司的常見詞,如“集團”“公司”等;描述商業(yè)模式常見詞匯,如“銷售”“盈利”等;描述公司市場地位詞匯,如“領(lǐng)先”“趨勢”等。領(lǐng)域停用詞表的構(gòu)建僅需要少量人工操作,實驗中僅在通用停用詞表外增加了106個領(lǐng)域停用詞。最后,根據(jù)研究[23]結(jié)論,利用PSVM對負樣本和無標(biāo)記樣本進行分類,獲得正樣本標(biāo)記即術(shù)語集合。
3.1.2 關(guān)系構(gòu)建
本文主要對稱相似性度量的方法進行關(guān)系構(gòu)建,該方法中的相似性度量研究基于術(shù)語為單詞的情況,而不適用于本文的術(shù)語為短語的情況,因此,本文使用單詞相似度度量構(gòu)建術(shù)語短語相似度度量,通過整合單詞相似度獲得術(shù)語相似度。
首先,借鑒共詞分析的思想,定義兩個單詞的相似度為共同出現(xiàn)文檔的數(shù)量除以兩者各自出現(xiàn)文檔次數(shù)的平均數(shù),計算單詞間的相似度采用共現(xiàn)頻次并進行歸一化,計算方式為
其中,docsi表示單詞i出現(xiàn)的文檔集合;|docsi|表示文檔docsi的單詞個數(shù);mean(|docsi|,|docsj|)表示文檔docsi和docsj的單詞數(shù)的調(diào)和平均數(shù)。
其次,采用詞對齊(word alignment)思想?yún)R總單詞相似度并計算短語相似度。定義短語間的相似度為短語中相對應(yīng)單詞之間的相似度的平均值,而詞對齊方法可以避免考慮短語中無關(guān)單詞間相似度被納入考量。例如,“醫(yī)療健康服務(wù)”和“醫(yī)療器械”均有單詞“醫(yī)療”,短語相似度首先找到最匹配的單詞對,再合并計算多個單詞對之間的相似度。在術(shù)語t中找到術(shù)語s的詞對齊結(jié)果定義為termalignst。術(shù)語相似度termsimst計算公式為
termsimst=(termalignst+termalignts)/2 (3)
最后,考慮單詞本身的差異,直接采用相同的權(quán)重求均值會使術(shù)語表達能力不足,因此,本文匯總單詞相似度時引入詞權(quán)重,表示為
其中,N表示文檔數(shù)量;docsi表示單詞i出現(xiàn)的文檔集合。將單詞權(quán)重設(shè)計為WF-IDF,WF定義為對詞條出現(xiàn)的頻率TF進行亞線性變換后的結(jié)果,使權(quán)重歸一化時更加平滑,IDF是指逆向文件頻率。
經(jīng)過關(guān)系抽取之后的術(shù)語集內(nèi)部具有偽上下位關(guān)系,因為相似性度量矩陣可以認為是所有術(shù)語之間都可能有上下位關(guān)系,而聚類則是將相似性矩陣轉(zhuǎn)變?yōu)樗鶎訇P(guān)系矩陣,實際中即抹去相似性較低的術(shù)語對關(guān)系、建立相似性較高的術(shù)語對之間的關(guān)系。在體系推導(dǎo)階段,首先,本文利用近鄰傳播(affinity propagation,AP)聚類算法[24]方法聚類得出層次化術(shù)語體系的末層結(jié)構(gòu);其次,再對該聚類中心進行聚類獲得第二層結(jié)構(gòu),以此類推;最后,形成多層次化的樹狀結(jié)構(gòu),即術(shù)語分類體系。然而,在實際投資應(yīng)用中,固定層級的扁平樹狀結(jié)構(gòu)較為依靠投資研究人員理解,本文以三層結(jié)構(gòu)的術(shù)語分類體系為主,如圖2所示。
基于構(gòu)建好的術(shù)語分類體系,公司的主營業(yè)務(wù)所包含的術(shù)語對應(yīng)在末級術(shù)語上,形成最終的公司劃分映射表。公司劃分映射表中,每個末級術(shù)語對應(yīng)一個公司集合,該集合中所有公司從事的均與術(shù)語描述的業(yè)務(wù)內(nèi)容相同或相似,則該集合內(nèi)的公司即可被投資人與分析師作為對比分析的選股標(biāo)的。該公司劃分映射表存在兩個現(xiàn)象:①某公司包含數(shù)個術(shù)語,形成該公司可能會屬于不同類的公司集合,但這現(xiàn)象更符合現(xiàn)實情況,因為公司經(jīng)常從事多種業(yè)務(wù)或者業(yè)務(wù)具有交叉性;②由于本文采用商業(yè)模式的文本,公司可能主營上下游產(chǎn)業(yè)鏈業(yè)務(wù),造成同一劃分集合公司間仍有不同的屬性關(guān)系并未顯現(xiàn)出來,未來可以針對這一點進行升級改進。
圖2 基于聚類的術(shù)語分類體系結(jié)構(gòu)
表2 頂層術(shù)語統(tǒng)計表
實驗首先自全國中小公司股份轉(zhuǎn)讓系統(tǒng)(www.neeq.com.cn)中選取從2014—2017年年底10375家掛牌公司年度報告共21739份,由于原始年度報告格式為PDF文件,使用Tabula工具自動解析文件后提取出商業(yè)模式文本數(shù)據(jù),因部分年度報告數(shù)據(jù)的內(nèi)容缺失和損毀,經(jīng)人工校正并清理,最后,獲取20040份商業(yè)模式文本作為本文的研究實驗數(shù)據(jù)。依主管機關(guān)規(guī)定,商業(yè)模式披露內(nèi)容包括公司目前所處行業(yè)、主營業(yè)務(wù)、產(chǎn)品或服務(wù)、客戶類型、關(guān)鍵資源、銷售渠道、收入來源等情況,文本長度一般不少于100字且不多于1000字。利用模板判斷短語后獲得64460個短語候選集,本文利用領(lǐng)域停用詞表標(biāo)記其中7078條為負樣本,其余為無標(biāo)記樣本,經(jīng)PSVM分類器計算獲得2744個正樣例術(shù)語。體系推導(dǎo)后獲得33個大類(如表2所示),其中第1列為所有大類對應(yīng)的頂層術(shù)語。每個頂層術(shù)語的二級術(shù)語數(shù)量不超過20個,三級術(shù)語不超過230個,對應(yīng)的公司從數(shù)百到一千不等,由于公司可以包含多種類型業(yè)務(wù),最終平均一條業(yè)務(wù)術(shù)語最多包含20家公司。所有術(shù)語的平均相似度經(jīng)計算為0.15,而每個類的平均類內(nèi)相似度皆高于0.15,說明大部分劃分結(jié)果具有內(nèi)聚性。除“手機周邊產(chǎn)品”“天然植物提取物”等混雜的超大類以外,大部分聚類劃分相對均衡。本實驗基于文本字符,故存在同義詞與近義詞的關(guān)系使得頂層劃分不夠完善。例如,“醫(yī)療診斷服務(wù)”和“醫(yī)療器材制造服務(wù)”兩個相關(guān)業(yè)務(wù)被割裂,未來仍具有改進空間。
由于劃分結(jié)果龐大,本文僅以教育類實驗結(jié)果展示層次結(jié)構(gòu)和公司劃分情況。如表3所示,第1~3列分別表示宏觀大類劃分、相對宏觀的二級劃分和微觀的三級劃分,說明本文的研究方法依據(jù)主營業(yè)務(wù)概念自動劃分的33類中有一類宏觀體系為教育類,而教育類又可細分成“在線教育培訓(xùn)行業(yè)”“職業(yè)教育培訓(xùn)服務(wù)”“教育信息化”和“智慧教育行業(yè)”4個子類,并且“在線教育培訓(xùn)行業(yè)”類別中包含“在線教育服務(wù)”“在線教育培訓(xùn)”和“在線教育平臺”3個微觀業(yè)務(wù)類別。表4展示了教育概念下部分公司的行業(yè)劃分、本文方法末級術(shù)語標(biāo)簽和商業(yè)模式文本節(jié)選,其中行業(yè)劃分采用新三板官方投資型行業(yè)分類用作參照,顯示本文方法的劃分結(jié)果,具體展現(xiàn)出新三板教育類公司的業(yè)務(wù)特征。
表3 教育概念結(jié)構(gòu)表
新三板掛牌公司多數(shù)屬于中小型規(guī)模、從事較小業(yè)務(wù)內(nèi)容或產(chǎn)品的公司。傳統(tǒng)公司劃分參考的行業(yè)粒度宏觀,依據(jù)公司業(yè)務(wù)內(nèi)容映射到行業(yè)劃分時,造成同行業(yè)內(nèi)公司間的實際業(yè)務(wù)差距較大,體現(xiàn)不出公司的特殊性。對于投資人來說,經(jīng)由本文依據(jù)粒度較細的業(yè)務(wù)概念自動劃分公司方法得到的公司集合相似度更高,這些細分領(lǐng)域的發(fā)現(xiàn)更能貼近市場,便于深入理解行業(yè)。
投資人利用公司的業(yè)務(wù)、商品或相關(guān)屬性劃分公司集合,從中篩選出股價表現(xiàn)較合理的公司作為該集合的標(biāo)桿,該標(biāo)桿公司與投資標(biāo)的進行估值對比分析。不適當(dāng)?shù)墓炯蟿澐謱斐蓸?biāo)桿公司選取的失誤,并導(dǎo)致投資標(biāo)的估值錯誤,因此,利用細粒度的業(yè)務(wù)內(nèi)容劃分出的公司集合更能找出可比性的公司。公司間的可比性通??剂繉Ρ裙镜臉I(yè)務(wù)相似度和體量,而實際業(yè)務(wù)中分析人員需要對兩指標(biāo)劃分的結(jié)果進一步人工篩選刪除[2],因此,在考察劃分公司方法時,還需要考慮對比公司集合的大小。業(yè)務(wù)相似度與對比公司集合大小均與劃分結(jié)構(gòu)中末級節(jié)點細化程度有關(guān)。如果粒度過粗使得同集合內(nèi)公司的數(shù)量過多,并且公司間的業(yè)務(wù)關(guān)聯(lián)小,則將造成可比性較差。例如,多數(shù)“在線教育領(lǐng)域”的公司被劃分到投資型行業(yè)分類體系的“互聯(lián)網(wǎng)軟件與服務(wù)”,且“職業(yè)培訓(xùn)”被劃分到“綜合消費者服務(wù)”,而“教育”僅為體系的末級行業(yè)。在線教育公司因改變其業(yè)務(wù)手段就被劃分到“互聯(lián)網(wǎng)軟件與服務(wù)”,但由于其業(yè)務(wù)的消費者、競爭者以及市場范圍并沒有太大的變化,從投資角度而言,該類公司仍必須以教育類型評價基準進行分析與估值。而本文提出的方法劃分的公司集合相對均勻,且該方法依據(jù)文本數(shù)據(jù)內(nèi)容自動調(diào)整領(lǐng)域規(guī)模,避免了自頂向下設(shè)計行業(yè)分類所導(dǎo)致公司分布不均的問題。
發(fā)現(xiàn)新興業(yè)務(wù)概念是市場研究人員進行投資分析重要的工作之一,盡早挖掘出新興概念將標(biāo)示著行業(yè)未來的發(fā)展方向以及公司的前景。傳統(tǒng)行業(yè)分類體系因更新周期長而忽略新興業(yè)務(wù),而只有當(dāng)新興業(yè)務(wù)受到關(guān)注的時候才會被納入概念板塊的構(gòu)建。本文提出的方法從年度報告自動獲取劃分的結(jié)構(gòu),因此,容易捕獲到當(dāng)前市場的新概念。例如,表3的教育類二級劃分類別中,這些概念是當(dāng)下教育領(lǐng)域的重要細分業(yè)務(wù),也是投資人無法參考其他工具獲得的。
表4 教育概念下部分公司對應(yīng)表
另外,在本文的實驗中存在術(shù)語意義不夠明確的問題。在術(shù)語抽取的工程中,術(shù)語的微妙差別與簡單詞匯控制判斷同義詞或近義詞不同,尤其本文的對象更涉及實際生活中的業(yè)務(wù)邏輯,判斷方式相對復(fù)雜導(dǎo)致難以達到無監(jiān)督詞匯控制。例如,“智慧教育”與“在線教育”之間的關(guān)聯(lián)并非僅有同義或近義的關(guān)系?!爸腔劢逃辈捎弥悄芗夹g(shù)注重教育質(zhì)量和效果,而“在線教育”偏重以在線方式打破地理限制的學(xué)習(xí)體驗,雖然兩者概念相似與高度相關(guān),但無法簡單合并。另外,“智慧家庭”本不應(yīng)當(dāng)屬于教育行業(yè),但由于計算“家庭”與“教育”術(shù)語相似度相對接近,而被劃分為該宏觀概念類內(nèi)。
本文主要通過半監(jiān)督術(shù)語抽取與術(shù)語關(guān)系聚類的方法,構(gòu)建出具有層次結(jié)構(gòu)的公司集合,提供新三板市場投資人自動化劃分公司的方法,并協(xié)助理解公司間的業(yè)務(wù)關(guān)聯(lián)。本文提出的方法主要貢獻在于將術(shù)語分類體系構(gòu)建方法引入投資概念體系建立任務(wù),采用了短語而非單詞作為術(shù)語相似度的計算,并且在該過程中極少量依賴人工參與,高效無監(jiān)督方法滿足需求的時效性。實驗數(shù)據(jù)來自新三板公司年度報告的商業(yè)模式文本數(shù)據(jù),并使用本文提出的方法劃分的公司集合解決實際問題:①發(fā)現(xiàn)細分領(lǐng)域和特殊業(yè)務(wù),使投資人更深入了解公司業(yè)務(wù)范圍;②自動化及時發(fā)現(xiàn)當(dāng)前新興投資概念,幫助投資人捕獲市場動態(tài);③對比傳統(tǒng)公司篩選工具,本文方法劃分公司更具有可比性。本文嘗試使用無監(jiān)督方法抽取術(shù)語的方法仍有優(yōu)化空間,未來將可引入詞匯控制來避免術(shù)語意義不明的情況,并在關(guān)系構(gòu)建過程融合其他行業(yè)描述的外部資源,改善語料稀疏的缺點。