• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      NLP文本分類引擎的解決方案

      2018-05-16 12:52:46王悅林
      科學(xué)與技術(shù) 2018年16期
      關(guān)鍵詞:數(shù)據(jù)量類別分類

      王悅林

      摘要:人工智能應(yīng)用最廣的兩個(gè)領(lǐng)域就是計(jì)算機(jī)視覺(CV)和自然語言處理(NLP)。計(jì)算機(jī)視覺的高速發(fā)展期是2012至2017年,目前研究的重點(diǎn)已經(jīng)從靜態(tài)的圖片進(jìn)入動(dòng)態(tài)的視頻領(lǐng)域,而自然語言處理的發(fā)展相對(duì)較慢,從2018年起,以BERT等句子級(jí)別預(yù)訓(xùn)練模型為代表,才進(jìn)入高速發(fā)展期。

      自然語言處理領(lǐng)域的應(yīng)用很豐富,例如語言翻譯、情感分析、客服機(jī)器人、新聞生成、輿情監(jiān)控、文檔歸類、簡歷篩選等等。而從技術(shù)的角度,最多的應(yīng)用就是文本分類,包括多元分類、多級(jí)別分類、多標(biāo)簽分類等。

      針對(duì)層出不窮的文本分類需求,有必要設(shè)計(jì)出分類專用引擎,以提高效率和降低成本,并增強(qiáng)復(fù)用性。

      一、整體設(shè)計(jì)

      對(duì)于一個(gè)文本分類項(xiàng)目,在架構(gòu)上分為數(shù)據(jù)處理、文本分類、文本挖掘和結(jié)果展現(xiàn)四個(gè)部分。本文著重在分類引擎的設(shè)計(jì)上。

      引擎需要考慮的因素很多,基于目前的技術(shù)發(fā)展,以下幾點(diǎn)需要重點(diǎn)考慮并解決:

      1、如何選擇基礎(chǔ)算法

      2、如何減少標(biāo)簽數(shù)據(jù)量

      3、如何處理訓(xùn)練數(shù)據(jù)的不均衡

      4、如何處理多達(dá)幾十上百的類別

      二、NLP基礎(chǔ)算法選擇

      從2013年Word2Vec開始,可以選擇的常用基礎(chǔ)算法有GloVe,F(xiàn)astText,ELMo,GPT1.0,BERT,Bert as a service,MT-DNN,GPT2.0等等,最近一段時(shí)間發(fā)展的速度令人咋舌。具體如何進(jìn)行選擇呢?

      首先要選擇句子級(jí)別的算法,因?yàn)樵~級(jí)別算法沒有考慮詞之間的關(guān)系和語序,不僅處理不了語義組合、多義詞、轉(zhuǎn)折、依賴等各種語言學(xué)上的語法現(xiàn)象,連簡單的語序也處理不了,我欠你一百萬和你欠我一百萬這種在語義上/現(xiàn)實(shí)社會(huì)中巨大的差異被忽視,語言處理能力較低。

      其次要選擇預(yù)訓(xùn)練模型,而不是從零開始構(gòu)建。動(dòng)輒幾億參數(shù)的預(yù)訓(xùn)練模型以多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和巨大的訓(xùn)練數(shù)據(jù)量,已經(jīng)學(xué)會(huì)了大量的語言知識(shí),具有了超凡的語言理解能力。而且這類模型很多公司從成本角度是無法自己訓(xùn)練的,站在巨人的肩膀上會(huì)是明智的選擇。

      再次,從實(shí)際應(yīng)用的角度,算法是否易用,網(wǎng)絡(luò)資料是否齊全,也是要考慮的因素。因此上述的各種選擇中,基于Transformer/Self-Attention,并能提供下游任務(wù)接口的BERT就成為不讓之選。

      三、令人頭痛的數(shù)據(jù)標(biāo)注

      AI目前整體上還是處于弱人工智能階段,簡單說就是有人工才有智能,只有人類教會(huì)機(jī)器/算法如何工作,機(jī)器/算法才能分辨出不同的類別。這個(gè)教的具體動(dòng)作,就是提供打好標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型。大家常說的數(shù)據(jù)是基礎(chǔ),數(shù)據(jù)是燃料,數(shù)據(jù)是動(dòng)力都是這個(gè)意思。

      而給數(shù)據(jù)打標(biāo)簽的工作,也是目前人工智能領(lǐng)域的痛點(diǎn)之一,還催生了專門做數(shù)據(jù)標(biāo)注的公司。常有人抱怨人工智能的項(xiàng)目一半以上的時(shí)間和費(fèi)用都投入到了做數(shù)據(jù)標(biāo)注上。

      那么有沒有技術(shù)上的方法來減少這種痛苦呢?有,那就是主動(dòng)學(xué)習(xí)(Active Learning),其目的不是不再標(biāo)注數(shù)據(jù),而是大大減少標(biāo)注的數(shù)據(jù)量。其基本的原理是,通過人工智能的方法來主動(dòng)選擇出標(biāo)注意義更大的數(shù)據(jù),以達(dá)到用一半的數(shù)據(jù)標(biāo)注就能訓(xùn)練出滿意效果的目的。

      此方法的理論依據(jù)是標(biāo)注數(shù)據(jù)量和模型正確率之間的關(guān)系。人們往往以為隨著數(shù)據(jù)量的增長,準(zhǔn)確率會(huì)持續(xù)提升,其關(guān)系是向右上方升起的一根直線,即線性關(guān)系。而根據(jù)實(shí)際試驗(yàn),兩者的關(guān)系是一條弧線,在初始階段隨著標(biāo)注數(shù)據(jù)量的增長,多次訓(xùn)練的準(zhǔn)確率會(huì)大幅提升,之后增幅就逐漸減小,效果越來越不明顯。

      如何主動(dòng)學(xué)習(xí)呢?方法很多,使用算法和信息熵迭代操作會(huì)大大提升效率。具體步驟說明如下:

      第一個(gè)啟動(dòng)模型采用遷移學(xué)習(xí)的思路,選擇其它項(xiàng)目的成熟模型作為啟動(dòng)點(diǎn)。由于每個(gè)項(xiàng)目的具體分類不同,模型不能重用,但舉例來說,對(duì)洗衣機(jī)的負(fù)面評(píng)價(jià)判別模型,用在冰箱評(píng)價(jià)上也是一個(gè)好的起點(diǎn),比起從零開始構(gòu)造模型,會(huì)大大減輕工作量和縮短項(xiàng)目時(shí)間。

      以遷移過來的模型作為初始模型,對(duì)全部沒有標(biāo)注的數(shù)據(jù)直接分類。由于沒有標(biāo)注,分類結(jié)果無法判斷對(duì)錯(cuò),但是每一行數(shù)據(jù)的分類結(jié)果可以生成總和為一的概率分布,而排在第一位的概率數(shù)字代表了模型對(duì)于分類的信心。概率越高,確定性越大,則信息熵越小,而我們需要挑選出來的是信息熵最大的那一批數(shù)據(jù),對(duì)其進(jìn)行標(biāo)注。如果最難分類的數(shù)據(jù)都被成功歸屬到了正確的類別,那么其它數(shù)據(jù)就更容易分類了。這樣標(biāo)注的數(shù)據(jù)就不再是隨機(jī)進(jìn)行選擇,而是被精準(zhǔn)定位,從而大大降低標(biāo)注量。

      用第一批標(biāo)注的數(shù)據(jù)來訓(xùn)練出第一個(gè)真實(shí)模型,而用此模型來挑選出下一批需要標(biāo)注的數(shù)據(jù),多次重復(fù)此過程,直至準(zhǔn)確率曲線不再升高,或升高的幅度不值得再投入人員和時(shí)間進(jìn)行標(biāo)注,就結(jié)束模型訓(xùn)練,完成分類任務(wù)。

      四、如何處理數(shù)據(jù)的不均衡

      在進(jìn)行文本分類時(shí),訓(xùn)練和測試數(shù)據(jù)量對(duì)于不同的類別往往并不均衡,有的類別多,有的類別少。這會(huì)導(dǎo)致訓(xùn)練出來的模型對(duì)于不同的類別區(qū)分的能力不同,對(duì)于數(shù)據(jù)量較大的類效果較好,也會(huì)把很多其它類數(shù)據(jù)誤判為這個(gè)類別。其技術(shù)原因是模型訓(xùn)練時(shí)的唯一目的是最小化損失函數(shù),而數(shù)據(jù)量較大類的數(shù)據(jù)對(duì)損失函數(shù)影響更大。

      如果已知測試數(shù)據(jù)集的數(shù)據(jù)分布,并且確定真實(shí)數(shù)據(jù)集與測試數(shù)據(jù)集的分布相同,那么可以按此分布來調(diào)整訓(xùn)練數(shù)據(jù)。如果無法得知真實(shí)數(shù)據(jù)的分布,則應(yīng)該訓(xùn)練出對(duì)每一個(gè)類別都有相同分辨能力的模型,因此需要處理數(shù)據(jù)的不均衡問題。

      處理的技術(shù)方法中最常用的是上采樣和下采樣,即對(duì)超過平均數(shù)的類減少數(shù)據(jù)量,對(duì)不足平均數(shù)的類增加數(shù)據(jù)量。下采樣時(shí)隨機(jī)減少即可,上采樣時(shí)對(duì)于文本可以用翻譯軟件進(jìn)行多種語言間的來回翻譯,或者直接拷貝數(shù)據(jù)成多份,再隨機(jī)打亂。

      那么除了數(shù)據(jù)的上下采樣以外,還有沒有其它的方法呢?既然技術(shù)原因是由于損失函數(shù)僅僅按照每類訓(xùn)練數(shù)據(jù)量的大小對(duì)待不同類別,那么完全可以調(diào)整損失函數(shù),按照類別數(shù)量差異區(qū)別對(duì)待。其具體方法有靜態(tài)調(diào)整和動(dòng)態(tài)調(diào)整兩種。

      猜你喜歡
      數(shù)據(jù)量類別分類
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      分類算一算
      計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      永靖县| 平武县| 任丘市| 岱山县| 株洲县| 台南市| 巴林右旗| 阳山县| 二手房| 泌阳县| 高阳县| 尉氏县| 岚皋县| 新源县| 鄂温| 芒康县| 綦江县| 衡山县| 托克逊县| 香港 | 陆河县| 连山| 泊头市| 双流县| 渝中区| 定边县| 天长市| 荣成市| 邳州市| 抚顺县| 乌拉特中旗| 团风县| 荆州市| 龙口市| 锦州市| 林西县| 禄劝| 乐昌市| 桂东县| 浦东新区| 松原市|