劉大雙
語義工廠顧名思義就是對(duì)自然語言進(jìn)行加工處理,輸出結(jié)構(gòu)化的信息及其語義。今天,我們?cè)絹碓揭庾R(shí)到,自然語言處理技術(shù)要很好地跟業(yè)務(wù)場(chǎng)景相結(jié)合,才能更好地賦能行業(yè)應(yīng)用。
神州泰岳在超過16個(gè)領(lǐng)域、140個(gè)場(chǎng)景中抽象出相應(yīng)的語義模型,同時(shí)對(duì)這些模型進(jìn)行訓(xùn)練,保證輸出效果。這么做的目的就是希望能夠?yàn)槠髽I(yè)客戶和行業(yè)應(yīng)用開發(fā)商提供一個(gè)自然語言處理SaaS平臺(tái)。
其實(shí),自然語言處理技術(shù)有一個(gè)很高的門檻,不僅是數(shù)學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等諸學(xué)科綜合的體現(xiàn),同時(shí)還需要有很好的行業(yè)知識(shí),給我們的企業(yè)客戶也帶來了一個(gè)新的挑戰(zhàn)。另外,人才也是一個(gè)很大的挑戰(zhàn)。今天在人工智能領(lǐng)域的人才非常缺乏,人才成本居高不下,要維護(hù)一個(gè)相對(duì)穩(wěn)定的、具有一定規(guī)模的自然語言處理團(tuán)隊(duì),還是比較奢侈的一件事。在行業(yè)應(yīng)用上,我們已經(jīng)有超過20年的行業(yè)應(yīng)用經(jīng)驗(yàn)積累,今天已經(jīng)積累了將近100人的專注于自然語言處理的團(tuán)隊(duì),同時(shí)我們有超過400人的交付團(tuán)隊(duì),如果把這兩個(gè)團(tuán)隊(duì)加起來的話,有將近600人。
基于這樣的積累,我們希望為市場(chǎng)做的是,授之以魚的同時(shí)還能授之以漁。我們更加強(qiáng)調(diào),希望通過場(chǎng)景化的自然語言處理平臺(tái)已經(jīng)抽象出的場(chǎng)景,將來從事自然語言處理的應(yīng)用開發(fā)團(tuán)隊(duì)實(shí)際上不需要具備自然語言處理的知識(shí),只需要提供調(diào)用接口,也不需要花時(shí)間做模型訓(xùn)練,就可以保證相對(duì)穩(wěn)定的輸出效果。我們希望為市場(chǎng)提供一個(gè)專業(yè)的、有質(zhì)量保證的、性價(jià)比高的一個(gè)SaaS服務(wù)平臺(tái)。
簡(jiǎn)單說,語義工廠要提供幾類服務(wù):第一類是NLP基礎(chǔ)服務(wù),提供可以通用的技術(shù)服務(wù),比如中文分詞、簡(jiǎn)轉(zhuǎn)繁、中文命名實(shí)體識(shí)別等。第二類是應(yīng)用場(chǎng)景服務(wù),到目前為止我們?cè)?6個(gè)行業(yè)抽象出了超過140個(gè)場(chǎng)景,針對(duì)這些場(chǎng)景都建立了語義模型,進(jìn)行了充分的預(yù)訓(xùn)練,保證達(dá)到一個(gè)穩(wěn)定的、可用的輸出效果。第三類是數(shù)據(jù)服務(wù),我們本身也積累了一些行業(yè)的數(shù)據(jù),希望能夠跟合作伙伴在數(shù)據(jù)方面有所合作。
場(chǎng)景化,是我們所強(qiáng)調(diào)的。在應(yīng)用場(chǎng)景服務(wù)里我們提供了通用的場(chǎng)景,比如合同文本結(jié)構(gòu)化、裁判文書結(jié)構(gòu)化、客服工單分類及熱點(diǎn)發(fā)現(xiàn)、招投標(biāo)公告信息提取、企業(yè)風(fēng)險(xiǎn)標(biāo)簽提取、簡(jiǎn)歷、JD結(jié)構(gòu)化及信息匹配等。
語義工廠實(shí)際應(yīng)用到具體場(chǎng)景中會(huì)產(chǎn)生什么效果?在教育領(lǐng)域,利用語義工廠輸出的服務(wù)實(shí)現(xiàn)在線閱卷,目前我們能夠處理的題型有名詞解釋題、簡(jiǎn)答題以及翻譯題。實(shí)際上,通過我們?cè)趯?shí)際工作中的數(shù)據(jù)驗(yàn)證,準(zhǔn)確率達(dá)到95%,很多場(chǎng)合中可以超過人工判卷的準(zhǔn)確率。在公安刑偵領(lǐng)域,可以從現(xiàn)場(chǎng)案件盤查的筆錄和報(bào)案文字筆錄中發(fā)現(xiàn)類似案件,實(shí)現(xiàn)串并案分析,實(shí)現(xiàn)以案找案、以案找人、以人找案等,提升公安刑偵工作效果。
我們希望為市場(chǎng)、客戶、合作伙伴提供人工智能、大數(shù)據(jù)的技術(shù)來實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新,實(shí)現(xiàn)行業(yè)賦能的目標(biāo),希望讓自然語言處理技術(shù)真正落地。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)