人工智能技術(shù)及創(chuàng)新產(chǎn)品介紹
為解決中文詞語(yǔ)在認(rèn)知語(yǔ)義方面的問題,神州泰岳推出了基于概念計(jì)算的智慧語(yǔ)義認(rèn)知技術(shù),將自然語(yǔ)言進(jìn)行符號(hào)化標(biāo)記,通過(guò)有限的語(yǔ)義網(wǎng)絡(luò),處理無(wú)限的語(yǔ)句表示。
神州泰岳是一家在創(chuàng)業(yè)板上市的公司。2016年,公司戰(zhàn)略布局已形成了“四輪驅(qū)動(dòng)”模式,也稱“2+2模式”。所謂“四輪驅(qū)動(dòng)”,是指包括傳統(tǒng)ICT業(yè)務(wù)、手游業(yè)務(wù)、大數(shù)據(jù)與人工智能和物聯(lián)網(wǎng)技術(shù)應(yīng)用在內(nèi)的四個(gè)主營(yíng)業(yè)務(wù), 其中ICT運(yùn)營(yíng)管理業(yè)務(wù)、手機(jī)游戲業(yè)務(wù)是目前的主要利潤(rùn)構(gòu)成部分,物聯(lián)網(wǎng)技術(shù)應(yīng)用、大數(shù)據(jù)與人工智能是泰岳著力打造的戰(zhàn)略板塊,將引領(lǐng)未來(lái)泰岳的主營(yíng)方向。
自從機(jī)器深度學(xué)習(xí)的方法從概念成為現(xiàn)實(shí),人工智能在語(yǔ)音、圖像處理方面取得了長(zhǎng)足的進(jìn)步。但在中文領(lǐng)域,由于詞語(yǔ)在不同語(yǔ)言環(huán)境下的紛繁語(yǔ)義,造成人工智能在認(rèn)知語(yǔ)義方面不能盡如人意。為此,神州泰岳推出了基于概念計(jì)算的智慧語(yǔ)義認(rèn)知技術(shù),此項(xiàng)技術(shù)通過(guò)概念的方式,將自然語(yǔ)言進(jìn)行符號(hào)化的標(biāo)記,通過(guò)有限的語(yǔ)義網(wǎng)絡(luò),處理無(wú)限的語(yǔ)句表示。如,“蘋果”一詞,當(dāng)它作為一個(gè)水果出現(xiàn)的時(shí)候,設(shè)置一個(gè)代碼,在代碼前加一個(gè)“1”代表它是植物,加個(gè)“9”代表它是食用植物,加個(gè)“B”代表是新鮮蘋果。神州泰岳花了幾年時(shí)間,人工完成了符號(hào)化標(biāo)記工作。
詞匯符號(hào)化標(biāo)記完成后,還需要對(duì)語(yǔ)義進(jìn)行理解。以前,語(yǔ)義理解都是通過(guò)句法分析,但是在具體語(yǔ)境下句法分析很難完美表達(dá)。我們的做法是,把一句話的幾種語(yǔ)義翻譯成語(yǔ)義網(wǎng)絡(luò),再計(jì)算幾個(gè)語(yǔ)義的相似性,從而判斷出當(dāng)下語(yǔ)境中,語(yǔ)義的正確表達(dá)。這是神州泰岳關(guān)于NLP底層的技術(shù)。
在日常應(yīng)用中我們發(fā)現(xiàn),盡管神州泰岳的NLP技術(shù)很強(qiáng),但在做行業(yè)創(chuàng)新時(shí),這種模式還帶來(lái)了繁重的工作壓力。于是,神州泰岳基于智慧語(yǔ)義認(rèn)知技術(shù)再度研發(fā),開發(fā)出DINFO-OEC非結(jié)構(gòu)化大數(shù)據(jù)分析挖掘平臺(tái)。這個(gè)平臺(tái)是通過(guò)業(yè)務(wù)建模解決非結(jié)構(gòu)化的大數(shù)據(jù)分析挖掘,使大家快速做應(yīng)用創(chuàng)新。目前,在金融行業(yè)、公共安全方面應(yīng)用廣泛。
業(yè)務(wù)建模是DINFO-OEC平臺(tái)的重要應(yīng)用,可以提供本體-要素-概念,三位一體的分析挖掘模型。另外在算法上支持C計(jì)算、統(tǒng)計(jì)S計(jì)算、關(guān)聯(lián)R計(jì)算等多種算法,C和R計(jì)算目前在業(yè)界有一定的獨(dú)創(chuàng)性和領(lǐng)先性。OEC平臺(tái)對(duì)多語(yǔ)種的支持較強(qiáng),可通過(guò)簡(jiǎn)體中文建模,對(duì)多國(guó)語(yǔ)言自動(dòng)支持。比如順豐的分揀系統(tǒng),就是通過(guò)簡(jiǎn)體中文建模,上線支持簡(jiǎn)體、繁體和英文。另外,因?yàn)镈INFO-OEC平臺(tái)具備平臺(tái)的集成性,所以和主流的Hadoop平臺(tái)、BI等都有集成。
在人工智能領(lǐng)域,語(yǔ)義云也是神州泰岳的一個(gè)發(fā)展方向。目前大數(shù)據(jù)的產(chǎn)業(yè)生態(tài)離不開非結(jié)構(gòu)化數(shù)據(jù)的分析挖掘,如果每家企業(yè)都做這項(xiàng)工作,人工成本會(huì)造成浪費(fèi),且時(shí)間投入較大。我們希望,神州泰岳的DINFO-OEC平臺(tái)以及文本處理技術(shù),通過(guò)語(yǔ)義云的方式開放給大家,企業(yè)可自己建模應(yīng)用。這個(gè)平臺(tái)計(jì)劃于明年1月左右推出。
關(guān)于DINFO-OEC平臺(tái)在公共安全方面,有一個(gè)串并案分析的應(yīng)用場(chǎng)景。因?yàn)楣膊块T在處理案件時(shí),都會(huì)有案情紀(jì)要,也就是錄口供。在口供中含有很多寶貴信息,如果能夠及時(shí)地把它提取,進(jìn)行串并案分析,一方面可以提高辦案效率,同時(shí)也可以發(fā)現(xiàn)案件的新線索,這樣對(duì)整個(gè)社會(huì)的貢獻(xiàn)較大。DINFO-OEC平臺(tái)通過(guò)語(yǔ)義建模做信息關(guān)聯(lián)、要素提取,為案件的偵破提供信息支持。
DINFO-OEC平臺(tái)能夠?qū)崿F(xiàn)業(yè)務(wù)描述與語(yǔ)言表達(dá)的分離。本體可以用C計(jì)算、S計(jì)算做入室盜竊的分類,對(duì)案發(fā)現(xiàn)場(chǎng)的具體情況進(jìn)行本體建模;另一方面是要素建模,比如說(shuō)根據(jù)犯罪現(xiàn)場(chǎng),犯罪地點(diǎn)等信息,或者根據(jù)作案工具等情況進(jìn)行建模。
對(duì)于概念建模,比如說(shuō),服務(wù)態(tài)度好是一個(gè)概念,關(guān)于好的表達(dá)很難,需要多語(yǔ)種的支持。通過(guò)DINFO-OEC平臺(tái),大家只需要在本體做中文簡(jiǎn)體的建模,把其他概念導(dǎo)進(jìn)去,就可實(shí)現(xiàn)多語(yǔ)種支持。
通過(guò)DINFO-OEC平臺(tái)分析,我們可以得出,哪些小區(qū)在一年中的什么時(shí)候發(fā)生案件較多,以及案件性質(zhì)和類型,方便公安機(jī)關(guān)對(duì)小區(qū)進(jìn)行專案的整治行動(dòng)。DINFO-OEC平臺(tái)還可以完成深度的案件畫像描繪,比如說(shuō)對(duì)犯罪分子的作案手段、作案現(xiàn)場(chǎng)、發(fā)案處所、發(fā)案時(shí)間等進(jìn)行數(shù)據(jù)分析,可大幅度節(jié)省破案時(shí)間。把作案信息提取后,與歷史信息做關(guān)聯(lián),很容易找到新的破案線索,而且時(shí)間是實(shí)時(shí)的,錄口供的同時(shí),分析結(jié)果就被DINFO-OEC平臺(tái)整理出來(lái),此時(shí)的犯案人員可能來(lái)不及逃離本地。
北京神州泰岳軟件股份有限公司副總裁 楊凱程
我們也有機(jī)器人在銷售,聽說(shuō)最近,一家銀行也中標(biāo)了,叫中國(guó)“富二代”機(jī)器人。我們希望做新一代的機(jī)器人,包括我們還有知識(shí)庫(kù),還有像客服大數(shù)據(jù)系統(tǒng),我們2014年就上線了,遠(yuǎn)遠(yuǎn)領(lǐng)先業(yè)界?。ǜ鶕?jù)演講內(nèi)容整理,未經(jīng)本人審核)