王靜娟
網(wǎng)絡數(shù)據(jù)挖掘、自然語言處理、人工智能,簡單來說,這3個詞匯串聯(lián)起南開大學人工智能學院教授劉杰的絕大部分研究。那么,這三者是什么?又究竟有怎樣的關系?在劉杰的娓娓道來中,答案逐漸明了。
特殊的數(shù)據(jù)
網(wǎng)絡數(shù)據(jù)挖掘,簡單來說是從海量的數(shù)據(jù)中抽取出潛在的、有價值的知識(模型或規(guī)則)的過程。如果說互聯(lián)網(wǎng)數(shù)據(jù)猶如星辰密布,那么拋開那些雜亂的群星,還有一些被稱為“星座”的特殊輪廓。在數(shù)據(jù)的世界,“星座”是具有復雜結構性的數(shù)據(jù),譬如序列型、網(wǎng)絡型數(shù)據(jù)。
劉杰說,傳統(tǒng)的機器學習大多是以單個數(shù)據(jù)為單元進行數(shù)據(jù)集上的模型學習,考慮的信息相對孤立?!白匀徽Z言等序列型數(shù)據(jù)則不同,它看重序列歷史信息,關注承上啟下,將樣本在序列上下文中進行判斷;社交網(wǎng)絡等網(wǎng)絡型數(shù)據(jù),需要搜集個體社交、交互情況,依據(jù)成型的網(wǎng)狀環(huán)境綜合判斷得到結論?!眱烧呤羌瓤紤]樣本自身特點,又注重結構情境影響的典型代表。而這也給研究增加了不少挑戰(zhàn)。不僅如此,諾大的數(shù)據(jù)汪洋中,精準搜集、定點捕撈相當于大海撈針。此外,劉杰還指出,文本作為互聯(lián)網(wǎng)上的主要信息載體有著一個明顯的特征,那就是寫法隨意,不受語言表達方式的限制,與正規(guī)的文章之間橫亙著一條顯著的界限。這也直接造成了語言語義的識別困難。
那么險阻重重,迎難而上的價值究竟是什么?“綜合網(wǎng)絡結構和文本信息,能夠更好地理解語義,準確完成知識發(fā)現(xiàn)、人機對話、智能問答、輿情分析等諸多人工智能任務”,劉杰提出了最直接的研究價值。
他坦言,自己近幾年將主要精力放在網(wǎng)絡數(shù)據(jù)中的自然語言處理方面,尤為關注的是網(wǎng)絡數(shù)據(jù)挖掘與自然語言處理相結合。這樣做,歸根還得說到網(wǎng)絡信息的主要媒介——文字。“語句由單字構成,對它進行判斷建模才能進一步識別句子中的特定內(nèi)容?!崩纾渲邪年P鍵人名、地名等。在自然語言處理的角度下進行網(wǎng)絡數(shù)據(jù)挖掘,相關機構能夠迅速了解互聯(lián)網(wǎng)的熱門話題,甚至搞清楚大眾對某一事件的普遍看法?!斑@可以幫助企業(yè)了解自身產(chǎn)品的特點,摸清楚輿情。”
作為具備悠久歷史的研究方向,自然語言處理研究還不斷開發(fā)“新技能”。隨著人工智能的誕生進化,算法、算力、大數(shù)據(jù)研究日趨成熟,自然語言處理方向也迎來了新浪潮,對話機器人便是典型的范例。在劉杰的介紹中,其廣泛應用于電商客服、個人助理等服務領域,有效節(jié)省了人力和經(jīng)濟支出。“對話等同于讓機器人運用自然語言算法去閱讀理解和交互,除了準確理解語義,還得生成自然語言答案?!彼枰诶斫馊祟愓Z言的基礎上給出合理答復。
不管是理解還是反饋,劉杰說皆不是易事。區(qū)別于許多動物普遍具有的視覺、嗅覺等基本感知能力,語言是人類特殊的關鍵認知能力?!盎靖兄芰Λ@取自然界中的信息。而語言經(jīng)過創(chuàng)造和傳承,則包含更深刻的邏輯性、常識性、文化性,是更高層次和難度的智能體現(xiàn)?!边@種獨特的智慧形式,也促使自然語言處理成為人工智能發(fā)展的重要一環(huán)。
觸類旁通促發(fā)展
從業(yè)多年,對劉杰來說,在環(huán)環(huán)相扣的人生各階段,兩次訪學經(jīng)歷令他印象深刻。他在一群優(yōu)秀的科研學者身上學到了科研方法、治學態(tài)度,還擴寬了研究思路。在校內(nèi),他勤懇地開展科研工作;走出校門,在工業(yè)界研究機構,劉杰還接觸到不同的科研風格。他說,高校與企業(yè)的環(huán)境相輔相成,自己正是在兩者的熏陶下夯實基礎。
憑借在國內(nèi)外的經(jīng)驗積累,劉杰于南開大學任教后打響了獨立科研征途的第一槍。他主持了自己首個國家自然科學基金項目“基于深度學習的結構化預測模型研究”。當時,深度學習的研究熱潮剛剛興起,劉杰作為第一批“吃螃蟹”的人,以深度學習為手段去研究序列型數(shù)據(jù)建模。該項目也為他后續(xù)工作拉開序幕,密切聯(lián)系了視頻內(nèi)容的動作識別、自然語言的關鍵信息識別等任務。
“近期,我們又開展了一個新的自然科學基金項目,叫作‘基于跨模態(tài)的網(wǎng)絡表征學習?!眲⒔苷f,跨模態(tài)是項目關鍵詞,即網(wǎng)絡數(shù)據(jù)從單模態(tài)轉變?yōu)槎嗄B(tài)。而所謂模態(tài),如圖像、文本、聲音等具備結構或屬性的信息,每一種代表一種模態(tài)?!霸诨ヂ?lián)網(wǎng),描述同一事件的模態(tài)可能是文字、聲音,甚至還包括圖像。不同模態(tài)信息之間并不是獨立的,而是存在語義上的互補。為了有效提升表達的質(zhì)量,我們希望采用合理的手段來融合多模態(tài)信息,將它們綜合體現(xiàn)在一個模型里?!辈贿^,這是一個難題,讓劉杰的研究工作面臨挑戰(zhàn)。
“研究長時間沒有突破口,直到有一天,從另外的一件事情反而得到了啟發(fā)?!彼忉屨f,如果將網(wǎng)絡數(shù)據(jù)轉換為不同模態(tài)下的網(wǎng)絡,將模態(tài)轉化視作語言的翻譯,就能夠利用機器翻譯的思路,從而設計一種自我翻譯的網(wǎng)絡表示學習模型來解決問題。紙上得來終覺淺,經(jīng)實踐證明,劉杰采取的思路和辦法十分有效,相關成果匯總成的論文被頂級會議和期刊發(fā)表?!斑@件事情也讓我看待問題、事情,嘗試多轉換角度。你怎樣去審視問題,實際就決定了有哪些可選的思路或者方案。只有換了視角,才能跳出原有的局限?!?/p>
做專注的行動派
即便肯定了“靈感”的重要作用,但劉杰同時也強調(diào),這一切是建立在良好的學科基礎、豐富的知識積累之上。不論是在KDD、AAAI、IJCAI、IEEE TKDE等國際頂級會議和期刊發(fā)表論文,還是獲得天津市科技進步獎二等獎、2017CCF大數(shù)據(jù)與計算智能大賽特等獎及一等獎等榮譽,都和劉杰自身的長期積淀有緊密聯(lián)系。“一個想法的閃現(xiàn),其實是知識體系和思考方式等共同作用的結果。前期在理論、算法上持續(xù)地研究是必備的基礎?!?/p>
在談及工作壓力的來源時,劉杰認為,學者除了關注前沿研究進展,還理應重視理論與產(chǎn)業(yè)融合?!叭绾螌⑵髽I(yè)實際問題轉化成一個可以用模型、算法來解決的理論問題,這其中不止涉及一個問題,而是很多問題?!币皇且鞔_企業(yè)應用問題,深入到各個部門了解情況,“這不光是走流程,還得站在理論研究的背景和基礎條件上聽意見,發(fā)掘工作特點,找到問題癥結”;二是問題的轉化與建模,將發(fā)現(xiàn)的應用問題轉化為計算機算法所對應的問題,進一步實現(xiàn)算法、程序的搭建。
摸底、布局把好關,劉杰將工作做好、做細、做實的另一法門,便是專注。他結合自身的求學、從業(yè)經(jīng)歷特別指出,學術和應用上保持寬廣視野的同時,要注意避免過于發(fā)散的思維?!皩Υ恳患虑椋仨毮軌蜢o下心來思考并進一步挖掘更深層次的內(nèi)容。也要往前看,想一想現(xiàn)在做的事情對未來會產(chǎn)生怎樣的影響。”劉杰表示,迄今仍會兼顧理論、應用兩個層面,但不會過分寬泛地涉獵?!拔彝ǔT谝粋€點或者若干個關鍵點上研究理論和前沿應用?;A理論幫助我快速理解前沿的應用,更好地解決問題。反過來,應用也是一種導向,讓我知道社會的需求在哪,我該朝著怎樣的理論方向去研究?!鼻把貞檬腔A研究的出發(fā)點,理論基礎是實際應用的落腳點。對劉杰來講,理論和應用兩條腿走路,可以走得更遠、更穩(wěn)。
團隊發(fā)展方面,劉杰對不同階段、不同訴求的學生采取針對性指導?!爱厴I(yè)要去企業(yè)工作的,就著重培養(yǎng)他們的動手能力;有進一步學術上深造打算的,就會根據(jù)發(fā)展路線提供學術能力鍛煉的機會。我們團隊有很多優(yōu)秀的學生,既能兼顧學習,在科研上也做了大量的工作,包括參與論文的發(fā)表、獲得科研競賽獎勵等。這些都很好地鍛煉了他們的能力?!睂τ谌瞬诺呐囵B(yǎng),劉杰提倡依據(jù)學業(yè)階段“因時制宜”,還明確了工作認真、保持好奇的重要性。
面向未來,劉杰表示,通過數(shù)據(jù)分析、挖掘和模型預測來替代人類開展智能化工作是大勢所趨,“不過因為算法、模型等局限性,人類距離完全的智能化階段還有距離”。他的工作契合時代發(fā)展,特別是當大數(shù)據(jù)挖掘和人工智能逐漸滲透多行業(yè),變革成為正在進行時。