胡玉枝
謝海華及他的研發(fā)團(tuán)隊(duì)協(xié)同方正IT旗下方正電子、北大醫(yī)信、方正阿帕比等企業(yè),在出版、媒體、教育、醫(yī)療等領(lǐng)域規(guī)劃了一系列技術(shù)上可行且有行業(yè)應(yīng)用前景的應(yīng)用方向。
對(duì)面這位溫文爾雅,沉穩(wěn)靦腆的像在校大學(xué)生的男孩,就是謝海華博士。若不是事先有些了解,很難將他與高級(jí)技術(shù)專家聯(lián)系起來,但正是這樣一個(gè)大男孩,承擔(dān)起北大方正集團(tuán)數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室知識(shí)服務(wù)方向的科研重任。
正在嚴(yán)重感冒的海華博士,很耐心地解答了所有問題。他厚厚的鏡片下,一雙深沉的眼睛,透著學(xué)者的嚴(yán)謹(jǐn)和誠懇。雖然他的思緒和敘述,不時(shí)地被他壓抑的從胸口而出的咳嗽打斷。
說起今天的成就,謝海華謙虛地說是團(tuán)隊(duì)共同努力的結(jié)果。
海外求學(xué)
謝海華,典型的80后,出生于江西上饒。在清華大學(xué)獲得碩士學(xué)位后,他進(jìn)入美國愛荷華州立大學(xué)就讀計(jì)算機(jī)科學(xué)博士,并在美國留學(xué)深造五年多。
說起五年多的留學(xué)感受,謝海華停頓了一下,好像在運(yùn)用他的理科思維整理那幾年的求學(xué)軌跡。他最深切的感受是,開闊了視野,接觸到世界領(lǐng)先的計(jì)算機(jī)科學(xué)與技術(shù),對(duì)大數(shù)據(jù)、人工智能以及自然語言處理等專業(yè)技術(shù)的認(rèn)知有了不同維度的提升。國外的學(xué)術(shù)氛圍、教學(xué)模式、管理體系不同于國內(nèi),非常自由和開放,并且學(xué)術(shù)交流十分方便。謝海華非常珍惜這個(gè)學(xué)習(xí)機(jī)會(huì),十分刻苦地學(xué)習(xí)和研究,并且取得了出色的成果。
有關(guān)海外求學(xué)的經(jīng)歷,謝海華講了一個(gè)有趣的故事。美國的宗教氛圍特別強(qiáng)烈,經(jīng)常有人直接去住的地方傳教。有一次傳教士來敲門的時(shí)候,謝海華讓他的室友跟他們說自己不在,但他在說這句話的時(shí)候,被傳教士們聽到了,一時(shí)有點(diǎn)尷尬。雖然之后傳教士沒有再來,但是謝海華的心里卻很過意不去。雖然他是由于學(xué)習(xí)緊張,對(duì)別的活動(dòng)都沒有興趣,但是當(dāng)謝海華一本正經(jīng)地說出這些話時(shí),讓你覺得他特別善良。
留學(xué)期間,讓謝海華最難忘的是第一次寫論文的經(jīng)歷。大部分研究生的導(dǎo)師會(huì)親自指導(dǎo)學(xué)生的論文,不過他的博士導(dǎo)師并沒有。在整個(gè)過程中,導(dǎo)師基本沒有過問,只是一個(gè)師兄在與謝海華溝通。謝海華很認(rèn)真地、下了很大功夫地撰寫論文,夜以繼日地寫了十多頁,就在準(zhǔn)備投稿的時(shí)候,請(qǐng)導(dǎo)師過目把關(guān)。沒想到,導(dǎo)師拿過論文來,基本上全部否定了,并且把十多頁的論文刪減到最后只剩下四頁。雖然論文最終發(fā)表出來了,但它本來是一篇很有分量的論文,卻最終變成分量很輕的了。浪費(fèi)很多時(shí)間和精力,謝海華感到很郁悶。但是這次的經(jīng)歷,也給謝海華之后的論文撰寫提供了經(jīng)驗(yàn)。他認(rèn)識(shí)到要多跟導(dǎo)師溝通,爭取導(dǎo)師的指導(dǎo),后來寫出了好幾篇很有分量的專業(yè)論文,發(fā)表在權(quán)威雜志上。
學(xué)成歸來
2015年5月,謝海華在愛荷華州立大學(xué)完成畢業(yè)論文,獲得計(jì)算機(jī)博士學(xué)位。當(dāng)時(shí)有幾家著名的科研單位向他伸出了橄欖枝,但是在留與歸之間,他沒懸念地回到了祖國。因?yàn)樗母谥袊?,家在中國,最重要的是父母早就希望他回來了。其?shí),當(dāng)初他剛?cè)ッ绹魧W(xué)時(shí),父母就很不舍得讓他去。美國太遙遠(yuǎn),來去很不方便,而且與國內(nèi)有十幾個(gè)小時(shí)的時(shí)差,這樣的時(shí)空距離無法逾越,父母和姐姐非常希望他留在身邊。但是作為計(jì)算機(jī)專業(yè)的研究生,謝海華認(rèn)為很有必要走出去,看看世界先進(jìn)的計(jì)算機(jī)技術(shù)。
回國后,2015年10月,謝海華進(jìn)入海淀園博士后工作坊北大方正集團(tuán)分站,成為與北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所合作培養(yǎng)的企業(yè)博士后,從事知識(shí)服務(wù)和自然語言處理技術(shù)相關(guān)研究。博士后期間,謝海華的研究方向涉及領(lǐng)域知識(shí)體系構(gòu)建、知識(shí)庫構(gòu)建及準(zhǔn)確性校驗(yàn),媒體&出版行業(yè)文本資源分析和處理等。其相關(guān)的研發(fā)成果應(yīng)用于方正公司的“中華數(shù)字書苑”和“學(xué)知搜索系統(tǒng)”等產(chǎn)品和服務(wù),以及紡織出版社的“中華服飾文化云平臺(tái)”等項(xiàng)目。基于研究成果,他發(fā)表了3篇論文,申請(qǐng)5項(xiàng)專利。博士后期間的工作經(jīng)歷、經(jīng)驗(yàn)和成績,對(duì)于謝海華現(xiàn)在及以后的學(xué)術(shù)研究方向的深入和廣闊,以及學(xué)術(shù)眼界的開闊和提升,都起到了極為重要的影響。
“中華數(shù)字書苑”是方正阿帕比推出的專業(yè)優(yōu)質(zhì)華文數(shù)字內(nèi)容整合服務(wù)平臺(tái),收錄了建國以來大部分的圖書全文資源、全國各級(jí)各類報(bào)紙及年鑒、工具書、圖片等特色資源產(chǎn)品,旨在為圖書館、學(xué)校、企業(yè)、政府等客戶及其所屬讀者提供在線閱讀、全文檢索、離線借閱、移動(dòng)閱讀、下載、打印等數(shù)字內(nèi)容和知識(shí)服務(wù)。“中華數(shù)字書苑”,還多次作為國禮贈(zèng)送國際友人。
在談及這些項(xiàng)目時(shí),謝海華做了詳細(xì)講解,以及他在項(xiàng)目當(dāng)中擔(dān)負(fù)的責(zé)任。
謝海華在中華數(shù)字書苑和中華紡織文化云平臺(tái)(華服志)等項(xiàng)目中,負(fù)責(zé)了知識(shí)庫置信度評(píng)估這個(gè)任務(wù),設(shè)計(jì)算法評(píng)估知識(shí)庫中的三元組的置信度,實(shí)體的置信度,以及知識(shí)庫本身的置信度。并根據(jù)置信度的評(píng)估結(jié)果,選出置信度較低的三元組和實(shí)體進(jìn)行人工校驗(yàn),以去除錯(cuò)誤的三元組和實(shí)體,提高知識(shí)庫的數(shù)據(jù)質(zhì)量。另外,他還負(fù)責(zé)設(shè)計(jì)算法計(jì)算實(shí)體與資源、實(shí)體之間、資源之間的關(guān)系強(qiáng)度。根據(jù)關(guān)系強(qiáng)度,可以在檢索階段,返回關(guān)系強(qiáng)度較大的相關(guān)資源,以提高檢索質(zhì)量。在由國家新聞出版署指導(dǎo)、中國新聞出版研究院主辦的第八屆中國數(shù)字出版博覽會(huì)上,“華服志”平臺(tái)作為知識(shí)服務(wù)的旗艦項(xiàng)目,舉辦了專門的平臺(tái)發(fā)布活動(dòng)。
2017年,由于方正集團(tuán)在數(shù)字出版和知識(shí)服務(wù)領(lǐng)域的技術(shù)積累和行業(yè)優(yōu)勢,特別是方正旗下的數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室的濃厚學(xué)術(shù)氛圍以及崇尚自由探索的技術(shù)精神,謝海華在博士后出站之后選擇留在數(shù)字出版技術(shù)實(shí)驗(yàn)室,并以技術(shù)負(fù)責(zé)人的身份,帶領(lǐng)研發(fā)團(tuán)隊(duì)進(jìn)行知識(shí)服務(wù)關(guān)鍵技術(shù)的研究,深耕數(shù)字出版行業(yè)的應(yīng)用技術(shù)的研發(fā)。實(shí)驗(yàn)室重點(diǎn)研究數(shù)字出版領(lǐng)域中普適性文檔技術(shù)、自動(dòng)排版技術(shù)、數(shù)字出版內(nèi)容的自適應(yīng)重組技術(shù)等關(guān)鍵技術(shù),促進(jìn)數(shù)字出版產(chǎn)業(yè)的技術(shù)進(jìn)步,通過產(chǎn)學(xué)研合作在數(shù)字內(nèi)容的生產(chǎn)、發(fā)行和服務(wù)等領(lǐng)域,進(jìn)行技術(shù)創(chuàng)新和產(chǎn)業(yè)化應(yīng)用、推廣,并推動(dòng)數(shù)字出版產(chǎn)業(yè)相關(guān)標(biāo)準(zhǔn)的制定。他們還將結(jié)合人工智能、VR/AR等新興技術(shù),研究對(duì)未來數(shù)字出版發(fā)展具有重要影響的前沿技術(shù)、數(shù)字出版領(lǐng)域的關(guān)鍵應(yīng)用基礎(chǔ)技術(shù),形成公共技術(shù)平臺(tái),并促進(jìn)成果轉(zhuǎn)化。
2018年5月30日,根據(jù)《依托企業(yè)建設(shè)國家重點(diǎn)實(shí)驗(yàn)室管理暫行辦法》,科技部組織對(duì)99個(gè)企業(yè)國家重點(diǎn)實(shí)驗(yàn)室進(jìn)行了評(píng)估,依托方正集團(tuán)建設(shè)的數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室順利通過科技部組織的評(píng)估。
從2017年擔(dān)任國家數(shù)字出版技術(shù)重點(diǎn)實(shí)驗(yàn)室技術(shù)負(fù)責(zé)人以來,謝海華及他的研發(fā)團(tuán)隊(duì)已與方正IT旗下方正電子、北大醫(yī)信、方正阿帕比等企業(yè)開展深入合作,在出版、媒體、教育、醫(yī)療等領(lǐng)域規(guī)劃了一系列技術(shù)上可行且有行業(yè)應(yīng)用前景的應(yīng)用方向。這個(gè)團(tuán)隊(duì)在媒體大數(shù)據(jù)分析、用戶行為大數(shù)據(jù)分析、學(xué)術(shù)知識(shí)庫構(gòu)建等領(lǐng)域已開展專項(xiàng)研究,探索自然語言處理領(lǐng)域各種技術(shù)、算法和工具在工業(yè)界的應(yīng)用和改進(jìn),以及在“人工智能+”新的技術(shù)發(fā)展階段,對(duì)各個(gè)業(yè)務(wù)領(lǐng)域拓展起到積極的推動(dòng)作用。
在這些產(chǎn)品和項(xiàng)目中,謝海華團(tuán)隊(duì)研發(fā)的成果涉及核心及基礎(chǔ)性技術(shù)研究,包括機(jī)器寫作、信息抽取、語義分析、智能審校等。這些基礎(chǔ)技術(shù)的研究支持了各個(gè)企業(yè)與出版社、高校和圖書館的合作,以及企業(yè)自身的知識(shí)服務(wù)和大數(shù)據(jù)分析等方向的技術(shù)探索。
學(xué)以致用
踐行王選院士“科技頂天,市場立地”的精神,并依照企業(yè)國家重點(diǎn)實(shí)驗(yàn)室的產(chǎn)學(xué)研結(jié)合的模式,謝海華及其團(tuán)隊(duì)在許多研究方向上取得了大量產(chǎn)學(xué)研成果,或者規(guī)劃了可行而且詳實(shí)的研究方案。主要的方向和成果有以下這些方面:
第一,在學(xué)術(shù)大數(shù)據(jù)平臺(tái)建設(shè)方面,他們已經(jīng)構(gòu)建了一個(gè)學(xué)術(shù)大數(shù)據(jù)平臺(tái),包含學(xué)術(shù)會(huì)議庫,學(xué)術(shù)論文庫,學(xué)者信息庫,并含有知識(shí)提取和信息挖掘功能。學(xué)術(shù)大數(shù)據(jù)平臺(tái)可以作為知識(shí)挖掘和信息提取研究的基礎(chǔ)數(shù)據(jù)庫?;趯W(xué)術(shù)大數(shù)據(jù)平臺(tái)的學(xué)者影響力預(yù)測、學(xué)者科研興趣分析、學(xué)者參會(huì)信息分析等,可以為公司或者科研機(jī)構(gòu)提供信息咨詢服務(wù),例如:為高校引進(jìn)人才時(shí)提供候選人的科研能力和學(xué)術(shù)潛力評(píng)估。
在2017年8月至10月間,謝海華和他的同事們,代表數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室知識(shí)服務(wù)團(tuán)隊(duì),參加了“2017開放學(xué)術(shù)精準(zhǔn)畫像大賽”, 并在400支參賽隊(duì)伍中取得第一階段第二,第二階段第五的佳績。這次大賽,是基于學(xué)術(shù)數(shù)據(jù)挖掘系統(tǒng)提供的原始數(shù)據(jù)集,設(shè)計(jì)準(zhǔn)確高效的方法提取學(xué)者的個(gè)人描述信息,分析學(xué)者的研究興趣,以及預(yù)測學(xué)者的論文引用情況,從而更好地面向?qū)W術(shù)界提供專家信息、評(píng)估學(xué)者研究成果、介紹科學(xué)研究進(jìn)展、展示學(xué)術(shù)發(fā)展動(dòng)態(tài)。在比賽中,他們運(yùn)用機(jī)器學(xué)習(xí)和自然語言處理的專業(yè)知識(shí),探索并試驗(yàn)學(xué)者信息挖掘和影響力預(yù)測的算法和技術(shù),提升了信息檢索、文本信息處理和數(shù)據(jù)挖掘方面的能力,積累了大規(guī)模數(shù)據(jù)分析和計(jì)算方面的經(jīng)驗(yàn),展示了實(shí)驗(yàn)室的技術(shù)水平。
第二,在機(jī)器寫作方面,他們運(yùn)用生成式和抽取式相結(jié)合的方法,實(shí)現(xiàn)新聞文本摘要的生成。包括:單篇文檔自動(dòng)摘要(100字左右)生成,而且摘要的語句通順;多篇文章的自動(dòng)標(biāo)題(20字左右)生成;多篇文章的自動(dòng)摘要(150字左右)生成。現(xiàn)在,這項(xiàng)成果已在公司內(nèi)部的新聞部門應(yīng)用,并得到廣泛好評(píng)。
第三,在智能問答方面,他們與集團(tuán)子公司的具體業(yè)務(wù)部門溝通討論應(yīng)用場景,并實(shí)施了客服領(lǐng)域的自動(dòng)問答。另外,他們還積極探索基于知識(shí)庫的智能問答、多輪對(duì)話等領(lǐng)域的最新技術(shù),努力將問答系統(tǒng)領(lǐng)域的學(xué)術(shù)成果,轉(zhuǎn)化為數(shù)字出版技術(shù)實(shí)驗(yàn)室的工程成果。
第四,在智能審校方面,在出版行業(yè)里,待出版的文檔中往往存在很多語法和語義錯(cuò)誤,需要耗費(fèi)審校人員大量的時(shí)間來進(jìn)行校對(duì)。現(xiàn)有的自動(dòng)審校工具,例如黑馬校對(duì),只能找出文檔中的簡單語法錯(cuò)誤,比如錯(cuò)別字,拼音錯(cuò)誤等。然而,目前沒有成熟的技術(shù)能夠自動(dòng)檢查出文檔中的復(fù)雜語法和語義錯(cuò)誤,例如:語句中的主語和謂語等成分殘缺、主謂搭配不當(dāng)、褒貶顛倒等。而這些錯(cuò)誤的校對(duì),也恰恰是審校人員工作的重點(diǎn)和難點(diǎn)。因此,審校工作業(yè)界對(duì)審校的效率和準(zhǔn)確率的提升有強(qiáng)烈的需求。而智能審校這項(xiàng)研究,主要針對(duì)的就是,待出版文檔中的復(fù)雜語法錯(cuò)誤和語義錯(cuò)誤,進(jìn)行自動(dòng)識(shí)別和糾錯(cuò),以節(jié)省審校人員的工作量,并提高出版物的質(zhì)量。
智能審校作為知識(shí)服務(wù)方向今明兩年的重點(diǎn)工作,謝海華傾注了大量的時(shí)間和精力推動(dòng)該項(xiàng)目相關(guān)技術(shù)的研究。2018年12月27日,謝海華參加了方正電子與中國出版協(xié)會(huì)編校工作委員會(huì)、數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室舉辦的智能輔助審校專家研討會(huì),探討在人工智能時(shí)代,如何運(yùn)用自然語言理解等前沿技術(shù)為編輯人員減負(fù)增效。
當(dāng)前,我國正在從出版大國向出版強(qiáng)國發(fā)展,出版物內(nèi)容編校質(zhì)量一直是出版行業(yè)關(guān)注的重點(diǎn)。人工智能技術(shù)、自然語言理解技術(shù)、機(jī)器深度學(xué)習(xí)技術(shù)的發(fā)展,為出版行業(yè)提升出版物編校智能化程度、降低人工勞動(dòng)強(qiáng)度、提高工作效率提供了新的解決方案。在此背景下,方正電子聯(lián)合中國出版協(xié)會(huì)編校工作委員會(huì)、數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,邀請(qǐng)出版行業(yè)專家和技術(shù)專家就人工智能技術(shù)如何運(yùn)用在內(nèi)容編校領(lǐng)域進(jìn)行研討。會(huì)議當(dāng)中,謝海華博士介紹了人工智能技術(shù)在文檔審校修改中的應(yīng)用,以及自然語言理解基礎(chǔ)技術(shù)、語言模型、機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型在文檔審校修改方面的應(yīng)用情況,分享了人工智能技術(shù)在單位格式自動(dòng)校核和標(biāo)點(diǎn)符號(hào)審校修改方面取得的進(jìn)展。他還介紹了方正電子在圖表公式序號(hào)檢查、上下文內(nèi)容查重、全半角、規(guī)范用語等十一項(xiàng)檢查項(xiàng)的產(chǎn)品情況,向與會(huì)專家概括了智能輔助審校產(chǎn)品下一步研發(fā)的重點(diǎn)工作。
出版社的專家們充分肯定了方正集團(tuán)致力于新聞出版行業(yè)的技術(shù)創(chuàng)新的初哀和出發(fā)點(diǎn),需要從行業(yè)的角度解決行業(yè)的共同需要,認(rèn)為智能輔助審校的產(chǎn)品方向、目標(biāo)和定位是正確的,技術(shù)路線是清晰的。與會(huì)專家建議,方正電子和數(shù)字出版實(shí)驗(yàn)室應(yīng)該充分考慮內(nèi)容編校的復(fù)雜性、艱巨性和難度,進(jìn)一步明確產(chǎn)品的邊界。明確在內(nèi)容“審”的方面哪些是機(jī)器能解決的問題,哪些是編輯人員人工解決的問題,立足為編輯“減負(fù)”,同時(shí)與國內(nèi)專業(yè)權(quán)威機(jī)構(gòu)建立長期的合作關(guān)系。
謝海華認(rèn)為智能輔助審校專家研討會(huì)的召開,為方正電子智能輔助審校產(chǎn)品的研發(fā)明確了定位與發(fā)展方向,大力推動(dòng)了方正電子基于新聞出版行業(yè)的技術(shù)創(chuàng)新。他說,面對(duì)出版業(yè)的發(fā)展和需求,方正電子和數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室將繼續(xù)致力于出版行業(yè)的技術(shù)創(chuàng)新,通過運(yùn)用人工智能等前沿技術(shù),提升出版行業(yè)編校水平,為編輯人員減負(fù)增效。
第五,在媒體大數(shù)據(jù)分析方面,他們計(jì)劃構(gòu)建一個(gè)媒體大數(shù)據(jù)分析系統(tǒng),包含新聞文本的轉(zhuǎn)載、侵權(quán)和同題檢測,新聞線索發(fā)掘和新聞?dòng)绊懥Ψ治?。該?xiàng)研究的創(chuàng)新點(diǎn)是基于新聞文本特點(diǎn)和媒體業(yè)務(wù)場景的知識(shí)服務(wù)應(yīng)用研究。中國人民大學(xué)新聞學(xué)院作為國內(nèi)新聞傳播學(xué)的頂尖研究機(jī)構(gòu),也和謝海華團(tuán)隊(duì)合作,為這項(xiàng)研究提供專業(yè)的媒體傳播理論分析。因此,這項(xiàng)研究的應(yīng)用前景非常廣闊。
不久的將來,謝海華和他的團(tuán)隊(duì)在已有的技術(shù)成果以及行業(yè)前沿的探索的基礎(chǔ)上,將致力于不斷發(fā)展方正集團(tuán)在人工智能領(lǐng)域的技術(shù),推動(dòng)現(xiàn)有產(chǎn)業(yè)革新,并努力開拓新的產(chǎn)業(yè)發(fā)展方向,助力公司在當(dāng)今人工智能的大潮當(dāng)中不斷前進(jìn),成為國內(nèi)領(lǐng)先的創(chuàng)新科技企業(yè)。對(duì)此,謝海華博士充滿了信心。
鏈接
謝海華,1983年生,博士畢業(yè)于美國愛荷華州立大學(xué)計(jì)算機(jī)系。2015年進(jìn)入海淀園北大方正集團(tuán)企業(yè)博士后工作分站(與北京大學(xué)聯(lián)合培養(yǎng)),出站后留站,現(xiàn)任數(shù)字出版技術(shù)國家重點(diǎn)實(shí)驗(yàn)室高級(jí)算法研究員,知識(shí)服務(wù)方向技術(shù)負(fù)責(zé)人。博士后期間主持多項(xiàng)數(shù)字出版行業(yè)關(guān)鍵應(yīng)用技術(shù)創(chuàng)新項(xiàng)目,運(yùn)用人工智能技術(shù)探索并實(shí)現(xiàn)了專業(yè)出版領(lǐng)域的數(shù)字資源大數(shù)據(jù)云平臺(tái),已取得數(shù)千萬經(jīng)濟(jì)效益;發(fā)表EI論文14篇,申請(qǐng)發(fā)明專利14項(xiàng);2018年入選北京市海聚工程青年項(xiàng)目,獲得“北京市特聘專家”榮譽(yù)稱號(hào),并獲評(píng)方正集團(tuán)高級(jí)技術(shù)專家。