• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      張全:給網(wǎng)絡(luò)裝上“電子眼”

      2009-05-31 09:47

      姜 靖

      今年1月底,正當全國上下開展整治互聯(lián)網(wǎng)低俗之風(fēng)專項行動之際,中科院聲學(xué)所研發(fā)出一種具有語義理解特點的“網(wǎng)絡(luò)不良信息檢測系統(tǒng)”,能幫助監(jiān)管部門和網(wǎng)站管理者監(jiān)控色情和低俗等不良信息。張全正是該項目的負責(zé)人,本來就很忙的他,一下子又讓新聞界給“包圍”了。

      “我沒有故事,就是一個普通人。”張全一再強調(diào)。然而,隨著采訪的深入,記者仿佛從這個“普通人”身上看到千千萬萬科研工作者的身影,他們的喜憂苦樂是那樣的真實,可愛。

      三個月研發(fā)出系統(tǒng)

      “你用‘三點造個句,如何?”一開始,記者本想請張全簡單介紹一下這套“網(wǎng)絡(luò)不良信息檢測系統(tǒng)”,孰料他先給記者出了一道考題。

      “三點確定一個平面。我三點有個采訪……”記者隨口答。

      “你的造句發(fā)到網(wǎng)上,很有可能被當成不良信息被屏蔽掉?!睆埲⑿Φ卣f。

      記者愕然。這時,他不慌不忙地打開電腦,調(diào)出一個程序,輸入了一個網(wǎng)址。不一會兒,屏幕開始提示有幾十個“不良信息”。然而,打開這些所謂的“不良信息”一看,其實就是幾則再正常不過的反邪教信息。

      張全解釋說,傳統(tǒng)的網(wǎng)絡(luò)監(jiān)測系統(tǒng),一般是基于關(guān)鍵詞對網(wǎng)絡(luò)信息進行機械的識別和過濾,只要文本里含有設(shè)定的關(guān)鍵詞,不管這個詞是什么意思,甚至如“小三點了一杯咖啡”里“三點”都不是一個詞,也會被屏蔽掉。

      與傳統(tǒng)的網(wǎng)絡(luò)監(jiān)測系統(tǒng)不同,他們的這套系統(tǒng)主要根據(jù)語句的意義來判斷哪些網(wǎng)頁信息需要過濾。用戶只要輸入目標網(wǎng)站的網(wǎng)址,系統(tǒng)便會自動打開該網(wǎng)站的所有網(wǎng)頁,同時模擬人瀏覽網(wǎng)頁的方式來審查是否還有不良信息,對于不能做出判斷的內(nèi)容系統(tǒng)還能提出警告,供人工判別。

      張全說,這就好比為網(wǎng)絡(luò)裝上了“電子眼”,能幫助監(jiān)管部門和網(wǎng)站管理者從源頭上“遏制不良信息傳播,凈化網(wǎng)絡(luò)環(huán)境?!?/p>

      為了提供檢測標準,他們課題組針對網(wǎng)絡(luò)上出現(xiàn)的色情、反動、低俗等不良信息進行了搜集,對其語言特征和語意特點進行了提取,建立了一個龐大的不良信息知識庫,為軟件搜索不良信息提供了文字基礎(chǔ)。

      目前,他們對該系統(tǒng)進行的語料測試已超過3萬篇,測試成功率達85%以上,“完全達到了商品化的要求”。通過更換知識庫,該系統(tǒng)就可廣泛應(yīng)用在熱點信息跟蹤、輿情分析等領(lǐng)域。

      出人意料的是,這套系統(tǒng)的研發(fā)時間并不長,“去年下半年才開始做,滿打滿算也就3個月的時間?!睂τ谶@點,張全很是自豪。

      好技術(shù)竟然賣不出去

      張全告訴記者,“網(wǎng)絡(luò)不良信息檢測系統(tǒng)”是自然語言理解處理技術(shù)與先進的網(wǎng)絡(luò)技術(shù)結(jié)合的產(chǎn)物。從20世紀80年代末,中科院聲學(xué)所黃曾陽研究員就開始探索模擬人腦語言智能的自然語言理解處理模式,創(chuàng)立了“概念層次網(wǎng)絡(luò)(HierarchicalNetworkof Concepts,簡稱HNC)理論”,并發(fā)展形成了HNC自然語言理解處理技術(shù)。HNC的最大特點是能夠進入語義深層處理自然語言的內(nèi)容,而不是僅僅利用語言的表層信息進行處理。通過多年的科研攻關(guān),HNC團隊已經(jīng)取得了多項成果,形成了自主知識產(chǎn)權(quán)的自然語言理解處理技術(shù),為形成滿足信息時代要求的各種特定的信息處理技術(shù)奠定了堅實的基礎(chǔ)。

      然而,張全從事自然語言理解處理研究卻是在讀博士以后。1993年,從西北工業(yè)大學(xué)碩士畢業(yè)的他面臨人生的一次重大抉擇。“我本科、研究生學(xué)的都是信號處理,研究生畢業(yè)的時候,希望自己的研究方向有所改變?!币粋€偶然的機會,他認識了黃曾陽老師。與黃老師的幾次深談,堅定了他轉(zhuǎn)行的決心。

      然而,這次轉(zhuǎn)行并沒有想象的那么輕松,而是“痛苦的像是重新生了一回?!睆埲f,自然語言處理是語言學(xué)與計算機技術(shù)的交叉學(xué)科,對語言學(xué)和計算機的要求都非常高,單單寫幾千行的程序這一項就讓他“吃不消”。

      不過,與技術(shù)上的困難相比,張全面臨最大的挑戰(zhàn)是如何將技術(shù)產(chǎn)業(yè)化。張全說:“一項再完美的技術(shù),只有在市場中才能體現(xiàn)出其應(yīng)用的價值,停留在實驗室無異于死路一條。”張全說。1996年博士畢業(yè)后,他的工作重心就轉(zhuǎn)向技術(shù)轉(zhuǎn)化上來。當時,盡管國內(nèi)做自然語言處理的不止他們一家,然而如何將自然語言處理技術(shù)進行技術(shù)轉(zhuǎn)化,是大家都在探索的問題,沒有現(xiàn)成的模式可循,同時,自己單位又沒有產(chǎn)業(yè)化的平臺,致使產(chǎn)業(yè)化一度陷入困境。2000年年底,他們嘗試利用BNC理論的無形資產(chǎn)與外面公司聯(lián)合成立了按企業(yè)模式獨立運營的研究院,計劃將其打造成產(chǎn)業(yè)化基地,因種種原因,這一目標還在努力之中。

      去年下半年,國內(nèi)凈化網(wǎng)絡(luò)環(huán)境的呼聲日益高漲,張全他們在短時間內(nèi)研發(fā)出“網(wǎng)絡(luò)信息不良信息監(jiān)測系統(tǒng)”,希望搭乘國家整治不良信息的快車,打開市場。

      也曾遭遇“無米下鍋”

      身為自然處理項目負責(zé)人,張全不得不花時間精力去談項目,找經(jīng)費?!拔腋憧蒲谐錾?,以前總想著做好研究就行了”。然而,現(xiàn)在他坐在這個位置上,就不可能對這些事完全置身事外,如果有一個好項目,覺得機會好,他也會花時間來談。

      張全說,雖然聲學(xué)所做自然語言處理已有45年的歷史,但是至今在很多人眼里,做語言處理應(yīng)該不是聲學(xué)所的事,聲學(xué)所來做就難以形成品牌效應(yīng),每次拿出去跟人家談都要解釋一番,項目更不會主動找上門來。很長一段時間,課題組“吃了上頓沒下頓?!?/p>

      張全回憶說,1996年到1998年間,課題組基本上申請不到課題,沒有課題就沒有經(jīng)費,當時中科院系統(tǒng)已開始全成本核算,所里給予了一定的幫助但非常有限,課題組成員的收入很難和其他課題組相比,一些研究人員選擇了離開。課題組只剩下幾個人。因為在外面找不到住處,張全只好在博士生宿舍“賴”了一年多。有個細節(jié)張全印象特別深,那時有很多同學(xué)在外面混的特別好,每次同學(xué)聚會,他只管去吃,同學(xué)從來不忍心讓他付錢。

      “也不覺得苦,當時也沒小孩,物價水平也不高,生活還是沒有太大問題?!睆埲⑿Φ卣f。

      一直到1998年底,課題組申請到新的課題,一切才漸漸恢復(fù)正常。1999年年底,聲學(xué)所被批準進入中科院創(chuàng)新基地后,所領(lǐng)導(dǎo)給予了課題組很大的經(jīng)費、人員和機制的支持,使得課題組人員一度達到20多人。那段時間,課題組科研進展很快,成果出得也多。

      張全說,隨著信息時代的發(fā)展,對自然語言處理技術(shù)的需求將愈來愈多,計算機的功能必將由以簡單的數(shù)值計算為主逐步過渡到以信息知識處理為主。那時,他們的自然語言理解處理技術(shù)將大有可為。

      然而,在培育產(chǎn)業(yè)環(huán)境的同時,他們最為迫切的任務(wù)是完善專業(yè)知識庫,但是因為經(jīng)費不足,這項工作進展一直不太順利。

      财经| 苗栗市| 繁昌县| 都安| 七台河市| 新密市| 洛扎县| 仁寿县| 屯昌县| 张家港市| 东乌| 沙坪坝区| 富宁县| 浦东新区| 新化县| 凌云县| 扎鲁特旗| 菏泽市| 闽侯县| 台南县| 苏尼特右旗| 盐边县| 阿巴嘎旗| 营山县| 平山县| 兴城市| 萍乡市| 金溪县| 兰溪市| 嘉善县| 张北县| 兰州市| 郧西县| 梅河口市| 崇阳县| 泰和县| 绥宁县| 张家界市| 水城县| 马尔康县| 团风县|