□鄭茹楠 王亮(新鄉(xiāng)水文水資源勘測(cè)局)
深度學(xué)習(xí)在水文工作中的應(yīng)用探討
□鄭茹楠 王亮(新鄉(xiāng)水文水資源勘測(cè)局)
深度學(xué)習(xí)作為人工智能的主要分支,是一種利用大數(shù)據(jù)進(jìn)行訓(xùn)練,不斷地通過(guò)正反饋來(lái)優(yōu)化結(jié)果的方法。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)以及數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)??梢哉f(shuō),數(shù)據(jù)就是未來(lái)的石油,而深度學(xué)習(xí)等方法就是開(kāi)采石油的工具。水文工作每年都會(huì)采集到大量的數(shù)據(jù),能否更好的利用這些數(shù)據(jù),使水文工作更加高效,為社會(huì)產(chǎn)生更多的價(jià)值,文章從應(yīng)用層面做出了一些探討。
人工智能;水文信息化;水文預(yù)報(bào);水文資料整編
隨著國(guó)務(wù)院下發(fā)《新一代人工智能發(fā)展規(guī)劃》,人工智能正式上升為國(guó)家戰(zhàn)略。在這個(gè)數(shù)據(jù)時(shí)代的大浪潮里,數(shù)據(jù)成了衡量一個(gè)組織財(cái)富的標(biāo)準(zhǔn),但只有數(shù)據(jù)還是沒(méi)法發(fā)揮它應(yīng)有的價(jià)值,只有通過(guò)數(shù)據(jù)挖掘,才能變數(shù)據(jù)為黃金。
深度學(xué)習(xí)和機(jī)器學(xué)習(xí)類(lèi)似,是一種基于概率論不斷遞歸,從而尋找最優(yōu)解的分析方法,它在搜索技術(shù)、數(shù)據(jù)挖掘、機(jī)器翻譯、自然語(yǔ)言處理、人臉識(shí)別、語(yǔ)音、推薦和自動(dòng)駕駛,以及其它相關(guān)領(lǐng)域都取得了很多成果。由于算法和計(jì)算能力的突破,以及數(shù)據(jù)量的暴增,深度學(xué)習(xí)已經(jīng)成為了人工智能領(lǐng)域最主要的實(shí)現(xiàn)方法,這里的數(shù)據(jù)不僅僅只是數(shù)字,還包括圖像和聲音等。
水文站網(wǎng)近年來(lái)通過(guò)開(kāi)展水位、雨量、墑情等自動(dòng)監(jiān)測(cè),安裝了大量的儀器,加上歷史記錄的資料,已經(jīng)產(chǎn)生了海量的數(shù)據(jù)庫(kù)。通過(guò)分析處理這些數(shù)據(jù),可以為水文信息化和社會(huì)經(jīng)濟(jì)發(fā)展提供強(qiáng)有力的技術(shù)支撐,凸顯“大水文”的發(fā)展理念,取得社會(huì)效益和經(jīng)濟(jì)效益。
水文系統(tǒng)下屬有水文站和委托觀測(cè)雨量站,這些委托站數(shù)量眾多,而且有些地處偏僻,無(wú)法經(jīng)常去檢查。自記雨量器需要按時(shí)清洗和維護(hù),如果承水口堵塞或沒(méi)有清洗干凈,會(huì)造成雨量數(shù)據(jù)不能準(zhǔn)確傳遞的問(wèn)題。
采用深度學(xué)習(xí)的方法,可以安排當(dāng)?shù)赜^測(cè)人員,按時(shí)用手機(jī)對(duì)雨量器進(jìn)行拍照,包括承水口、集水斗、濾網(wǎng),以及雨量器外觀等。通過(guò)安裝GPS拍照軟件,照片會(huì)帶有拍照時(shí)的經(jīng)緯度和時(shí)間信息,之后把圖片發(fā)給服務(wù)器。在終端對(duì)圖片進(jìn)行處理,對(duì)那些沒(méi)有清洗干凈的圖片做出標(biāo)記。經(jīng)過(guò)算法對(duì)這些大量帶有標(biāo)記圖片的學(xué)習(xí),可以訓(xùn)練出一個(gè)模型,使用該模型可以自動(dòng)準(zhǔn)確區(qū)分出那些沒(méi)清洗干凈的雨量器圖片,并通過(guò)經(jīng)緯度顯示站點(diǎn)信息。
在水文資料整編工作中,要把大量手寫(xiě)的數(shù)據(jù)錄入電腦,包括降雨量、水位等。這樣重復(fù)性的工作可以通過(guò)拍照或手持式掃描儀來(lái)將這些手寫(xiě)數(shù)據(jù)變成圖片,然后經(jīng)過(guò)深度學(xué)習(xí)的方法,識(shí)別出這些圖片并生成數(shù)據(jù)輸入電腦。這樣整編人員就可以在此基礎(chǔ)上提高效率,只需要校對(duì)這些數(shù)據(jù)即可。
水文工作大多使用網(wǎng)格圖紙記錄水文曲線。然而紙質(zhì)材料由于保存不當(dāng)?shù)仍驎?huì)造成損壞、污染等問(wèn)題,容易對(duì)所承載的信息造成損失,且紙質(zhì)材料不易于信息的交換和傳遞,更可能埋沒(méi)了海量信息中可能隱藏的、有待發(fā)掘的知識(shí)。因此有必要對(duì)這些紙質(zhì)資料進(jìn)行數(shù)字化。利用圖像處理的方式將這些信息采集并建立數(shù)據(jù)庫(kù),將避免大量的手工重復(fù)勞動(dòng),也能高效精準(zhǔn)的對(duì)這些信息進(jìn)行錄入。
水文預(yù)報(bào)是防汛工作的前提,也是水庫(kù)調(diào)度興利的重要手段,相關(guān)的模型方法有很多,反映了水文學(xué)的一些規(guī)律,但由于人類(lèi)對(duì)流域水文氣象規(guī)律認(rèn)識(shí)有限,自然界規(guī)律又復(fù)雜變化,所以難以全面反映客觀規(guī)律。
深度學(xué)習(xí)方法經(jīng)過(guò)這些年的發(fā)展,從簡(jiǎn)單的線性網(wǎng)絡(luò)到CNN,再到RNN和現(xiàn)在的GAN,經(jīng)過(guò)了幾次迭代。目前在水文預(yù)報(bào)領(lǐng)域,存在著隨機(jī)森林、聚類(lèi)、貝葉斯分析、SVM等機(jī)器學(xué)習(xí)方法,這些方法從挖掘歷史水文數(shù)據(jù)入手,建立水文模型,從而提高預(yù)報(bào)的準(zhǔn)確度。
然而傳統(tǒng)機(jī)器學(xué)習(xí)的方法,在數(shù)據(jù)量較小時(shí)比較有效果,但當(dāng)遇到海量數(shù)據(jù),該方法就會(huì)進(jìn)入一個(gè)平臺(tái),再怎么優(yōu)化也提高不了。深度學(xué)習(xí)就是針對(duì)這種情況,只要建立合適的模型,數(shù)據(jù)量越大它的結(jié)果越好。當(dāng)歷史數(shù)據(jù)豐富的時(shí)候,就可以將數(shù)據(jù)之間的物理關(guān)系用統(tǒng)計(jì)關(guān)系表達(dá)出來(lái),不需要物理模型那么多嚴(yán)格的分布參數(shù)來(lái)描述流域的下墊面情況。
水文預(yù)報(bào)可以看作是動(dòng)態(tài)物質(zhì)在固態(tài)路線上流動(dòng)的問(wèn)題,同樣的例子還有交通疏導(dǎo)、電網(wǎng)的改善等等,都可以運(yùn)用這種基于馬爾科夫鏈的解決方法。杭州開(kāi)展的智慧城市工程,就是通過(guò)讓攝像頭和紅綠燈連接起來(lái),收集實(shí)時(shí)的數(shù)據(jù),用機(jī)器智能算出哪里會(huì)堵車(chē),哪里有救護(hù)車(chē)幾點(diǎn)幾分要到下一個(gè)路口,能夠自動(dòng)分配紅綠燈的變化,改善交通擁堵,以及增加挽救生命概率。
但這種方法進(jìn)行水文預(yù)報(bào)也有一些不足,當(dāng)歷史數(shù)據(jù)不足或流域狀況改變導(dǎo)致歷史數(shù)據(jù)的模擬意義下降時(shí),就會(huì)減少它的適用性。
水質(zhì)指標(biāo)是是用于評(píng)價(jià)一般淡水水域特征的重要參數(shù)??梢愿鶕?jù)這些參數(shù)對(duì)水質(zhì)的類(lèi)型進(jìn)行分類(lèi),對(duì)水體質(zhì)量進(jìn)行判斷和綜合評(píng)價(jià)。傳統(tǒng)的現(xiàn)場(chǎng)取樣,需要耗費(fèi)人力物力,還要使用化學(xué)滴定等方法獲取數(shù)據(jù),存在速度慢、容易混淆水樣的麻煩。
水質(zhì)在線自動(dòng)監(jiān)測(cè)系統(tǒng)是一個(gè)以在線分析儀表為服務(wù)目標(biāo),以提供具有代表性、及時(shí)性和可靠性的樣品信息為核心任務(wù),運(yùn)用自動(dòng)控制技術(shù)、計(jì)算機(jī)技術(shù)并配以專(zhuān)業(yè)軟件,組成一個(gè)從取樣、預(yù)處理、分析到數(shù)據(jù)處理及存貯的完整系統(tǒng),從而實(shí)現(xiàn)對(duì)樣品的在線自動(dòng)監(jiān)測(cè)??梢员O(jiān)測(cè)水溫、溶解氧、PH值、濁度等,并可傳回現(xiàn)場(chǎng)圖像。這些實(shí)時(shí)性數(shù)據(jù)經(jīng)過(guò)算法的訓(xùn)練,能夠自動(dòng)鑒別出水質(zhì)情況并做出分類(lèi)。
NLP自然語(yǔ)言處理是一門(mén)研究如何讓機(jī)器理解人類(lèi)語(yǔ)言、寫(xiě)出人類(lèi)文字的學(xué)科?;谶f歸神經(jīng)網(wǎng)絡(luò)的NLP模型,只需要喂給它大量的文字段落,它就會(huì)用遞歸神經(jīng)網(wǎng)絡(luò)分析段落,尋找出字與字之間的關(guān)系。
目前深度學(xué)習(xí)的方法對(duì)于文學(xué)類(lèi)文章還沒(méi)法做到很好的生成,但對(duì)于固定格式的內(nèi)容,可以做到自動(dòng)生成。今天美國(guó)很多媒體的財(cái)經(jīng)新聞,尤其是對(duì)公司財(cái)報(bào)的評(píng)述,其實(shí)已經(jīng)是計(jì)算機(jī)產(chǎn)生的了。計(jì)算機(jī)根據(jù)很多過(guò)去已有的文章,訓(xùn)練出相關(guān)的模板,然后每次從最新的信息中讀取數(shù)據(jù),合成一篇文章。當(dāng)然,這樣合成的文章讀起來(lái)未免生硬,在發(fā)表前還是要經(jīng)過(guò)潤(rùn)色處理。
水資源公報(bào)每年都要做,而且內(nèi)容格式大體變化不大,那么利用每年收集到的水文數(shù)據(jù)就可以自動(dòng)生成水資源公報(bào)等內(nèi)容。
數(shù)據(jù)要利用就要保證數(shù)據(jù)的共享,和數(shù)據(jù)格式的統(tǒng)一,不同部門(mén)的數(shù)據(jù)通過(guò)共享,能夠產(chǎn)生1+1>2的作用,這就是數(shù)據(jù)的平臺(tái)化。這方面可以舉個(gè)例子,比如共享單車(chē),通過(guò)跟蹤它們的運(yùn)動(dòng)軌跡,能夠得出從某個(gè)小區(qū)到某個(gè)地點(diǎn)騎車(chē)的人多的數(shù)據(jù),這些數(shù)據(jù)不單單可以用來(lái)改進(jìn)單車(chē)的運(yùn)營(yíng),還可以讓公交公司拿去改進(jìn)他們的路線。
機(jī)器智能和傳統(tǒng)的編程方法有著根本性的不同。過(guò)去的方法是通過(guò)原理找方法,從而得到結(jié)果,這是因果關(guān)系。但深度學(xué)習(xí)是先給出一個(gè)結(jié)果,然后從結(jié)果出發(fā)去找方法,這是相關(guān)性,新的方法產(chǎn)生新的思維方式。影響世界的變量太多以至于無(wú)法用數(shù)學(xué)模型來(lái)描述,機(jī)械論已經(jīng)無(wú)法對(duì)未來(lái)進(jìn)行預(yù)測(cè)。用不確定的眼光看世界,再用信息來(lái)消除這種不確定性,是大數(shù)據(jù)解決智能問(wèn)題的本質(zhì)。
香農(nóng)的“信息熵”將世界的不確定性和信息聯(lián)系在了一起。這個(gè)建立在不確定性上的理論,正是今天人類(lèi)研究大數(shù)據(jù)和機(jī)器智能的基石。
人工智能是新一代技術(shù)革命的焦點(diǎn),它并不是用機(jī)器來(lái)取代人,而是用機(jī)器來(lái)輔助人,去做人做不到的事情。從歷史上看,每一輪科技革命和產(chǎn)業(yè)變革都會(huì)引起國(guó)家間、企業(yè)間綜合實(shí)力的此消彼長(zhǎng),找準(zhǔn)發(fā)力點(diǎn),才能下好先手棋。
近年來(lái),歐美等國(guó)家的學(xué)者將傳統(tǒng)水文學(xué)和人工智能相結(jié)合,誕生了一門(mén)新的學(xué)科—水信息學(xué)。隨著科技的進(jìn)步,數(shù)據(jù)量的增長(zhǎng)、智能算法的發(fā)展和水文學(xué)科的進(jìn)一步完善,深度學(xué)習(xí)等數(shù)據(jù)挖掘技術(shù)會(huì)更多地應(yīng)用于水文領(lǐng)域。
[1]張弛.數(shù)據(jù)挖掘技術(shù)在水文預(yù)報(bào)與水庫(kù)調(diào)度中的應(yīng)用研究[D].大連:大連理工大學(xué),2006(3).
P338+.9
A
1673-8853(2017)11-0029-02
2017-9-28
編輯:劉青