王保成
(襄陽職業(yè)技術學院, 湖北 襄陽 441050)
在我們的生活中,數(shù)據(jù)無處不在。尤其是在大數(shù)據(jù)和人工智能飛速發(fā)展的時代,數(shù)據(jù)成為人們關注的重點。比如我們幾乎每天都在使用的淘寶、京東等電商平臺,單位時間產(chǎn)生的數(shù)據(jù)都是不可估量的。還有我們?yōu)g覽各類網(wǎng)站時,后臺也會自動產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)既可以幫助平臺開發(fā)者改變決策,也可以為使用者提供更為便利的信息服務。當你多次瀏覽相似的網(wǎng)頁信息或多次購買同一類商品時,數(shù)據(jù)就會“說話”了,他會在你下次打開網(wǎng)絡時,自動為你提供你所關注的信息。[1]正確認識現(xiàn)實社會中的各類數(shù)據(jù),掌握它們的有效研究方法,可以讓我們的學習、工作、生活更加智慧化。
簡單說來,數(shù)據(jù)就是為了某種應用而收集和轉換的任意字符的集合。數(shù)據(jù)的形式既包括文本、數(shù)字,也包括圖像、語音和視頻等。將數(shù)據(jù)記錄下來,可以幫助我們分析、整理和提取數(shù)據(jù)中蘊含的知識以及規(guī)律。在計算機系統(tǒng)中,所有的數(shù)據(jù)最終都是以二進制的形式來存儲的,即用0或1字符串來表示。
大數(shù)據(jù)(Big Data),它是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征(麥肯錫全球研究所)。
我們生活在一個數(shù)據(jù)爆炸的時代,大數(shù)據(jù)越來越多地出現(xiàn)在我們的生活中并對我們的生活產(chǎn)生諸多影響。大數(shù)據(jù)說到底就是海量數(shù)據(jù)的集合,必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化等技術對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。大數(shù)據(jù)的專業(yè)化處理,是未來數(shù)據(jù)發(fā)展的主要方向,也是智能時代的利器。[2]
存儲在計算機系統(tǒng)中的數(shù)據(jù)一般分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。
結構化數(shù)據(jù)就是指數(shù)據(jù)的結構已經(jīng)定義好,在使用時嚴格按照定義好的結構進行存儲、計算機和管理。最常見的結構化數(shù)據(jù)就是關系型數(shù)據(jù)庫中的二維表,表中的每一行稱為一條數(shù)據(jù)記錄,它包含多個字段,即表中的每一個列數(shù)據(jù)。比如,我們建立一個學生成績數(shù)據(jù)庫,每名學生占一行為一條數(shù)據(jù)記錄,每條記錄都包括4個字段:姓名、班級、成績、名次。見表1。
表1 學生成績數(shù)據(jù)庫
定義好結構后,我們可以往表中存儲三條記錄,分別表示張三、李四、王五等三名同學的學習成績。這樣的一個表格就稱為一個二維表,它是一個典型的結構化數(shù)據(jù)表。
非結構化數(shù)據(jù),是指數(shù)據(jù)結構不規(guī)則或不完整,甚至沒有預定義的數(shù)據(jù)模型。我們的生活和工作中,往往存在大量的非結構化數(shù)據(jù),比如文本、圖像、視頻和語音等,這些非結構化數(shù)據(jù)對我們的生活非常重要。在很多行業(yè)領域里,80%的業(yè)務相關的信息都是來自于非結構化數(shù)據(jù),特別是文本數(shù)據(jù)。[3]圖1展示了近五年非結構化數(shù)據(jù)的增長情況。
圖1 2014-2019年非結構化數(shù)據(jù)增長情況
1.文本數(shù)據(jù)。文本數(shù)據(jù)是非結構化數(shù)據(jù)的一種類型,利用計算機處理文本數(shù)據(jù)是非常關鍵和常見的一項技術,也是一個技術難點。讓計算機理解文本數(shù)據(jù),需要進行編譯,這也是人工智能發(fā)展的一個方向——自然語言處理。文本數(shù)據(jù)要比一般的結構化數(shù)據(jù)占用更多的存儲空間。比如,“hello!”這樣一個簡單的詞語,計算機要用二進制表示出來,會是一長串的0、1字符串,如下所示。
文本數(shù)據(jù):hello!
計算機表示:01001000 01100101 01101100 01101100 01101111 00100001
2. 圖像數(shù)據(jù)。圖像是另一種非結構化數(shù)據(jù)。一般圖像是由很多像素點(分辨率)組成,像素點越多,圖像就越清晰。
假設:數(shù)字8的圖像中,橫排有16個像素點,豎排有22個像素點,一共由16*22個像素點組成。如果圖像是黑白的灰度圖,我們可以用256個等級(0~255)來區(qū)分每個像素點顏色的深淺度,此時我們得到一個矩陣。其實,計算機就是用數(shù)字矩陣的形式來存儲圖像的。如圖2。
圖2 數(shù)字8的數(shù)字矩陣圖
如果圖像是彩色的,顏色種類會更多,處理起來就會比黑白的圖像更加復雜。
3.語音數(shù)據(jù)。語音是第三種非結構化數(shù)據(jù)形式。在計算機中,記錄語音是通過將連續(xù)的聲波進行數(shù)字化來完成的。數(shù)字化的過程包括采樣、量化、編碼等。采樣是第一步,按照一定的時間間隔,對聲音信號的幅值進行一個瞬時的取值。然后進行第二步量化,將瞬時取值得到的信號,按就近原則對應到二進制數(shù)值,這樣就可以把一個模擬的、連續(xù)的聲波信號轉換成一串二進制編碼。
4. 視頻數(shù)據(jù)。第四類非結構化數(shù)據(jù)是視頻,它是由一系列的靜態(tài)影像與聲音組合而成的。視頻按照一定的刷新頻率進行刷新和播放,利用人眼的視覺暫留原理,當播放的速率超過人眨眼的頻率(每秒24幀以上)時,可以給人一種平滑連續(xù)變化的動態(tài)視覺效果。因此,視頻的本質實際上是不斷變化的圖像,可以把它看作是單位時間內聲音的存儲和若干幀圖像的存儲處理,只不過處理視頻需要更強大的存儲和計算能力。
利用科學的方法、過程或算法,從結構化或非結構化的數(shù)據(jù)中提煉知識、洞察規(guī)律,這是讓數(shù)據(jù)智能化“說話”的主要途徑。
借助相關的技術和手段來進行數(shù)據(jù)的收集。數(shù)據(jù)管理環(huán)節(jié)中,通過將收集的數(shù)據(jù)存儲在介質中,來對數(shù)據(jù)進行管理和維護。
通過對數(shù)據(jù)進行有效組織,可以高效地提升數(shù)據(jù)的質量,為后面的分析過程提供更好、更可用的數(shù)據(jù)。
通過對數(shù)據(jù)進行詳細的研究和概括總結,提煉有價值的信息來洞察規(guī)律。數(shù)據(jù)分析是整個數(shù)據(jù)研究過程中最為重要的環(huán)節(jié),它是從數(shù)據(jù)中提取有價值信息的關鍵步驟。
數(shù)據(jù)可視化,就是指運用圖形、圖表等多種有效的可視化方法來展示數(shù)據(jù),以便更清晰明確地傳遞數(shù)據(jù)中所蘊含的價值,也幫助人們更好地理解數(shù)據(jù)。
我們在分析和運用數(shù)據(jù)的過程中,是否會產(chǎn)生數(shù)據(jù)安全問題?是否會侵犯用戶的隱私?我們運用算法得出的一些結論,是否會對某些特定群體產(chǎn)生不公平現(xiàn)象?是否會存在認知上的偏見?這些既是數(shù)據(jù)倫理問題,也是數(shù)據(jù)安全問題,需要有更深入的研究。[4]
對于數(shù)據(jù)的應用,就是通過對數(shù)據(jù)的分析,得出知識、見解、原理,或者是相關關系。這是數(shù)據(jù)智能化的體現(xiàn)。數(shù)據(jù)應用必將對相關行業(yè)領域產(chǎn)生影響,并帶來應用價值。
數(shù)據(jù)分析的主要技術是探索性數(shù)據(jù)分析和機器學習。探索性數(shù)據(jù)分析(Exploratory Data Analy?sis,EDA)是通過探索數(shù)據(jù)的結構和規(guī)律來分析數(shù)據(jù)間關系的一種數(shù)據(jù)分析技術,它注重描述數(shù)據(jù)的真實分布情況,強調對數(shù)據(jù)的可視化呈現(xiàn),以啟發(fā)和幫助數(shù)據(jù)分析者找出數(shù)據(jù)中隱含的規(guī)律。機器學習是近年來發(fā)展非常迅速的一種方法,也是大數(shù)據(jù)時代的重要數(shù)據(jù)分析技術。機器學習利用數(shù)據(jù)來建立模型,進而獲取對信息的理解,發(fā)現(xiàn)其中的規(guī)律。相對于探索性數(shù)據(jù)分析,機器學習被廣泛用于數(shù)據(jù)的預測性分析中。[5]
下文以房價預測運用為例,來說明機器學習這種數(shù)據(jù)分析技術的工作過程。
在房價預測問題中,我們將房屋的面積、布局、建成年代、現(xiàn)知價格等數(shù)據(jù)輸入計算機中,采用某種機器學習算法,通過對這些數(shù)據(jù)進行計算,建立一個房價的預測模型。利用這個模型,當再次輸入房屋面積、布局等相關數(shù)據(jù)時,就可以自動輸出這個房屋的價格。在這個過程中,最關鍵的是預測模型的建立,即要建立一個準確、科學的輸入數(shù)據(jù)與預測房價之間的映射關系。假設預測房價為目標變量y,輸入的數(shù)據(jù)稱為特征變量x,其模型可以表示為:y=f(x),其中x代表房屋建成年代、房屋面積、布局等數(shù)據(jù),f表示特征變量與目標變量之間的映射。如下所示。
在建立這個模型時,機器學習的方法需要將收集到的數(shù)據(jù)集合分為訓練集和測試集兩組。訓練集用來訓練模型,即得出函數(shù)關系y=f(x);測試集用來評估模型的有效性,即我們得出的函數(shù)關系y=f(x)與真實情況相比,準確度有多高。一般情況下,在擁有的數(shù)據(jù)樣本中,我們至少要拿出70%的數(shù)據(jù)樣本來進行模型訓練,再用剩下30%的數(shù)據(jù)樣本來對得出的模型進行測試。
除了房價的預測之外,孩子身高的預測、銀行貸款客戶的信用風險評估、電商客戶消費和購買行為預測等領域,機器學習都有著廣泛的應用。
分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,比如“Hello world!”有兩個單詞,而中文分詞比之英文要復雜得多、困難得多。例如:“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“他被任命為中將”中,“中將”是個詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別?
分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的。因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內容更新的速度。因此對于搜索引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。研究中文分詞的大多是科研院校,中科院、清華、北大、哈工大、北京語言大學、山西大學、東北大學、IBM研究院、微軟中國研究院等都組建了研究團隊。比較好的中文分詞方案有中科院漢語分詞、哈工大分詞器、清華大學THULAC、斯坦福分詞器、Hanlp分詞、結巴分詞工具等等。
NLPIR是中科院張華平博士開發(fā)的中文分詞系統(tǒng),被譽為自然語言處理奠基之作,目前國際、國內測評雙第一。NLPIR分詞系統(tǒng)前身為2000年發(fā)布的ICTCLAS詞法分析系統(tǒng),從2009年開始,調整命名為NLPIR分詞系統(tǒng),推廣NLPIR自然語言處理與信息檢索共享?,F(xiàn)在的NLPIR大數(shù)據(jù)語義分析系統(tǒng)能夠全方位多角度完成對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術鏈條:網(wǎng)絡抓取、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統(tǒng)計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等。