朱麗花 白珍
隨著移動互聯(lián)網(wǎng)、智能手機和各種社交媒體的發(fā)展,圖像慢慢成為互聯(lián)網(wǎng)中的主要信息載體,圖像識別在日常生活中扮演了非常重要的角色。例如,交通運輸方面的車牌自動識別系統(tǒng),公共安全方面的指紋識別技術(shù)、人臉識別技術(shù),農(nóng)業(yè)方面的食品合格檢測技術(shù)、森林里樹木的健康狀況分析技術(shù),醫(yī)學方面的X光片識別技術(shù),商業(yè)方面的掃描二維碼、商品相似款搜索技術(shù),生活娛樂方面的“以圖搜圖”技術(shù)、娛樂監(jiān)管技術(shù)等。此外,在機器人、智能家居、自動駕駛、教育、古玩等行業(yè),圖像識別也有不同程度的應(yīng)用。但是,對課標提到的數(shù)據(jù)與計算的內(nèi)容,不少教師的理解還停留在數(shù)值計算和工具操作層面,很少關(guān)注計算機處理類似于圖像、視頻等非數(shù)值型數(shù)據(jù)的原理和方法,并且普遍存在重實踐輕理論、重操作輕思維的傾向。引導學生探究“人臉識別”背后的技術(shù)原理,體會形成問題解決方案過程中產(chǎn)生的一系列思維活動,有助于學生計算思維的發(fā)展。
如今“刷臉”時代已經(jīng)到來,人臉識別技術(shù)已應(yīng)用到公安、機場、邊防、銀行、電子商務(wù)、單位考勤、安防等多個領(lǐng)域。那么,“人臉識別”是什么?它又是如何工作的呢?人臉識別可描述為給定靜止或動態(tài)圖像,利用已有的人臉數(shù)據(jù)庫來識別圖像中的一個或多個人,因此人臉識別通常也叫做人像識別、面部識別等。人臉識別技術(shù)的工作過程可以概括為信息數(shù)字化、簡約、提取關(guān)鍵特征、自動識別等,具體過程如圖1所示。
信息數(shù)字化。從攝像頭、照片或視頻中采樣,檢測出人臉的存在并確定其具體位置。
簡約。為了保證人臉圖像中人臉大小、位置以及人臉圖像質(zhì)量的一致性,必須對圖像進行簡約和預處理。常用的操作有增強圖像對比度、姿態(tài)矯正、光照補償、尺寸歸一化、銳化等。
提取關(guān)鍵特征。提取出人臉中眼睛、鼻子、嘴巴的距離、傾斜度等關(guān)鍵特征。
自動識別。輸入一個人臉特征,和數(shù)據(jù)庫中對應(yīng)的特征進行逐個比對,找出“一個”與輸入特征相似度較高的特征。將這個較高相似度值和預設(shè)的閾值相比較,如果大于閾值,則返回該特征對應(yīng)的身份,否則返回“不在庫中”。
人臉識別技術(shù)使用到的提取、約簡、數(shù)字化、抽象特征、建立模型、設(shè)計算法、自動處理等要素,都是構(gòu)成計算思維的基本要素。
通過界定問題、抽象特征、建立模型、合理組織數(shù)據(jù)、判斷分析與綜合等一系列計算思維活動,能夠有效探究“人臉識別”背后的技術(shù)。
1.界定問題
界定問題是把復雜的問題分解為具有可操作性的若干個小問題。
“人臉識別”的依據(jù)是什么?人臉識別是利用圖像識別技術(shù),根據(jù)原始圖像的顏色分布、幾何形狀、紋理等視覺特征,來搜索相似的圖像。它的技術(shù)方法有很多種,常用的一種稱為“內(nèi)容特征法”。
計算機中的圖像如何存儲?計算機中的圖像,畫面被劃分成一個個按行、列順序排列的“方格”,這些“方格”稱為“像素”(如圖2)。
2.抽象、提取關(guān)鍵特征
抽象、提取關(guān)鍵特征是從問題出發(fā),排除無關(guān)因素,提取研究對象的重要特征,找到解決問題的關(guān)鍵要素。
我們將原圖轉(zhuǎn)成一張較小的灰度圖像,假定為50×50像素(如圖3)。這一步的作用是去除圖片的細節(jié),只保留結(jié)構(gòu)、明暗等關(guān)鍵信息,摒棄不同尺寸、比例帶來的圖像差異。
我們將灰度圖像進一步轉(zhuǎn)換成黑白圖像(如圖4)。轉(zhuǎn)換時,先要為“黑”和“白”設(shè)定一個恰當?shù)姆纸缰?,稱為“閾值”?;叶刃∮谶@個閾值的像素被確定為“黑”,灰度大于這個閾值的像素被確定為“白”。閾值確定的原則是使黑白圖像的輪廓與原圖盡量一致。
3.建模、構(gòu)造算法
通過關(guān)鍵要素間的邏輯關(guān)系,用形式化的方法來處理邏輯演算,構(gòu)建數(shù)學模型,即將各關(guān)鍵要素的邏輯關(guān)系式通過一定的符號聯(lián)系起來,形成表達推理的形式結(jié)構(gòu)。
我們將黑白圖像中的每個像素用二進制數(shù)0或1表示,0代表黑,1代表白,形成一個50×50的0-1矩陣,稱為“特征矩陣”(如圖5)。
我們將搜索到圖像的特征矩陣與原圖的特征矩陣進行比對,比對方法類似于“漢明距離”算法,即對兩個矩陣中相同位置的二進制數(shù)值進行異或運算,若兩個值相同則運算結(jié)果為0,否則為1。
4.分析數(shù)據(jù),得出結(jié)論
統(tǒng)計運算結(jié)果中1的個數(shù),若1少于一定數(shù)量則認為兩張圖像相似,否則認為不相似。
由此可知,特征矩陣是根據(jù)原始圖像的內(nèi)容決定的。因此,需要對圖像進行預處理,如調(diào)整色相、飽和度、明度、對比度、清晰度以及裁剪、局部加工等,強化圖像的內(nèi)容結(jié)構(gòu),突出圖像特征,提高搜索效率。
5.遷移、拓展延伸
人臉識別技術(shù)可以減少信息泄露,加快通行檢查速度,打擊犯罪等。跟“人臉識別”使用相似技術(shù)原理的有車牌自動識別系統(tǒng)、商品相似款搜索、生物識別、水利資源調(diào)查等(如圖6),這些都屬于圖像識別技術(shù)。
圖像識別技術(shù)是立體視覺、運動分析、數(shù)據(jù)融合等實用技術(shù)的基礎(chǔ),是人工智能的一個重要領(lǐng)域,它已經(jīng)應(yīng)用于我們生活的方方面面,給我們帶來極大便利。圖像識別的發(fā)展經(jīng)歷了三個階段:文字識別、數(shù)字圖像處理與識別、物體識別。此技術(shù)的產(chǎn)生就是為了讓計算機代替人類去處理大量的物理信息,解決人類無法識別或者識別率特別低的信息。
在日常教學中,我們應(yīng)該從最基本的概念、技術(shù)出發(fā),刨根問底,追根溯源,讓學生理解理論從何而來,向何而去,指導學生運用計算思維進行深入思考,幫助他們在分析問題和解決問題的過程中發(fā)展計算思維,提升計算思維能力。