摘要:人工智能在生物技術領域的應用越來越常見,且信息安全也逐漸受到關注。在此種背景下,本文從生物識別技術推動人工智能發(fā)展的觀點入手,研究了人工智能技術在生物信息學中的應用,又分析了信息安全領域中生物識別技術和人工智能融合。
關鍵詞:人工智能;生物技術;信息安全
隨著人工智能的發(fā)展,各行業(yè)系統(tǒng)、機器等的運行越來越智能化,工作也越來越高效和精確。生物技術是利用微生物和動物作為原料,對其進行研究、分析、加工,為人類提供各種有用的技術。隨著人工智能和生物技術的結合,它能夠自動接收、分析和發(fā)送信息,從而極大地提高了信息管理和信息傳遞的能力。
一、生物識別技術推動人工智能發(fā)展
(一)生物識別為人工智能提供大數(shù)據(jù)支撐
人臉識別是一種以面部特征為基礎的一種生物技術,首先要將多張面孔圖像經(jīng)過相機的拍攝,然后預加工、校正、過濾等預處理后,將所得到的圖像特征與所保存的特征模板進行檢索和比對,以確認圖像。相對于其他的生物特征如指紋、虹膜等,它具有采集容易、成本低等優(yōu)點[1]。如果說照相機賦予人工智能視覺,那面部辨識技術賦予人工智能“最強大腦”的能力,讓人工智能擁有了一雙智慧之眼??萍几淖兩睿斯ぶ悄芎兔娌勘孀R技術使人們走上了“刷臉”的道路。例如:在走向一個自助銀行時,攝像機會自動“刷臉”打開大門。如果在ATM機上忘了密碼,就能用ATM機上的相機“刷臉”提款和轉賬。這樣既能方便存款人,又能保證資金安全。世界上具有人臉識別功能的自動取款器在杭州問世,廣州在養(yǎng)老金的身份驗證中采用了面部識別技術。不僅如此,在軌道交通系統(tǒng)中,也將率先采用面部特征的人臉識別技術進行身份鑒別。
(二)生物識別企業(yè)發(fā)力人工智能市場
無論是機械視覺還是生物識別,都是人工智能的范疇,而機器視覺與生物識別的實質就是影像的辨識與對比。而人臉識別,是利用計算機和生物識別技術,實現(xiàn)對人臉進行身份驗證的合理方案。
讓人工智能擁有最強大的頭腦,則是人工智能技術的第一個突破方向。對于生物識別廠商而言,這是一個難得的機遇,很多公司都在主動地進入人工智能領域,或者通過與人工智能公司的聯(lián)合,占據(jù)更大的市場份額。
(三)生物識別技術促進人工智能生態(tài)形成
生物識別技術由于受到各種因素的影響,目前尚未形成規(guī)模,導致其工業(yè)化進程很慢。在智能手機和人工智能等新興行業(yè)中,生物技術的快速發(fā)展給了它巨大的發(fā)展機會。據(jù)了解,目前平安生物識別技術已經(jīng)為100多個應用領域提供了支持,比如深圳社保部門最近發(fā)布的“刷臉”退休金網(wǎng)上驗證系統(tǒng)。深圳航空公司已經(jīng)和平安科技公司建立了一種新的戰(zhàn)略伙伴關系,并且已經(jīng)開始了面部圖像的應用[2]。深度學習對傳統(tǒng)的生物辨識技術的運用產(chǎn)生了革命性的影響。隨著深度學習算法的不斷完善,其精度不斷提高,其技術的發(fā)展也打破原來的局限,逐步向更廣泛的方向發(fā)展。而基于深度學習的計算機技術的發(fā)展也為生物辨識系統(tǒng)的發(fā)展和應用奠定了堅實的基礎。
二、人工智能技術在生物信息學中的應用
(一)文本分析技術在生物信息學中的應用
1.蛋白質折疊識別
蛋白質的折疊是指能夠正確地從大量的蛋白質中提取出特定的三維立體結構,這是目前的一個重要研究領域。在蛋白質一級序列中,常用字母來表達標準型的氨基酸,而其順序則是通過文字文檔將其存儲到相應的資料庫中。目前全球最大的蛋白質順序數(shù)據(jù)庫是美國國家生化技術信息中心NR,即非基因工程數(shù)據(jù)庫。NR的數(shù)據(jù)倉庫和普通的MySQL數(shù)據(jù)庫完全不同,它采用了fasta的形式,且信息量非常大,可以將大量的數(shù)據(jù)分析方法用于蛋白質序列分析工作。
2.應用原理
當前,蛋白質從折疊識別開始,可以將蛋白質的全部順序涵蓋,直至建立起三維空間,而傳統(tǒng)的研究方式則多采用“穿線法”(Threading),以目標序列為“針”在蛋白質的立體空間中穿行,并對其進行精確的分析。而在蛋白質的折疊狀態(tài)中,它的理論應用是基于在不完全相同的前提下,它的空間構造也具有類似的作用,這就說明了蛋白質具有較強的同源性。在生物學的發(fā)展過程中,為了確保自身的基因結構能夠維持自身的完整,那么基因的結構就必須維持自身的穩(wěn)定性,而基因的序列卻會受到各種變異的影響。這種特征可以用一個具有較多的保守性的蛋白質的構造來表示。在蛋白的折疊中,文字的解析是非常關鍵的。當前科學研究領域提倡一種以文字為基礎、以機器學習為輔助手段的研究新思路。在使用此技術時,利用文字解析來實現(xiàn)信息查詢的功能,當一個蛋白質的層次結構被明確查詢時,針對一個折疊蛋白的目標,就是將包含概率的固定的模板,按照順序和結構關系進行分類。本文的研究是從整體的觀點出發(fā)進行的一種策略,可以說是利用與搜索引擎有關的方法,來達到對蛋白質的有效的翻轉。同時,將蛋白的特性矢量(作為設計的參量)引入到機器學習中,可以對蛋白質的序列進行描述,并對其結構相似度進行解析。
3.文本存儲
盡管通過3D圖像可以實現(xiàn)蛋白質結構的展示,但真正的蛋白質結構的儲存工作是以文字形式進行的,并且以PDB形式將其保存在有關的計算機或資料庫中。目前PDB的數(shù)據(jù)庫中,包含了160,000多個大分子的數(shù)據(jù),其中大部分都是與蛋白質的結構有關的文檔。正是由于利用文字來儲存蛋白質的檔案,使得文字的解析對于特定的蛋白質結構進行研究,包含但不局限于從數(shù)據(jù)庫中提取資訊、充分地分析數(shù)據(jù)、篩選蛋白的選擇等等。
4.蛋白質分類
從外觀和使用的作用上,可以把整個機體的蛋白質分為纖維蛋白、球蛋白、膜蛋白三大類別。在蛋白質中,膜蛋白是一種比較特別的物質,其二次構造的預測精度不高。主要的成因在于,由于膜蛋白質處于生物膜的內(nèi)部,因此跨膜區(qū)與非跨膜區(qū)的膜蛋白質,不論其現(xiàn)實的差別,或其特定的作用均有很大差別。因此,膜蛋白與球蛋白的生物化學性質是截然不同的。準確獲取跨膜區(qū)及非跨膜區(qū)的膜蛋白質的信息,有助于準確地評價膜蛋白質的生物活性。顯然,針對細胞膜蛋白質的二級構造進行預測,是未來的一個主要發(fā)展趨勢。
(二)Docker技術在生物信息學中的應用
1.技術優(yōu)勢
Docker不但擁有開放的資訊,而且能夠在應用中確保其安全性和可靠性,因此對于生物資訊科學的實際使用很有意義。首先,是跨平臺支持。隨著生物信息學的不斷發(fā)展,各種信息資料以幾何倍數(shù)的速度增加,270多種開放源代碼的技術都被用于了生物學領域。但是,很多實用的工具,都是由C++、Python等多種編程語言來實現(xiàn),每一門語言都有自己獨特的應用場景和配置。Docker可以在任何情況下,為用戶在各種場合下的應用程序和性能提供最好的支持。其次,是集成服務器。它要做大量的數(shù)據(jù)分析,比如序列比對、基因組注釋等等,并不需要太多的數(shù)據(jù)存儲和維護。由于不清楚特定的資源效應,使得很多獨立的研究機構很難利用現(xiàn)有的序列信息,從而增加了對基因的研究的困難。Docker可以將所有的計算資源都集中起來,并且靈活地進行擴展,在最少的開銷下,將所有的硬件都發(fā)揮到極致。最后是高效開發(fā)。在進行數(shù)據(jù)分析時,不管是輸入還是輸出,都需要龐大的數(shù)據(jù)處理能力,這就造成了很多測試數(shù)據(jù)都是GB級的,而省里和國家的研究,往往也是GB級的,這就造成了很多問題的重復和修改,這就造成了很多應用程序的重復。不過Docker可以在一個地方的計算機上生成幾十個存儲數(shù)據(jù)和 Docker的鏡像,這樣就可以有效地進行在線仿真練習。另外,開放源碼社群還為你的鏡像提供了許多的調試工具,可以讓你的鏡像變得更好,同時也可以降低對你的需求。此外,就是有效地使用各種資源,在生物信息領域,高通量的測序儀所能提供的信息遠遠超出了摩爾定律的極限,而二次世代的基因序列技術,雖然比前一代的基因序列要多出幾百到一千倍。Docker可以讓啟動速度達到秒級,并具備更好的運算速度,這樣就可以專注于數(shù)據(jù)的解析,節(jié)省了大部分的生產(chǎn)過程,減少系統(tǒng)的負荷并提升整個應用的效率。
2.分析工具
Docker可以將大量的實用儀器和相關的數(shù)據(jù)資料打包到一個沒有任何重復的鏡像中,為分析者創(chuàng)造了一個方便的環(huán)境。NanoOK是以BLASR、BWA等技術組成的,它的作用是進行多個序列的對比和序列的匹配,而其具體作用是利用大基因組進行全面的對比,從而進行更加全面的多基因比對。而SBMLDock,將被試的對象作為數(shù)據(jù)模型,將各個模型的結構進行比較,從而實現(xiàn)對各個模塊的識別和解釋,以及從數(shù)據(jù)中抽取出相應的數(shù)據(jù),從而實現(xiàn)對生物的系統(tǒng)的分析。FloweatchR則是利用EBImage技術,將細胞的影像以微觀形態(tài)進行提取,并進行分析,以此來判斷細胞在被探測到的過程中的真正位置,以及細胞受到外界刺激時的運動,最終得到細胞的運動軌跡。利用大量的數(shù)據(jù),在標準的輸入和輸出過程中,實現(xiàn)了系統(tǒng)的參數(shù)管理,同時還可以讓不同的分析工具使用相同的界面,大大減少了以前的軟件部署的困難,提高了系統(tǒng)的分析速度,也解決了以前的資源分享問題。更有代表性的是SBMLDock可以用SBML的形式來編寫對數(shù)的資料。
3.分析流程
Docker能夠將各種技術的軟件組合起來,并將它們組合成一個完整的鏡像,使技術工作者能夠在使用過程中維持同樣的執(zhí)行準則。另外,根據(jù)特定的分析過程來制造Docker的影像,也可以作為生物資訊的一個應用結果。比如,將Illumina HiSeq數(shù)據(jù)平臺提供序列化的數(shù)據(jù),就可以為Docker的鏡像進行數(shù)據(jù)傳送、實現(xiàn)Docker的實際操作,以及將諸如FastQC等各種工具的鏡像進行包裝。此外,還可以進行基因工程的研究,進行基因的評價和比較,篩選出最有參考意義的基因,供今后的試驗選用。利用Tophat2的工具,可以完成RNA的全部解析,并將其作為一種數(shù)據(jù),儲存在適當?shù)膬Υ嫜b置中,SAKE會對基因的變化進行全方位的檢測,提高分析的速度,而BLAST可以將測試的目標設定為不特定的RNA。利用Docker的方法,可以減少許多耗費計算機的工作量,減少復雜的數(shù)據(jù)處理,使其在重復使用上獲得了廣泛的支持。利用Galaxy的數(shù)據(jù)處理系統(tǒng),利用SADI的前端,以及從視覺上的角度,對Docker進行了分析,從而實現(xiàn)了對UniProt數(shù)據(jù)庫的高效率的存取和精確的數(shù)據(jù)檢索,對數(shù)據(jù)的有效統(tǒng)計,以及對問題的及時跟蹤,確保了對程序的快速反應,提高了檢測的品質,更方便地使用。
三、信息安全領域中生物識別技術和人工智能融合
(一)以人臉識別為基礎的生物識別技術算法分析
從人臉識別的整個過程來看,圖像預處理是最重要的一步,因為在人臉的識別過程中,影像的品質會直接關系到人臉的檢測和對比度[3]。而當人臉是由攝像機拍下的時候,得到的影像會受到一系列的因素的干擾,從而導致影像與原始物體之間的差別很大,難以進行有效的辨識。在大部分的圖像前處理中,通常采用的是灰度化和直方圖均衡以及圖像濾波去噪聲等。在進行圖像處理時,最常見的是RGB格式,由于光照等原因,RGB彩色模式必須采用RGB模式。直方圖平衡是通過增強圖像的區(qū)域對比性,通過直方圖的幫助,使得圖像的亮度均勻分配,增強了局部的對比性,而不會對整個圖像的反差產(chǎn)生任何的影響。在進行了預處理之后,要對臉部特征進行有效的抽取,其中包含了哈爾特征、LBP特征和Gabor特征。只有在對人臉進行預處理和面部特性的描述之后,才能對目標進行有效的人臉識別。利用電腦技術對影像資料進行加工,并采用辨識技術進行有效辨識,并與資料庫中的資料進行比較,以實現(xiàn)辨識。
(二)在金融信息安全領域的應用
在世界范圍內(nèi),我們國家的外匯市場在國際上占有舉足輕重的地位,地位僅次于美國。在美國,以信用卡為主導的國內(nèi)金融業(yè)務中,移動電話付款占有很大比重[4]。為了保證財務信息的安全,美國大部分的金融業(yè)都采用了人臉識別和指紋識別等生物識別技術[4]。
(三)在個人身份信息安全認證中的應用
由于美國的許多機場都采用了生物辨識技術,因此在很多機場都采用了這種個人身份信息安全認證技術。在國內(nèi),人們普遍采用了生物技術進行個人身份信息的安全性驗證,并在最近幾年中收到了顯著的效果[5]。
(四)在門禁系統(tǒng)中的應用
對于高級別的組織而言,他們的保密措施對于保證機密和關鍵信息的安全起著非常關鍵的作用,所以近年來各大組織紛紛采用了生物識別技術,以防止信息泄露和其他潛在的危險。在身份驗證中,采用了人臉、指紋、虹膜、語音等多種身份驗證,從而確保了身份的安全。
(五)智能終端設備與生物識別技術的聯(lián)合應用
近幾年,隨著科技的發(fā)展,智能手機越來越受到大眾的歡迎,而在目前的科技發(fā)展中,通過與生物技術相結合的方式,可以通過指紋和面部的技術來完成。在2018年,生物辨識技術在手機上的使用量已達到了50%以上,其中大部分都用于解鎖手機,解密隱私文件,手機的密碼認證。
(六)在智能化場景中的應用
在信息安全方面,將其與人工智能技術結合起來,可以避免信息丟失和泄露,從而更好地保護信息的安全,二者結合已被廣泛地用于許多智能化的場合。比如,現(xiàn)在許多車輛在開關啟動、車鎖應用和監(jiān)控上都采用了生物辨識技術和人工智能技術[6]。
四、結束語
當前生物技術和人工智能技術在信息安全行業(yè)中的應用越來越廣泛,在今后的發(fā)展中,它的市場將會越來越大,發(fā)展方向也會逐漸多樣化。因此人工智能在生物技術領域的實際應用,是未來各行業(yè)發(fā)展與研究的重點。
作者單位:趙心慧 華中師范大學
參? 考? 文? 獻
[1]唐代興. 基因工程和人工智能:人類向后人類演進的不可逆風險與危機[J]. 江海學刊,2020(03):111-117.
[2]李懷勝. 濫用個人生物識別信息的刑事制裁思路——以人工智能“深度偽造”為例[J]. 政法論壇,2020,38(04):144-154.
[3]張昌盛. 人工智能、缸中之腦與虛擬人生——對元宇宙問題的跨學科研究[J]. 重慶理工大學學報(社會科學),2021,35(12):52-63.
[4]周禎,閆超,張辰宇. 人工智能生物學——生物學3.0[J]. 中國科學:生命科學,2022,52(03):291-300.
[5]韓水法. 人工智能時代的人文主義[J]. 中國社會科學,2019(06):25-44,204-205.
[7]孟琪. 人工智能時代個人信息的法律保護[D].北京交通大學,2021.
趙心慧(2002.06-),女,漢族,山東德州,華中師范大學2020級生命科學學院在校大三學生。