高宏旭 曹大軍
摘 要:文章重點(diǎn)探討了人工智能中數(shù)據(jù)集的分類、獲取與處理方法。從人工智能的概念、本質(zhì)與要素出發(fā),深入闡述了數(shù)據(jù)集對人工智能的重要意義,按照研究領(lǐng)域?qū)?shù)據(jù)集進(jìn)行分類,以圖像數(shù)據(jù)集為例討論數(shù)據(jù)集的獲取方法,對若干典型圖形數(shù)據(jù)集進(jìn)行分析、總結(jié),進(jìn)而闡述數(shù)據(jù)集處理方法。其中,詳細(xì)介紹了數(shù)據(jù)標(biāo)記方法,以期為即將從事人工智能研究的人員提供方法指引與技術(shù)方案。
關(guān)鍵詞:人工智能;數(shù)據(jù)集;分類;處理
人工智能(Artificial Intelligence,AI)是研究、開發(fā)能夠模擬和擴(kuò)展人類智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門全新技術(shù)科學(xué)[1]。AI的本質(zhì)是對人類智能的模擬與擴(kuò)展,賦予機(jī)器人類的思考能力。自20世紀(jì)50年代開始,AI依次經(jīng)歷了符號處理、字符號法、統(tǒng)計(jì)學(xué)法、集成方法等發(fā)展階段,已經(jīng)從單一智能系統(tǒng)模擬進(jìn)入到混合智能研究階段。AI的研究領(lǐng)域包括:語音識別、圖像識別、自然語言處理、專家系統(tǒng)、仿生設(shè)備等,其理論和技術(shù)日益成熟,應(yīng)用范圍不斷擴(kuò)大。未來,AI帶來的科技產(chǎn)品將會是人類智慧的“容器”。
從技術(shù)方案看,AI對給定數(shù)據(jù)集進(jìn)行訓(xùn)練,形成研究對象的模型輸出。算法、算力、數(shù)據(jù)是AI的三大要素[2]。(1)算法是核心,是指導(dǎo)數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練并形成模型輸出的方法,本質(zhì)是程序化的機(jī)器學(xué)習(xí)方法,可分為監(jiān)督式學(xué)習(xí)算法和非監(jiān)督式學(xué)習(xí)算法;目前,很多學(xué)習(xí)算法已經(jīng)開源,訓(xùn)練其中的關(guān)鍵參數(shù)即可獲得研究對象的AI學(xué)習(xí)算法。(2)算力為動力,包含GPU在內(nèi)的各種高速計(jì)算機(jī)、服務(wù)器等設(shè)備,或者某些通用大數(shù)據(jù)平臺,成為AI算力的首選。(3)數(shù)據(jù)是燃料,其數(shù)量和質(zhì)量直接影響AI算法的最終訓(xùn)練結(jié)果。只有有針對性地選擇適合相關(guān)研究領(lǐng)域的數(shù)據(jù),形成有效的訓(xùn)練數(shù)據(jù)集合,才能達(dá)到理想的訓(xùn)練結(jié)果。
數(shù)據(jù)集對人工智能的實(shí)現(xiàn)具有重要意義,為人工智能學(xué)習(xí)算法訓(xùn)練提供數(shù)據(jù)采集、標(biāo)注等服務(wù),已經(jīng)成為近年來人工智能研究的熱點(diǎn)之一。本文著重介紹人工智能中數(shù)據(jù)集的分類、獲取與處理方法,為工程應(yīng)用提供技術(shù)指導(dǎo)。
1 ? ?數(shù)據(jù)集的分類與獲取
根據(jù)研究領(lǐng)域的不同,AI涉及的數(shù)據(jù)集(見圖1)大致可以分為3類:語音數(shù)據(jù)集、圖像數(shù)據(jù)集、文字?jǐn)?shù)據(jù)集[3]。其中,面向智能語音處理領(lǐng)域的數(shù)據(jù)集合統(tǒng)稱為語音數(shù)據(jù)集,面向圖像識別領(lǐng)域的數(shù)據(jù)集合統(tǒng)稱為圖像數(shù)據(jù)集,面向文字識別等領(lǐng)域所選擇的為文字?jǐn)?shù)據(jù)集。
在實(shí)際研究中,對于某類數(shù)據(jù)集可以依據(jù)研究場景進(jìn)行細(xì)化分解。例如,圖像數(shù)據(jù)集可以細(xì)分為場景數(shù)據(jù)集、行人檢測數(shù)據(jù)集、人臉圖像數(shù)據(jù)集、交通工具數(shù)據(jù)集等[4]。圖像數(shù)據(jù)集可以自行通過傳感設(shè)備采集相關(guān)信息后構(gòu)建,或者通過網(wǎng)絡(luò)搜索工具下載后構(gòu)建,亦可以從已建立的各類數(shù)據(jù)庫獲取部分信息后構(gòu)建且更為便利。下面介紹幾種常見的圖像數(shù)據(jù)集。
1.1 ?場景數(shù)據(jù)集
(1)比較出色的場景數(shù)據(jù)集是LSUN Dataset,由加州大學(xué)伯克利分校于2015年發(fā)布,提供10個場景類別和20個類別,共計(jì)約100萬張標(biāo)記圖像,以閃電式內(nèi)存映射數(shù)據(jù)庫(Lightning Memory-Mapped Database,LMDB)格式存儲,涵蓋家居、教室、會議室等多種場景。
(2)比較優(yōu)秀的場景數(shù)據(jù)集是UC Merced Land-Use Dataset,由UC Merced計(jì)算機(jī)視覺實(shí)驗(yàn)室于2010年發(fā)布。UC Merced Land-Use Dataset包含21類場景,每一類場景含100張圖像數(shù)據(jù)。
此外,WHU-RS19 Dataset提供19類場景的圖像數(shù)據(jù)信息,每一類約含50張圖像;SIRI-WHU Dataset包含12類場景,每一類場景含200張圖像;RSC11 Dataset包含11類場景,每一類場景含100張圖像;AID Dataset包含30類場景,每一類場景包含220~420張圖像數(shù)據(jù)。不同場景數(shù)據(jù)集提供的圖像資源比較如圖2所示。
1.2 ?行人檢測數(shù)據(jù)集
行人檢測數(shù)據(jù)集比較典型的有:加州理工學(xué)院(California Institute of Technology)的Caltech行人數(shù)據(jù)庫、麻省理工學(xué)院(Massachusetts Institute of Technology)的MIT行人數(shù)據(jù)庫、南加利福尼亞大學(xué)(University of Southern California)的USC行人數(shù)據(jù)庫、戴姆勒行人檢測標(biāo)準(zhǔn)數(shù)據(jù)庫、INRIA行人數(shù)據(jù)庫[4-5]等,其中包含的行人數(shù)據(jù)集情況如圖3所示。
(1)Caltech行人數(shù)據(jù)庫,是目前規(guī)模較大的行人數(shù)據(jù)庫,采用車載攝像頭拍攝,以30幀/秒的速度記錄了約10 h左右的行人視頻,圖像分辨率為640×480。其中,對137 min視頻約250 000幀圖像進(jìn)行了標(biāo)注,使用了350 000個矩形框,標(biāo)注了2 300個行人。
(2)MIT行人數(shù)據(jù)庫:包含924張行人圖片,所有拍攝圖片只含正面和背面兩個視角,每張圖片中行人肩到腳的距離約80像素,圖片分辨率為64*128;無負(fù)樣本,未區(qū)分訓(xùn)練集和測試集。
(3)USC行人數(shù)據(jù)庫:包含根據(jù)拍攝角度和行人重疊與否劃分的3組數(shù)據(jù)集,分別命名為USC-A,USC-B和USC-C。其中,USC-A包含來自網(wǎng)絡(luò)的205張圖片,記錄了313個正面或背面視角拍攝的站立行人,行人間相互無遮擋;USC-B包含來自CAVIAR視頻庫的54張圖片,記錄了271個多角度行人,行人間存在相互遮擋;USC-C包含來自網(wǎng)絡(luò)的100張圖片,記錄了232個多角度行人,行人間相互無遮擋。該數(shù)據(jù)庫采用可擴(kuò)展標(biāo)記語言(eXtensible Markup Language,XML)存儲圖片標(biāo)注信息。
(4)INRIA行人數(shù)據(jù)庫,是目前應(yīng)用最廣泛的一類靜態(tài)行人數(shù)據(jù)庫,分為訓(xùn)練集、測試集兩部分。其中,訓(xùn)練集包含正樣本614張,記錄了2 416個站立行人,負(fù)樣本1 218張;測試集包含正樣本288張,記錄了1 126個站立行人,負(fù)樣本453張。圖片主要來源于網(wǎng)絡(luò),可用OpenCV讀取和顯示。
1.3 ?人臉數(shù)據(jù)集
比較典型的有哥倫比亞大學(xué)公眾人物臉部數(shù)據(jù)庫、香港中文大學(xué)的大型人臉識別數(shù)據(jù)集、Multi-Task Facial Landmark (MTFL) Dataset,BioID Face Database - FaceDB,Labeled Faces in the Wild Home (LFW) Dataset等[6],如圖4所示。其中,MTFL Dataset從互聯(lián)網(wǎng)上收集了12 995張人臉照片;BioID Face Database-FaceDB包含1 521張人臉灰度照片;LFW Dataset包含超過13 000張多角度人臉圖像。3種數(shù)據(jù)集的基礎(chǔ)數(shù)據(jù)均來源于網(wǎng)絡(luò)。
為促進(jìn)人臉識別算法的研究和實(shí)用化,美國國防部發(fā)起一項(xiàng)人臉識別技術(shù)(Face Recognition Technology,F(xiàn)ERET)項(xiàng)目,通過采集1 000多位不同年齡志愿者的不同表情、光照、姿態(tài)的照片,構(gòu)建了包含10 000多張面部圖像照片的通用人臉數(shù)據(jù)庫,并開發(fā)了通用的人臉識別測試標(biāo)準(zhǔn),以提升人臉識別的精度。
2 ? ?數(shù)據(jù)集的處理方法
AI數(shù)據(jù)處理又稱為AI基礎(chǔ)數(shù)據(jù)服務(wù),包括:數(shù)據(jù)采集、數(shù)據(jù)清洗、信息抽取、數(shù)據(jù)標(biāo)注。數(shù)據(jù)采集即獲取數(shù)據(jù)集;數(shù)據(jù)清洗(Data Cleaning,DC)是指對數(shù)據(jù)重新審查和校驗(yàn)的過程,包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等[7];信息抽?。↖nformation Extraction,IE)是從數(shù)據(jù)集中提取有用信息并按照一定結(jié)構(gòu)形成規(guī)范化表征的過程,例如變?yōu)樾畔⒈砀?數(shù)據(jù)標(biāo)注(Data Annotation,DA)是借助標(biāo)記工具對數(shù)據(jù)集中的某些數(shù)據(jù)進(jìn)行標(biāo)記處理的一種行為,包括圖像標(biāo)注、語音標(biāo)注、文本標(biāo)注、視頻標(biāo)注等種類,標(biāo)記的基本形式有標(biāo)注畫框、3D畫框、文本轉(zhuǎn)錄、圖像打點(diǎn)、目標(biāo)物體輪廓線等。數(shù)據(jù)標(biāo)注是影響算法訓(xùn)練的重要環(huán)節(jié),成為近年來AI研究的熱點(diǎn)之一。目前,對數(shù)據(jù)集中數(shù)據(jù)進(jìn)行標(biāo)注處理的方法有兩種:
(1)通過網(wǎng)絡(luò)購買標(biāo)注服務(wù),由第三方平臺按要求進(jìn)行數(shù)據(jù)標(biāo)注;
(2)自行采用標(biāo)注工具對數(shù)據(jù)集進(jìn)行處理,打上合適的標(biāo)簽。
目前,比較常用的圖形圖像標(biāo)注工具為LabelImg[8]。該工具為Python語言編寫,在github相關(guān)網(wǎng)站下可以找到該工具h(yuǎn)ttps://github.com/tzutalin/labelImg,其產(chǎn)生的注釋以PASCAL VOC格式存儲的XML文件,被ImageNet數(shù)據(jù)集采用;LabelImg亦支持YOLO格式存儲。
另一種圖形圖像標(biāo)注工具Vatic(Video Annotation Tool from Irvine,California)源自MIT的一個研究項(xiàng)目,支持輸入視頻自動抽取成粒度合適的標(biāo)注任務(wù),并在流程上支持接入亞馬遜的眾包平臺Mechanical Turk。Vatic具有很多實(shí)用特性:第一,簡潔的GUI界面,支持多種快捷鍵操作;第二,基于Opencv的Tracking進(jìn)行抽樣標(biāo)注,減少工作量。具體使用時,設(shè)定要標(biāo)注的物體名稱,比如:人臉、行人、車等,然后指派任務(wù)給眾包平臺。
Yolo_mark工具對圖像標(biāo)注,主要應(yīng)用于使用YOLO V3或V2的算法。此外,還有微軟發(fā)布的VOTT圖像標(biāo)注工具等。
3 ? ?結(jié)語
本文主要討論了AI的數(shù)據(jù)集分類、獲取及處理方法。隨著人工智能的深入發(fā)展,算法及算力已不是制約人工智能發(fā)展的主要因素,數(shù)據(jù)集的收集、處理同樣重要,為了快速促進(jìn)訓(xùn)練模型的形成,研究者可以考慮使用開源的數(shù)據(jù)集或者對數(shù)據(jù)進(jìn)行自我采集,并通過圖像標(biāo)注工具,將采集的數(shù)據(jù)轉(zhuǎn)換為合格的數(shù)據(jù)集,便于后續(xù)工作的進(jìn)一步開展。
[參考文獻(xiàn)]
[1]周芃池.人工智能在生物醫(yī)療中的發(fā)展應(yīng)用及前景思考[J].低碳世界,2018(2):320-321.
[2]上海艾瑞市場咨詢有限公司.中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書(2019年)[R].上海:上海艾瑞市場咨詢有限公司,2019:268-310.
[3]周旺,張晨麟,吳建鑫.一種基于Hartigan-Wong和Lloyd的定性平衡聚類算法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2016(5):37-44.
[4]屈鑒銘.智能視頻監(jiān)控中的運(yùn)動目標(biāo)檢測與跟蹤技術(shù)研究[D].西安:西安電子科技大學(xué),2015.
[5]張金慧.基于多尺度方法的行人檢測與跟蹤算法研究[D].成都:西南科技大學(xué),2018.
[6]張翠平,蘇光大.人臉識別技術(shù)綜述[J].中國圖象圖形學(xué)報(bào)(A輯),2000(11):885-894.
[7]陳畇燚.校園網(wǎng)絡(luò)行為與流量預(yù)測分析研究[D].長沙:湖南大學(xué),2014.
[8]顧廣華,韓晰瑛,陳春霞,等.圖像場景語義分類研究進(jìn)展綜述[J].系統(tǒng)工程與電子技術(shù),2016(4):936-948.
作者簡介:高宏旭(1979— ),吉林兆南人,工程師;研究方向:人工智能,系統(tǒng)架構(gòu)設(shè)計(jì)。