• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動(dòng)作識(shí)別方法

      2023-09-15 20:39:06何宗霖楊觀賜羅可欣
      貴州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年5期
      關(guān)鍵詞:特征融合

      何宗霖 楊觀賜 羅可欣

      摘 要:阿爾茲海默癥發(fā)病早期癥狀不明顯,被確診時(shí)往往已步入中晚期。為了通過日?;顒?dòng)的視頻監(jiān)控提早識(shí)別阿爾茲海默癥,提出了基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動(dòng)作識(shí)別方法(premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks, STADP )。首先,從阿爾茲海默癥對(duì)人體機(jī)能的負(fù)面影響角度出發(fā),基于醫(yī)學(xué)研究成果定義了日常活動(dòng)中的阿爾茲海默癥先兆動(dòng)作,構(gòu)建了阿爾茲海默癥先兆動(dòng)作數(shù)據(jù)集(Alzheimers disease premonitory action dataset, ADP),給出了基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法;其次,將基于三維卷積模型的空間特征提取模塊與基于Transformer模型的時(shí)間特征提取模塊結(jié)構(gòu)相融合,設(shè)計(jì)了時(shí)空雙流網(wǎng)絡(luò)以捕捉阿爾茲海默先兆動(dòng)作的特征,從而形成了STADP算法;最后,對(duì)不同特征融合權(quán)重的模型性能進(jìn)行比較,獲得了STADP的最優(yōu)工作參數(shù)。與2種模型的對(duì)比實(shí)驗(yàn)結(jié)果表明:STADP的平均識(shí)別準(zhǔn)確率、精確度、召回率以及F1值均優(yōu)于比較算法,分別為83.21%、84.61%、83.14%和82.14%。本研究將為日常活動(dòng)數(shù)據(jù)驅(qū)動(dòng)的阿爾茲海默癥先兆動(dòng)作智能感知提供方法與實(shí)現(xiàn)手段。

      關(guān)鍵詞:阿爾茲海默癥;動(dòng)作識(shí)別;雙流網(wǎng)絡(luò);特征融合;日?;顒?dòng)

      中圖分類號(hào):TP18

      文獻(xiàn)標(biāo)志碼:A

      阿爾茲海默癥(Alzheimers disease, AD)是一種進(jìn)行性神經(jīng)系統(tǒng)變性病,發(fā)病早期癥狀不明顯[1]。由于迄今為止沒有任何有效藥物或治療可以逆轉(zhuǎn)AD的進(jìn)程,因此提早發(fā)現(xiàn)和干預(yù)勝過治療。令人感到鼓舞的是計(jì)算機(jī)輔助技術(shù)、人工智能技術(shù)的發(fā)展為神經(jīng)病理學(xué)診斷和病癥早期預(yù)防開辟了新的道路。當(dāng)前,運(yùn)用人工智能技術(shù)輔助診斷AD患者,其數(shù)據(jù)集來源主要分為3類:1)基于專業(yè)儀器采集的醫(yī)學(xué)數(shù)據(jù)[2-3];2)基于AD神經(jīng)心理測(cè)試采集的臨床數(shù)據(jù)[4-6];3)從日常生活中采集的數(shù)據(jù)[7-10]?;趯I(yè)儀器采集的數(shù)據(jù)具有測(cè)定準(zhǔn)確、較為權(quán)威的特點(diǎn),是醫(yī)生診斷AD的最重要的依據(jù)。AD神經(jīng)心理測(cè)試中的測(cè)試項(xiàng)目來源于長(zhǎng)期對(duì)大量AD患者的觀察,進(jìn)而總結(jié)出某些普遍規(guī)律,最終形成測(cè)試方案,是醫(yī)生做出診斷的重要依據(jù)。然而,上述兩種數(shù)據(jù)采集方式不僅需要專業(yè)人員來執(zhí)行,而且需要長(zhǎng)時(shí)間的采集過程。與之相對(duì)的是,從日常生活中采集的數(shù)據(jù)能夠依托長(zhǎng)期的個(gè)人行為監(jiān)控,實(shí)現(xiàn)AD的輔助診斷和提早發(fā)現(xiàn)。

      從日常生活中采集的數(shù)據(jù)又可以分為:1)視覺傳感器獲得的視頻數(shù)據(jù)[11-12];2)聲音傳感器獲得的言語數(shù)據(jù)[13-14];3)其他傳感器(如:加速度計(jì)、人體傳感器等)獲得的單一或多模態(tài)數(shù)據(jù)[10]。其中,視覺傳感器具有用戶容易接受、采集處理數(shù)據(jù)方便的特點(diǎn),更適用于采集日常生活中潛在患者的動(dòng)作數(shù)據(jù)。進(jìn)一步,針對(duì)該數(shù)據(jù)基于視覺的深度學(xué)習(xí)算法可以通過識(shí)別潛在患者的日常行為[15],找到反應(yīng)阿爾茲海默癥對(duì)人體機(jī)能產(chǎn)生負(fù)面影響的阿爾茲海默癥先兆動(dòng)作(例如阿爾茲海默癥會(huì)導(dǎo)致人體記憶力下降,反映在生活中,患者更容易做飯時(shí)多次放鹽或未放鹽),從而實(shí)現(xiàn)AD的早期干預(yù)。

      圍繞AD對(duì)人體機(jī)能的負(fù)面影響,利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)AD的輔助診療,學(xué)界已經(jīng)做出了許多有益的嘗試。針對(duì)AD導(dǎo)致的記憶力的衰弱,Lussier等[7]通過對(duì)比正常人和阿爾茲海默癥患者的日常活動(dòng)行為,發(fā)現(xiàn)阿爾茲海默癥患者在冰箱、櫥柜前經(jīng)常出現(xiàn)非正常的停頓。研究AD對(duì)人體行動(dòng)能力的影響中,Bringas等[10]發(fā)現(xiàn)AD患者在日?;顒?dòng)中存在動(dòng)作的中斷,因此引入加速度計(jì)監(jiān)測(cè)患者的日?;顒?dòng)數(shù)據(jù),實(shí)現(xiàn)了通過深度學(xué)習(xí)模型判定AD患者的患病階段。針對(duì)AD患者的認(rèn)知能力情況測(cè)試,Negin等[12]提出了一種Praxis測(cè)試,根據(jù)醫(yī)學(xué)的29個(gè)特定手勢(shì),提出了一個(gè)深度學(xué)習(xí)框架,通過學(xué)習(xí)患者與正常人的手勢(shì)區(qū)別,判斷用戶是否發(fā)生了阿爾茲海默癥病變。

      綜上所述,AD對(duì)人體產(chǎn)生的傷害主要有以下多種表現(xiàn)形式:?jiǎn)适榫w管理能力、記憶力下降、認(rèn)知能力不足、行動(dòng)能力衰弱等,而這些表現(xiàn)形式都可以通過識(shí)別潛在患者的日常行為中的阿爾茲海默癥先兆動(dòng)作加以認(rèn)知。因此,本文基于醫(yī)學(xué)研究找到了反應(yīng)人體機(jī)能衰退的阿爾茲海默癥先兆動(dòng)作并構(gòu)建了數(shù)據(jù)集。同時(shí),為了提高阿爾茲海默癥先兆動(dòng)作的識(shí)別能力,通過融合視頻的空間維度特征和時(shí)間維度特征,提出了基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動(dòng)作識(shí)別方法。

      1 阿爾茲海默癥先兆動(dòng)作數(shù)據(jù)集的構(gòu)建

      由上述對(duì)阿爾茲海默癥患者進(jìn)行輔助診療的相關(guān)研究可知,現(xiàn)有的阿爾茲海默癥數(shù)據(jù)集存在諸多問題。一方面,這些數(shù)據(jù)集事先設(shè)定了阿爾茲海默癥的異常行為可能發(fā)生的具體場(chǎng)景,人為設(shè)計(jì)了一系列需要潛在患者逐項(xiàng)完成的動(dòng)作,獲得了類似于阿爾茲海默癥臨床測(cè)試的視頻數(shù)據(jù),但此類數(shù)據(jù)集并不能反映受測(cè)者的真實(shí)情況;另一方面,部分?jǐn)?shù)據(jù)集利用多類型的傳感器長(zhǎng)期監(jiān)測(cè)受測(cè)對(duì)象的日?;顒?dòng),這種“飽和式”監(jiān)測(cè)會(huì)產(chǎn)生大量冗余數(shù)據(jù),甚至是對(duì)阿爾茲海默癥識(shí)別做出相反判斷的沖突數(shù)據(jù),反而對(duì)阿爾茲海默癥早期預(yù)防產(chǎn)生負(fù)面影響。針對(duì)上述情況,本文從現(xiàn)有醫(yī)學(xué)研究所揭示的阿爾茲海默癥先兆動(dòng)作出發(fā),采集日?;顒?dòng)的視頻數(shù)據(jù)并通過關(guān)鍵幀技術(shù)處理視頻,構(gòu)造了阿爾茲海默癥先兆動(dòng)作數(shù)據(jù)集(Alzheimers disease premonitory action dataset, ADP),進(jìn)而識(shí)別潛在患者日常生活中的異常動(dòng)作,為AD早期診斷提供支撐。

      發(fā)表在期刊《ALZHEIMERS & DEMENTIA》上的研究[16]建議在AD的早期輕度認(rèn)知障礙時(shí)期的臨床檢查中應(yīng)引入記憶力方面的檢查,同時(shí)該研究舉了兩個(gè)記憶力檢查的例子,AD患者容易記憶不清物品擺放的位置以及忘記近期才做過的行為?;谠撗芯勘疚倪x取了日常生活中翻箱倒柜地尋找東西rs、炒菜時(shí)重復(fù)放鹽as、出門后返回檢查門是否上鎖cl這3個(gè)典型動(dòng)作作為反應(yīng)人體記憶力機(jī)能下降的阿爾茲海默癥先兆動(dòng)作。

      癡呆的行為和精神癥狀(behavioral and psychological symptoms of dementia, BPSD)是阿爾茲海默癥患者的一組異質(zhì)性非認(rèn)知癥狀和行為,研究表明,BPSD在AD患病過程中影響了高達(dá)90%患者。文獻(xiàn)[17]歸納了BPSD影響人群中常見的一些情緒,例如焦慮、高興、易激惹、傷心、冷漠等?;谠撗芯?,本文選取了日常生活中哭泣c(diǎn)r、大笑la、吸煙so、自言自語to、生氣地踢開或推開東西kp以及情緒失控動(dòng)手打人hp這些典型動(dòng)作作為反應(yīng)人體情緒管理機(jī)能下降的阿爾茲海默癥先兆動(dòng)作。

      日常生活能力評(píng)定量表(activity of daily living scale, ADL Scale)是由美國(guó)心理學(xué)家勞頓(M. P. Lawton)等于1969年編制的用于評(píng)定個(gè)體日常生活能力的經(jīng)典評(píng)量表,在AD神經(jīng)心理學(xué)測(cè)驗(yàn)中常作為評(píng)定患者日常生活功能損害程度的權(quán)威測(cè)試[18]。該量表內(nèi)容有兩部分:一是軀體生活自理能力量表,即測(cè)定患者照顧自己生活的能力,本文中選取了吃東西et、喝飲料dr、咀嚼食物ch、吹干頭發(fā)bl、刷牙bt、梳頭br、爬樓梯cs、摔倒fd這些典型動(dòng)作作為反應(yīng)人體自理機(jī)能下降的阿爾茲海默癥先兆動(dòng)作;二是工具使用能力量表,即測(cè)定患者使用日常生活工具的能力,本文中選取了攪拌食物mi、切菜cv、拖地mf這3個(gè)典型動(dòng)作作為反應(yīng)人體工具使用機(jī)能下降的阿爾茲海默癥先兆動(dòng)作。

      能夠表征AD對(duì)人體機(jī)能負(fù)面影響的20種阿爾茲海默癥先兆動(dòng)作如表1所示,視頻數(shù)據(jù)來源包括:從互聯(lián)網(wǎng)獲取,對(duì)現(xiàn)有數(shù)據(jù)集(HMDB-51、UCF-101)的篩選以及基于課題組搭建的智能家居環(huán)境自主拍攝。其中,翻箱倒柜地尋找東西rs,出門后返回檢查門是否上鎖cl,生氣地踢開或推開東西kp這3類動(dòng)作在公開文獻(xiàn)中沒有符合要求的數(shù)據(jù),因此組織了20個(gè)志愿者分別拍攝了這3類動(dòng)作,每類動(dòng)作每人在相同的背景下拍攝120個(gè)視頻樣本,每個(gè)動(dòng)作樣本時(shí)長(zhǎng)1~5 s。

      阿爾茲海默癥先兆動(dòng)作數(shù)據(jù)采集涉及的智能家居環(huán)境和視覺傳感器如圖1所示。20名志愿者身材不一(體重在55~75 kg),身高范圍在1.60~1.85 m之間,符合日常生活中大部分人的身材比例,年齡在19~40歲之間,符合阿爾茲海默癥早期癥狀出現(xiàn)的時(shí)間。

      最終獲得的ADP數(shù)據(jù)集有20個(gè)動(dòng)作類別共2 301個(gè)視頻總計(jì)317 553幀,平均每個(gè)視頻超過138幀。由于所采集的動(dòng)作均為原子動(dòng)作(無法被進(jìn)一步分解為多個(gè)動(dòng)作的最小動(dòng)作),完全可以用更少的幀表示動(dòng)作的完整過程,因此為了減少視頻信息冗余的同時(shí)保留視頻主要內(nèi)容,本文構(gòu)建了基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法,其步驟如算法1所示。

      算法1 基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法

      輸入:采集的視頻數(shù)據(jù)Dv。

      輸出:ADP數(shù)據(jù)集Dk

      Step 1 利用OpenCV將視頻數(shù)據(jù)Dv中的視頻進(jìn)行幀切分,并將幀fi的尺寸初始化為(3,340,240)。

      Step 2 構(gòu)建視頻數(shù)據(jù)Dv中每一幀的兩種特征空間fa、fc和關(guān)鍵幀獲取模型Rm。

      Step 2.1 利用多種圖像特征描述符(包括顏色直方圖、圖像熵、灰度共生矩陣等)為視頻數(shù)據(jù)Dv的每一幀fi構(gòu)建起表征視頻幀圖像屬性的特征空間fa

      Step 2.2 利用幀間距離特征為視頻數(shù)據(jù)Dv的每一幀fi構(gòu)建起表征視頻幀之前距離差距的特征空間fc。

      Step 2.3 通過特征空間fa和fc構(gòu)建了基于特征交叉注意力機(jī)制的關(guān)鍵幀獲取模型Rm。

      Step 3 構(gòu)建關(guān)鍵幀基準(zhǔn)kt,并將其作為用于Rm模型訓(xùn)練的真實(shí)值。

      Step 3.1 利用混合高斯模型實(shí)現(xiàn)視頻每一幀背景差分fg的計(jì)算。

      Step 3.2 利用聚類算法從由fg組成的集群中獲得其聚類中心。該聚類中心即為視頻幀的代表和關(guān)鍵幀基準(zhǔn)kt。

      Step 4 將數(shù)據(jù)Dv的特征fa、fc輸入推薦模型Rm以kt為真實(shí)值訓(xùn)練模型,并最終通過模型Rm輸出關(guān)鍵幀集合K。

      Step 5 利用數(shù)據(jù)增廣技術(shù)擴(kuò)充關(guān)鍵幀集合K,最終構(gòu)成ADP數(shù)據(jù)集Dk

      Step 5.1 將關(guān)鍵幀集合K的每一幀圖像fj隨機(jī)裁剪兩次,獲得兩幀大小為(3,240,240)的圖像,并壓縮至大?。?,224,224)。

      Step 5.2 將壓縮后的圖像通過水平翻轉(zhuǎn)和上下翻轉(zhuǎn)使關(guān)鍵幀集合K的大小擴(kuò)充為最初始的4倍,最終形成了ADP數(shù)據(jù)集Dk。

      需要說明的是,在步驟2.3中,基于特征交叉注意力機(jī)制的關(guān)鍵幀獲取模型Rm可以表示為

      youtput=dnn(yattention

      其中,ycross表示特征空間fa與fc中的特征向量mi與nj兩兩相乘并以隱向量矩陣wij為系數(shù)構(gòu)建的交叉特征;aij為交叉特征經(jīng)過單層全連接網(wǎng)絡(luò)計(jì)算獲得的注意力分?jǐn)?shù),Wmlp和bmlp為單層全連接網(wǎng)絡(luò)的權(quán)重和偏置矩陣;yattention為每種交叉特征結(jié)合注意力分?jǐn)?shù)的結(jié)果;youtput為經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)dnn(.)獲得的概率值。

      在步驟3.2中,聚類中心數(shù)量為視頻幀數(shù)量的25%。在步驟5中運(yùn)用隨即裁剪和翻轉(zhuǎn)這兩種數(shù)據(jù)增廣方法實(shí)現(xiàn)擴(kuò)充數(shù)據(jù)集的目的。

      最終,通過基于關(guān)鍵幀的視頻數(shù)據(jù)處理算法,將每類動(dòng)作的視頻幀的數(shù)量壓縮為原始數(shù)據(jù)的25%,但每個(gè)視頻至少保留16幀,獲得了每個(gè)視頻平均37幀數(shù)據(jù)壓縮率為26.8%的ADP數(shù)據(jù)集。

      2 基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動(dòng)作識(shí)別算法

      我們注意到雙流網(wǎng)絡(luò)在視頻動(dòng)作識(shí)別任務(wù)中取得了較好的效果,該網(wǎng)絡(luò)的主要特點(diǎn)在于存在兩個(gè)通路分別處理動(dòng)作姿態(tài)信息和動(dòng)作變化信息。雙流網(wǎng)絡(luò)的一條通路主要關(guān)注視頻隨時(shí)間變化較小的動(dòng)作姿態(tài)語義信息(例如:顏色、紋理、人物等),而另一條通路則尋找視頻隨時(shí)間變化劇烈的運(yùn)動(dòng)語義信息。通過上述兩路對(duì)一段視頻的“動(dòng)”與“靜”或者說“空間”與“時(shí)間”兩個(gè)維度語義信息的提取,雙流網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)視頻內(nèi)容的準(zhǔn)確識(shí)別。受此啟發(fā),為了融合阿爾茲海默癥早期行為的空間維度特征、時(shí)間維度特征,提高動(dòng)作識(shí)別的能力,提出基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥早期行為識(shí)別算法(premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks, STADP)(見圖2)。

      圖2是基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動(dòng)作識(shí)別算法的總體架構(gòu)。輸入模塊從視頻流中截取所需要的幀并將獲得的幀片段整合為不同維度的特征向量;中間模塊使用所設(shè)計(jì)的時(shí)空雙流網(wǎng)絡(luò)提取特征,其中空間特征提取模塊將視頻視為相互獨(dú)立的幀,通過三維卷積獲取視頻中第一幀的動(dòng)作姿態(tài)特征,時(shí)間特征提取模塊則將視頻視為按時(shí)間排列的幀序列,通過Transformer模型提取視頻中隨時(shí)間變化而變化的動(dòng)態(tài)特征;輸出模塊根據(jù)上述兩種特征融合獲得的特征向量輸出動(dòng)作類別、動(dòng)作時(shí)間序列和動(dòng)作質(zhì)量。

      1)STADP算法流程

      基于時(shí)空雙流網(wǎng)絡(luò)的視頻動(dòng)作識(shí)別算法的詳細(xì)流程如算法2所示。需要說明的是,步驟8中的特征融合公式為

      Ffusion=αFs+(1-α)Ft

      其中,α表示特征融合權(quán)重系數(shù),用于平衡空間特征和時(shí)間特征的權(quán)重。后文給出了不同特征融合權(quán)重下模型性能的實(shí)驗(yàn)結(jié)果。

      算法2 基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥先兆動(dòng)作識(shí)別算法

      輸入:視頻流Vf,時(shí)空雙流網(wǎng)絡(luò)Nst(空間特征提取模塊Ms,時(shí)間特征提取模塊Mt)。

      輸出:視頻流識(shí)別結(jié)果Aresult。

      Step 1 加載模型Nst并置時(shí)間序列位置T=?,Aresult=?,動(dòng)作質(zhì)量Qa=?。

      Step 2 讀取t=T+1秒視頻流 if 幀速率fv>24 f/s else 讀取t=math.ceil(fv/24)秒視頻流。

      Step 3 從讀取的視頻流中隨機(jī)且連續(xù)的截取16幀,設(shè)該片段的時(shí)間序列為T+=t。

      Step 4 將16幀圖像表示為三維特征向量Vt=(16*3,224,224)。

      Step 5 將16幀圖像表示為四維特征向量Vs=(3,16,224,224)。

      Step 6 將特征向量Vs=(3,16,224,224)輸入空間特征提取模塊Ms,計(jì)算獲得空間特征Fs。

      Step 7 將特征向量Vt=(16*3,224,224)輸入時(shí)間特征提取模塊Mt,計(jì)算獲得時(shí)間特征Ft

      Step 8 融合空間特征Fs與時(shí)間特征Ft輸出融合特征Ffusion。

      Step 9 將Ffusion輸入至softmax()獲得視頻動(dòng)作類別概率分布Ap,輸出動(dòng)作類別Aresult。

      Step 10 若max(Ap)>0.7,置Qa=high;否則置Qa=low。

      Step 11 輸出(T,Aresult, Qa)。

      2)時(shí)空雙流網(wǎng)絡(luò)結(jié)構(gòu)

      由于原子動(dòng)作持續(xù)時(shí)間短,因此對(duì)視頻每一幀的全部特征信息的深度提取對(duì)準(zhǔn)確識(shí)別動(dòng)作具有重要意義。為了捕捉圖像空間和時(shí)間維度上的細(xì)節(jié)特征,將三維卷積網(wǎng)絡(luò)與Transformer模型結(jié)構(gòu)相結(jié)合,設(shè)計(jì)了時(shí)空雙流網(wǎng)絡(luò)(spatiotemporal two-stream network, ST2SN),圖3是其模型結(jié)構(gòu)。

      ST2SN模型由空間特征提取模塊、時(shí)間特征提取模塊構(gòu)成。

      (1)空間特征提取模塊

      空間特征提取模塊由6個(gè)三維卷積特征提取單元和1個(gè)全連接網(wǎng)絡(luò)單元組成??臻g特征提取模塊的輸入特征向量Sin可以表示為

      Sin=(b,c,f,w,h)

      其中,b表示1個(gè)批次內(nèi)樣本的數(shù)量;(c,f,w,h)表示1個(gè)樣本包含f幀c個(gè)通道、寬高尺寸為(w,h)的圖像。

      空間特征提取模塊進(jìn)行特征提取時(shí),三維卷積特征提取單元的卷積核Ks= (fs,ws,hs)在(f,w,h)三個(gè)維度上滑動(dòng),但由于卷積核的深度大小fss幀的信息,于是特征主要集中于圖像特征即視頻的空間特征。

      三維卷積特征提取單元包括三維卷積層C和三維池化層P,輸入向量(cin,fin,win,hin)經(jīng)過三維卷積層C獲得輸出向量(cout,fout,wout,hout)的計(jì)算公式為

      其中,Ks= (fs,ws,hs)表示卷積核的尺寸,p表示填充值,s表示滑動(dòng)步長(zhǎng);k表示一次卷積操作中掃描過的幀的數(shù)量。

      同理,輸入向量(cin,fin,win,hin)經(jīng)過三維池化層P獲得輸出向量(cout,fout,wout,hout)的計(jì)算公式為

      其中,|_._|表示向上取整。

      經(jīng)三維卷積提取單元提取空間特征后獲得的特征向量xin輸入全連接網(wǎng)絡(luò)單元獲得輸出yout的過程可以表示為

      yout=Wl(…σ(W0xin+b0)…)+bl

      其中,l表示全連接網(wǎng)絡(luò)單元中全連接層的數(shù)量;σ(.)表示激活函數(shù)ReLU;Wi和bj為各全連接層的權(quán)重和偏置矩陣。

      (2)時(shí)間特征提取模塊

      時(shí)間特征提取模塊由分塊單元、Transformer 編碼器單元以及全連接網(wǎng)絡(luò)單元構(gòu)建。時(shí)間特征提取模塊的總體輸入特征向量Tin可以表示為

      Tin=(b,c*f,w,h)

      其中,b表示1個(gè)批次內(nèi)樣本的數(shù)量;(c*f,w,h)表示單個(gè)樣本是通道大小為c*f、寬高尺寸為(w,h)的三維向量。

      時(shí)間特征提取模塊將幀圖像沿深度按順序排列。當(dāng)分塊單元進(jìn)行特征提取時(shí),卷積核Ks= (ws,hs)在(w,h)兩個(gè)維度上滑動(dòng),由于卷積核的深度大小為c*f,因此空間特征提取模塊能獲得全部幀的信息,于是特征主要集中于運(yùn)動(dòng)變化特征即視頻時(shí)間特征。

      分塊單元可以表示為

      Pembed=conv2d(c*f,v,Ks=Ps=(ws,hs))

      其中,v表示得到的每1個(gè)小塊展開后特征向量的維度;conv2d(.)表示利用2D卷積同時(shí)實(shí)現(xiàn)分塊和塊編碼;Ks=Ps= (ws,hs)表示卷積核的尺寸與分塊的尺寸相同。

      分塊單元為圖3中時(shí)間特征提取模塊的分塊和塊編碼兩個(gè)步驟。編碼器單元和全連接網(wǎng)絡(luò)單元與VIT[19]模型的相對(duì)應(yīng)模塊完全相同,在此不再贅述。

      3 測(cè)試與分析

      實(shí)驗(yàn)所用的軟硬件平臺(tái)如表2所示。

      3.1 不同特征融合系數(shù)的模型性能分析

      特征融合公式為

      Ffusion=αFs+(1-α)Ft

      其中,α為特征融合系數(shù);Fs為空間特征;Ft為時(shí)間特征。劃定 α的取值集合為{0.3,0.35,…,0.65,0.7}。對(duì)于每1個(gè)α的取值,基于ADP數(shù)據(jù)集將本文提出的時(shí)空雙流網(wǎng)絡(luò)的空間特征模塊和時(shí)間特征模塊進(jìn)行加權(quán)平均融合,對(duì)得到的融合模型進(jìn)行訓(xùn)練與測(cè)試。實(shí)驗(yàn)參數(shù)設(shè)置如下。

      訓(xùn)練循環(huán)2 000輪,批處理參數(shù)為8,采用Adam為模型優(yōu)化器,損失計(jì)算公式為CrossEntropyLoss,初始學(xué)習(xí)率設(shè)為0.001,學(xué)習(xí)率的L2正則系數(shù)為5e-4,學(xué)習(xí)率衰減公式為L(zhǎng)ambdaLR,衰減系數(shù)為 0.000 1。實(shí)驗(yàn)中將ADP數(shù)據(jù)集以7∶1∶2進(jìn)行隨機(jī)劃分,獲得訓(xùn)練集、測(cè)試集和驗(yàn)證集。實(shí)驗(yàn)測(cè)試結(jié)果如表3所示。

      當(dāng)α=0.7時(shí),時(shí)空特征融合方法的準(zhǔn)確率方差最小,識(shí)別準(zhǔn)確率均值為80.33%,排在所有α取值情況下平均準(zhǔn)確率的最后一位;當(dāng)α=0.35時(shí),融合方法的識(shí)別準(zhǔn)確率均值最高,準(zhǔn)確率方差為2.949。研究發(fā)現(xiàn),α=0.35時(shí),融合方法的識(shí)別兼顧識(shí)別的效果與穩(wěn)定性,性能最優(yōu)。因此,下文的比較分析中α取值0.35。

      3.2 比較結(jié)果與分析

      3.2.1 對(duì)比模型、測(cè)評(píng)指標(biāo)及實(shí)驗(yàn)設(shè)置

      為了評(píng)價(jià)所提STADP對(duì)阿爾茲海默癥先兆動(dòng)作的識(shí)別性能,選擇C3D[17]和VIT[19]作為比較基準(zhǔn)。

      采用識(shí)別準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)以及F1值(F1score)4個(gè)性能指標(biāo)評(píng)估模型識(shí)別阿爾茲海默癥先兆動(dòng)作的效果。

      對(duì)比實(shí)驗(yàn)的參數(shù)設(shè)置如表4所示。

      3.2.2 實(shí)驗(yàn)結(jié)果與分析

      基于構(gòu)建的ADP數(shù)據(jù)集和3.2.1設(shè)定的對(duì)比實(shí)驗(yàn)的參數(shù),對(duì)各模型進(jìn)行訓(xùn)練與測(cè)試,3種模型的識(shí)別精度、準(zhǔn)確率、召回率以及F1值的平均值和方差統(tǒng)計(jì)結(jié)果如表5所示,各指標(biāo)統(tǒng)計(jì)結(jié)果的盒圖如圖4所示。

      觀察圖4和表5的數(shù)據(jù)可得:

      1)在平均識(shí)別準(zhǔn)確率方面,本文提出的STADP方法比其他2種比較模型分別提高了3.33%、6.74%。同時(shí),圖4(a)表明STADP在總體上的識(shí)別準(zhǔn)確率明顯最優(yōu)。

      2)在3個(gè)模型中,VIT的平均識(shí)別精度最高但其方差也是最高的,STADP的平均識(shí)別精度為第二,但方差最低。因此,本文提出的方法穩(wěn)定性是最優(yōu)的。

      3)從平均召回率來看,STADP的平均值最高。因此,STADP的性能是最好的,這說明對(duì)于測(cè)試數(shù)據(jù),STADP在每種類型的樣本中識(shí)別正樣本的能力最強(qiáng)。

      4)觀察圖4可知,VIT模型的識(shí)別能力總體上不如STADP。但由圖4(b)可以看出,VIT模型在識(shí)別精度上接近STADP,這表明VIT模型在極限性能上或許接近STADP,但由于整體基于Transformer模型構(gòu)建,在沒有大規(guī)模數(shù)據(jù)集訓(xùn)練的情況下VIT模型難以收斂,同時(shí)難以找到好的超參數(shù)。

      總體上,STADP的平均識(shí)別準(zhǔn)確率、平均精確率、平均召回率、平均F1值分別為83.21%、84.61%、83.14%和82.14%,正是因?yàn)镾T2SN能夠獲得空間特征和時(shí)間特征,輸出阿爾茲海默癥早期行為的時(shí)空信息,進(jìn)而使得提出的STADP識(shí)別性能優(yōu)于其他2種模型。

      4 結(jié)束語

      第一時(shí)間發(fā)現(xiàn)AD出現(xiàn)的苗頭可以為早確診早干預(yù)贏得黃金時(shí)間。為此,本文通過基于醫(yī)學(xué)研究的知識(shí)構(gòu)建了阿爾茲海默癥先兆動(dòng)作數(shù)據(jù)集,以及基于關(guān)鍵幀的視頻數(shù)據(jù)集預(yù)處理方法,設(shè)計(jì)了提取空間特征與時(shí)間特征的時(shí)空雙流網(wǎng)絡(luò),提出了基于時(shí)空雙流網(wǎng)絡(luò)的阿爾茲海默癥早期行為識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,STADP的識(shí)別準(zhǔn)確率優(yōu)于其他比較的模型。在后續(xù)的研究中,將依據(jù)醫(yī)學(xué)知識(shí)進(jìn)一步細(xì)化和擴(kuò)充數(shù)據(jù)集,深入研究多模態(tài)特征融合方法,集成開發(fā)可應(yīng)用的基于STADP的阿爾茲海默癥早期行為識(shí)別系統(tǒng)。

      參考文獻(xiàn):

      [1]孔祥怡, 杜建時(shí), 馬明, 等. 阿爾茲海默癥血清多肽組生物標(biāo)志物研究[J]. 分析化學(xué), 2017, 45(7): 937-943.

      [2] 黃悅, 胡廣書, 孫學(xué)智. 阿爾茨海默癥海馬區(qū)顯微圖像的分割算法[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2008: 1511-1514.

      [3] CHANG T S, COEN M H, LA RUE A, et al. Machine learning amplifies the effect of parental family history of alzheimers disease on list learning strategy[J]. Journal of the International Neuropsychological Society, 2012, 18(3): 428-439.

      [4] DA SILVA R C R, DE CARVALHO R L S, DOURADO M C N. Deficits in emotion processing in Alzheimers disease: a systematic review[J]. Dementia & Neuropsychologia, 2021, 15(3): 314-330.

      [5] TALER V, PHILLIPS N A. Language performance in Alzheimers disease and mild cognitive impairment: a comparative review[J]. Journal of Clinical and Experimental Neuropsychology, 2008, 30(5): 501-556.

      [6] DOROCIAK K E, MATTEK N, LEE J, et al. The survey for memory, attention, and reaction time (SMART): development and validation of a brief web-based measure of cognition for older adults[J]. Gerontology, 2021, 67(6): 740-752.

      [7] LUSSIER M, ADAM S, CHIKHAOUI B, et al. Smart home technology: a new approach for performance measurements of activities of daily living and prediction of mild cognitive impairment in older adults[J]. Journal of Alzheimers Disease, 2019, 68(1): 85-96.

      [8] LEE B, AHN C R, MOHAN P, et al. Evaluating routine variability of daily activities in smart homes with image complexity measures[J]. Journal of Computing in Civil Engineering, 2020, 34(6): 376-377.

      [9] AKL A, TAATI B, MIHAILIDIS A. Autonomous unobtrusive detection of mild cognitive impairment in older adults[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(5): 1383-1394.

      [10]BRINGAS S, SALOMON S, DUQUE R, et al. Alzheimers disease stage identification using deep learning models[J]. Journal of Biomedical Informatics, 2020, 109: 103514.

      [11]ALBERDI A, WEAKLEY A, SCHMITTER-EDGECOMBE M, et al. Smart home-based prediction of multidoma n symptoms related to Alzheimers disease[J]. IEEE Journal of Biomedical and Health Informatics, 2018, 22(6): 1720-1731.

      [12]NEGIN F, RODRIGUEZ P, KOPERSKI M, et al. PRAXIS: towards automatic cognitive assessment using gesture recognition[J]. Expert Systems with Applications, 2018, 106: 21-35.

      [13]ROSHANZAMIR A, AGHAJAN H, SOLEYMANI BAGHSHAH M. Transformer-based deep neural network language models for Alzheimers disease risk assessment from targeted speech[J]. Bmc Medical Informatics and Decision Making, 2021, 21(1): 92.

      [14]MARTINEZ-SANCHEZ F, MEILAN J J G, CARRO J, et al. A prototype for the voice analysis diagnosis of Alzheimers disease[J]. Journal of Alzheimers Disease, 2018, 64(2): 473-481.

      [15]陳曦, 劉本永. 基于深度網(wǎng)絡(luò)特征提取與核非線性分類的視頻行為識(shí)別[J]. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 34: 51-56.

      [16]ALBERT M S, DEKOSKY S T, DICKSON D, et al. The diagnosis of mild cognitive impairment due to Alzheimers disease: recommendations from the national institute on aging-Alzheimers association workgroups on diagnostic guidelines for Alzheimers disease[J].Alzheimers & Dementia, 2011, 7(3): 270-279.

      [17]CEREJEIRA J, LAGARTO L, MUKAETOVA-LADINSKA E B. Behavioral and psychological symptoms of dementia. [J]. Frontiers in Neurology, 2012, 3: 73.

      [18]JEKEL K, DAMIAN M, WATTMO C, et al. Mild cognitive impairment and deficits in instrumental activities of daily living: a systematic review[J]. Alzheimers Research & Therapy, 2015, 7(1): 17.

      [19]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations. Vienna, Austria: Open Review, 2021.

      [20]DU T, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE Computer Society, 2015: 4489-4497.

      (責(zé)任編輯:曾 晶)

      Premonitory Behavioral Identification of Alzheimers Disease Based on Spatiotemporal Two-stream Networks

      HE Zonglin1, YANG Guanci*1,2,3,4, LUO Kexin1,2

      (1.Key Laboratory of Advanced Manufacturing Technology of the Ministry of Education, Guizhou University, Guiyang 550025, China; 2.School of Mechanical Engineering, Guizhou University, Guiyang 550025, China; 3.State Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, China; 4.Guizhou Provincial Key Laboratory of "Internet+" Collaborative Intelligent Manufacturing, Guizhou University, Guiyang 550025, China))

      Abstract: The early symptoms of Alzheimers disease (AD) are not obvious, and they are often in the middle or late stages when diagnosed. In order to identify AD early through video surveillance of daily activities, the premonitory behavioral identification of Alzheimers disease base on spatiotemporal two-stream networks (STADP) is proposed. Firstly, from the viewpoint of the negative impact of AD on the ability of individuals, based on medical research results, the premonitory actions of AD in daily activities are defined and an AD premonitory behaviors dataset (ADP) is constructed, and a video data processing algorithm based on key frame recommendation is put forward. Then, by combining the space feature extraction module based on the 3D convolutional model and the temporal feature extraction module based on the Transformer model, a spatiotemporal two-stream Networks is designed to capture the action features of Alzheimers early behavior, and then the STADP has been proposed. Finally, the performance of STADP with different feature fusion weights was investigated to obtain the optimal parameters; Comparative experiment results on ADP dataset show that the proposed STADP outperforms the compared state-of-the-art methods in terms of average recognition accuracy, precision, recall, and F1 score with 83.21%, 84.61%, 83.14%, and 82.14%, respectively. This study will provide methods and implementation means for intelligent perception of Alzheimers disease premonitory actions driven by daily activity data.

      Key words: Alzheimers disease; action recognition; two-stream network; feature fusion; daily activities

      猜你喜歡
      特征融合
      多特征融合的粒子濾波紅外單目標(biāo)跟蹤
      基于稀疏表示與特征融合的人臉識(shí)別方法
      一種“客觀度量”和“深度學(xué)習(xí)”共同驅(qū)動(dòng)的立體匹配方法
      多特征融合的紋理圖像分類研究
      語譜圖傅里葉變換的二字漢語詞匯語音識(shí)別
      基于多特征融合的圖像匹配算法
      人體行為特征融合與行為識(shí)別的分析
      基于移動(dòng)端的樹木葉片識(shí)別方法的研究
      科技資訊(2017年11期)2017-06-09 18:28:13
      基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
      融合整體與局部特征的車輛型號(hào)識(shí)別方法
      孝昌县| 星子县| 东乌| 大荔县| 静海县| 临城县| 东台市| 通山县| 东兴市| 都匀市| 黔西| 印江| 肃宁县| 乐亭县| 旅游| 马关县| 长子县| 桓仁| 兴文县| 拉孜县| 张掖市| 额尔古纳市| 台州市| 金溪县| 页游| 明光市| 贞丰县| 衡山县| 株洲市| 喜德县| 徐闻县| 西乌珠穆沁旗| 会宁县| 靖远县| 惠安县| 彭水| 台山市| 莱阳市| 都兰县| 富锦市| 北海市|