陳美華,劉 暢,陳祥雨
(東南大學(xué)外國語學(xué)院,江蘇南京 211189)
虛擬助手(Virtual Assistant,VA)指能夠通過用戶的語音或文本指令提供服務(wù)、實現(xiàn)人機互動的智能軟件[1],常見于各類移動設(shè)備,如Apple Siri、Google 助手等。VA 內(nèi)置語音控制為了準確捕獲用戶需求并做出即時響應(yīng),需長期保持監(jiān)聽狀態(tài)[2-4],廣泛收集、存儲、分享并使用用戶的語音信息[5-6]。用戶語音攜帶具有生物原始特征的聲紋,一旦流失會損害其信息自決權(quán)、控制權(quán)等個人數(shù)據(jù)主權(quán),VA對用戶構(gòu)成的語言信息安全挑戰(zhàn)值得學(xué)界的關(guān)注。VA 起源于國外,且國外對其隱私問題的研究較早,而國內(nèi)有關(guān)VA 安全與隱私的專門研究還十分鮮有。為更好了解與分析國際VA 語言隱私安全領(lǐng)域的研究現(xiàn)狀與發(fā)展態(tài)勢,為國內(nèi)研究提供借鑒,本文對2014-2021 上半年間國外智能設(shè)備VA 與用戶語言生物信息安全問題研究的年度分布、關(guān)鍵文獻、研究主題等進行梳理,總結(jié)其發(fā)展歷程和已有成就,以期為拓寬國內(nèi)相關(guān)研究的廣度和深度尋求經(jīng)驗路徑。
因綜述對象涉及范疇較廣泛,且以定性研究成果為主,故采用敘述性綜述方法[7],以便根據(jù)研究所需的價值標準條理分類所收集的文獻資料,并作出靈活深入的分析。
為減少敘述性綜述取樣對象規(guī)范性差、研究結(jié)果不夠客觀等缺點[7],從期刊來源、文獻類型、文獻內(nèi)容、文獻篇幅及發(fā)表時間5 個維度制定了納入標準(見表1),以盡量保證文獻搜索及篩選合理有效。
Table 1 Criteria for literature selection表1 文獻納入標準
在仔細閱讀和掌握國外VA 與隱私安全問題研究綜述的前提下,確定檢索條件包括:TS=(privacy OR security)AND TS=(digital assistant OR virtual assistant OR virtual personal assistant OR siri OR google assistant OR alexa),語種限制為English,文獻類型限制為Articles 和Proceedings Papers。依據(jù)選取標準對研究方法和主題進行人工核查,去除明顯不符合本研究需要的記錄,同時手動搜索已有文獻中的相關(guān)參考文獻以確保樣本完整性。通過檢索和篩選,最終獲得與VA 和用戶語言信息安全相關(guān)的國外文獻53篇,作為研究的主體樣本,并將每條文獻的題目(title)、作者(author)、摘要(abstract)關(guān)鍵詞(keywords)等信息錄入NoteExpress 軟件進行后續(xù)分析。
在精讀和泛讀樣本的基礎(chǔ)上,對文獻數(shù)據(jù)進行編碼分析。在一級編碼階段,根據(jù)發(fā)表時間、文獻名稱、關(guān)注群體、研究主題、研究方法進行獨立編碼,并重復(fù)校驗直至達成內(nèi)部共識。二級編碼主要對一級編碼進行檢驗、特征分析與合并。整個編碼是一個回環(huán)的過程,對編碼內(nèi)容進行了討論、反思和調(diào)整,以確保研究信度。
研究文獻的年度分布能夠直觀反映該領(lǐng)域研究熱度隨時間變化情況。國際VA 與用戶語言生物信息安全問題研究興起于2014 年,至2017 年,經(jīng)篩選后的期刊或會議論文只有11 篇(見圖1),且以揭露問題為主,表明此時國際上對VA 語言隱私的關(guān)注度并不高。自2011 年第一款VA產(chǎn)品Apple Siri 上市后,公眾需要時間來接受新生事物并逐漸認識到其對自身語言信息安全的影響。2019 年,相關(guān)研究數(shù)量有明顯提升。當年VA 泄露用戶隱私的事件一度被曝光,為回應(yīng)公眾關(guān)切,學(xué)界對產(chǎn)品的語言隱私問題研究達到階段性高峰。2020-2021 年6 月,研究勢頭雖有回落但保持穩(wěn)定發(fā)展,學(xué)者關(guān)注重點也由分析問題轉(zhuǎn)移至對策及優(yōu)化研究。近年來,VA 與用戶語言生物信息安全問題研究力求回應(yīng)現(xiàn)實問題,并已在國外取得長足發(fā)展。
Fig.1 Foreign research situation on VA and language bioinformation security from 2014 to June 2021圖1 2014-2021上半年年國外VA與用戶語言信息安全研究狀況
共引分析能夠清晰直觀地展示學(xué)科研究的親緣關(guān)系與演化規(guī)律[8]。分析國際VA 與用戶語言信息安全問題研究的高共引文獻有利于了解該領(lǐng)域的發(fā)展基礎(chǔ)與變化軌跡。本研究提取的共引頻次前10的文獻如表2所示。
本節(jié)從關(guān)注受眾、研究主題、研究方法3 個維度對所選取的文獻進行分析,以期全面展示近年來國外VA 與用戶語言生物信息安全問題研究的發(fā)展狀況。
2.3.1 關(guān)注受眾
按照研究所關(guān)注的利益群體,該領(lǐng)域研究的受眾主要為產(chǎn)品的終端用戶、開發(fā)人員或二者兼有。用戶指VA 產(chǎn)品的使用者,他們通常缺乏相關(guān)的技術(shù)知識,是開發(fā)或供應(yīng)商的客戶;軟件開發(fā)人員為消費市場提供產(chǎn)品或服務(wù)。如圖2 所示,在所得的53 篇論文中,面向用戶的論文數(shù)量多達29 篇,占比54.72%,而只針對軟件開發(fā)群體的研究數(shù)量為9 篇。此外,發(fā)現(xiàn)部分研究(28.3%)同時針對終端用戶和開發(fā)人員群體。
2.3.2 研究主題
VA 通過語音交互完成服務(wù),利用大數(shù)據(jù)和云計算系統(tǒng)等接收、解釋與執(zhí)行一系列預(yù)定的語音指令,其安全運作涉及語音識別、云端服務(wù)器、綁定程序、數(shù)據(jù)傳送和客戶終端等諸多環(huán)節(jié)[9-10]。分析發(fā)現(xiàn)國外在VA 與用戶語言信息安全挑戰(zhàn)領(lǐng)域的研究主題主要分為4 類,即用戶隱私行為與意愿研究、針對語言信息安全問題的解釋性研究、對策及優(yōu)化研究和綜述研究。在針對語言信息安全問題的研究中,部分作者分析問題并提供優(yōu)化建議,因此我們將其同時歸為針對語言信息安全問題的解釋性研究與優(yōu)化研究。各主題的數(shù)量與比例如圖3所示。
Table 2 Highly co-cited literature(Top 10)of foreign research on intelligent device VA and personal language bioinformation security表2 國外智能設(shè)備VA與個人語言信息安全問題研究的高共引文獻(Top10)
Fig.2 Subject audience of foreign research on VA and language bioinformation security from 2014 to June 2021圖2 2014-2021年國外VA與用戶語言信息安全問題研究關(guān)注受眾
Fig.3 Research topics,contents and quantities statistics of foreign research on VA and language bioinformation security from 2014 to June 2021圖3 2014-2021上半年國外VA與用戶語言信息安全問題研究主題內(nèi)容及數(shù)量統(tǒng)計
(1)用戶隱私行為與意愿研究。與VA 語言隱私問題相關(guān)的用戶行為與意愿研究的發(fā)文量相對較少,共10 篇,占比18.9%。此類研究主要關(guān)注用戶對VA 語言生物信息安全保護的看法及其隱私關(guān)切對產(chǎn)品接受度或使用行為的影響,深入探究影響用戶選擇的產(chǎn)品特性及其他因素。
首先,用戶十分關(guān)注VA 的語言與身份隱私保護性能,并將其視為決定接受該類產(chǎn)品的關(guān)鍵因素[11-13]。Burbach等[12]發(fā)現(xiàn)自然語言處理性能、價格和隱私保護為影響用戶對VA 接受度主要產(chǎn)品特性,且更多受訪群體將對用戶的隱私安全保護性能列為首要考慮;Fruchter 和Liccardi[14]通過分析用戶評論得出VA 使用者的隱私與安全關(guān)切,結(jié)果顯示語音數(shù)據(jù)收集范圍、竊聽等隱匿的設(shè)備行為為消費者主要關(guān)注的問題;Lau 等[15]則具體研究了不同群體對VA使用中可能存在的隱私風(fēng)險的接受度,發(fā)現(xiàn)用戶與非用戶之間存在著不同程度的安全顧慮。非用戶對安全隱患更加謹慎,反感開發(fā)商或其他軟件監(jiān)聽私人談話的惡意行為,而VA 用戶的隱私關(guān)切則較為溫和,認為開發(fā)商在提取及保護用戶數(shù)據(jù)方面值得信任。考慮到不同主體對VA 的語言隱私安全特性存在不同認知,為了解其形成原因,Chalhoub 等[13]深入探究了用戶的產(chǎn)品體驗對其隱私關(guān)切的影響,結(jié)果顯示不良用戶體驗,如發(fā)現(xiàn)私密語音被監(jiān)聽、廣告彈窗等會喚起用戶的隱私與安全需求,促使用戶對產(chǎn)品性能中無益于自身隱私安全的部分采取補償行為,如刪除語音記錄、停止某項服務(wù)或功能、中斷物聯(lián)網(wǎng)連接、限制設(shè)備的數(shù)據(jù)分享等。
除關(guān)注用戶對VA 安全特性的宏觀感知外,少量研究也聚焦用戶對產(chǎn)品特定功能的具體看法及使用行為。Moorthy 等[16]采用大規(guī)模在線調(diào)查對用戶在公共空間使用VA 披露語言信息的意愿展開了研究,結(jié)果表明受訪對象對傳輸私人信息的態(tài)度更為保守,尤其當信息傳遞以明顯的輸入方式(如語音指令)進行時;Tabassum 等[17]的調(diào)查則關(guān)注用戶對新一代無須喚醒型VA 的期望及對共享數(shù)據(jù)的看法,結(jié)果同樣表明,當談話內(nèi)容敏感度較低時用戶更有可能同意分享自己的對話;Ha 等[18]以通信隱私管理理論為框架,通過實驗得出VA 所需用戶信息的敏感程度及產(chǎn)品類型(擬人型與客觀型)會顯著影響用戶的語言隱私顧慮,當服務(wù)涉及高度敏感的個人信息時,與用戶構(gòu)成合作關(guān)系的VA 會引起用戶更大的隱私關(guān)切,降低其披露語言信息的意愿,而在處理低敏感信息時,用戶則認為充當合作型服務(wù)角色的VA 更具安全性。此外,Javed 等[19]的研究關(guān)注用戶對Alexa 錄音及存儲功能的體驗及理解程度,結(jié)果顯示,91%的受訪者有過在不知情的情況下被VA 錄音的經(jīng)歷,其中有53.09%的用戶稱被錄音的片段中不包含喚醒指令。此外,雖然大多數(shù)用戶(64.6%)能夠意識到自己的語音將被存儲,但并不了解可能接觸自己錄音數(shù)據(jù)的實體,更無法做到及時刪除,而重視自身隱私保護的受訪者對Alexa 的錄音存儲行為有著更清晰的認識。除常見的Alexa、Siri 等VA 產(chǎn)品外,McReynolds 等[20]還調(diào)查了用戶對智能互聯(lián)玩具Hello Barbie 和CogniToys Dino 隱私保護的看法,結(jié)果表明家長對玩具索取錄音權(quán)限持混合態(tài)度,但普遍重視其安全性能,而兒童的隱私意識則十分有限,并且會以與玩具互動的方式使用Siri、Alexa 等產(chǎn)品,這種使用方法也導(dǎo)致大量的兒童語音數(shù)據(jù)暴露給VA。
綜上所述,國外VA 語言隱私安全問題研究已從不同角度揭示了用戶群體對涉及其語言信息安全的VA 產(chǎn)品特性的看法、使用意愿與具體行為。值得注意的是,雖然研究普遍表明公眾對VA 保護自身語音安全方面存在顧慮,但較少有研究能夠針對顧慮提出解決措施,并且隱私問題不足以勸阻用戶在現(xiàn)實生活中繼續(xù)購買或使用[21],這也促使研究者更加關(guān)注VA 在日常運行中對用戶語言信息安全造成的實際損害及相應(yīng)的保護策略。
(2)針對語言信息安全問題的解釋性及優(yōu)化研究。在近7年的論文中,對VA 產(chǎn)品設(shè)計與運行中存在的語言信息安全問題進行介紹、驗證與解釋的文章共有24 篇,且集中發(fā)表于2017-2020 年。根據(jù)數(shù)據(jù)生命周期以及研究所揭露的安全問題類型,與VA 語言信息安全問題相關(guān)的解釋性研究又可以分為語音監(jiān)聽、語言生物識別及身份認證隱患、外部攻擊、數(shù)據(jù)最大化使用與保密存儲4個分支。
語音監(jiān)聽是此類主題中學(xué)者較為關(guān)注的安全問題。經(jīng)研究證實,VA 的語音識別與處理系統(tǒng)在等待喚醒詞的同時,需要長期待機并對用戶語音及周圍噪音進行監(jiān)聽與存儲[3,6]。Ford 等[22]的實驗發(fā)現(xiàn),電視音頻或用戶日常交談均可以在無喚醒詞的情景下觸發(fā)Amazon 語音助手的錄音功能,被記錄的私人對話還會被傳輸至服務(wù)器做進一步的分析;Chung 等[2]則通過分析VA 的工作原理,指出4 種可能對系統(tǒng)安全與用戶隱私構(gòu)成風(fēng)險的攻擊類型,包括設(shè)備在用戶未知的情況下擅自錄音并將數(shù)據(jù)返還給供應(yīng)商的風(fēng)險。VA 監(jiān)聽并記錄用戶對話,導(dǎo)致用戶對自身語言信息安全的可控程度大為降低。
VA 采用關(guān)鍵詞喚醒模式同時引發(fā)了其準入門檻低、身份認證困難等安全隱患[2,10]。研究發(fā)現(xiàn),在單因素身份驗證模式下,播放的語音指令音頻也可能觸發(fā)VA 進行回應(yīng)[10,23]。此外,現(xiàn)有的語音變形或合成技術(shù)可以基于有限的聲音樣本量提取合法用戶的生物特征以欺騙識別驗證系統(tǒng),造成關(guān)鍵個人信息流失[24]。因此,盡管VA 的語音識別與處理技術(shù)采用數(shù)據(jù)驅(qū)動下的機器學(xué)習(xí)模式,能夠根據(jù)訪問者聲音特性預(yù)測身份,但依舊很難給予充分的安全準入保障。
在此類主題下,更多研究者探析了VA 在傳輸語音數(shù)據(jù)的過程中可能遭受的各類攻擊,通過錄音、模仿、合成甚至篡改等多種方式遠程操控并發(fā)布指令[25-26]。實證研究結(jié)果表明,不法訪客能夠利用人類與機器語音識別之間的差距,通過調(diào)整原始語音信號的梅爾倒譜系數(shù)特征形成對抗性輸入以誤導(dǎo)機器學(xué)習(xí)模型。此類擾動方案對聲音質(zhì)量的影響幾乎可以忽略,但會破壞VA 深度神經(jīng)網(wǎng)絡(luò)的工作效率,極大削弱語音識別速度及準確率[27-28]。同樣,實驗驗證音素變形能將來自不同訪客的源語音轉(zhuǎn)換為可以通過語音生物驗證的來自正當使用者的音頻[29]。發(fā)動海豚攻擊的可行性得到驗證,通過發(fā)送超出人類聽覺上限的超聲波頻率隱藏惡意語言指令以實現(xiàn)對設(shè)備的操控[30-33]。此外,研究者們還對惡意訪問者通過調(diào)頻式天線[34]、激光照射等欺騙VA 語音識別及身份認證系統(tǒng)的方式進行了探究[35],深入剖析攻擊者如何操縱設(shè)備以獲得訪問權(quán)限,實施惡意或侵權(quán)行為。
關(guān)于外部攻擊,鑒于VA 不斷擴展的附加功能以及與物聯(lián)網(wǎng)設(shè)備日益緊密的聯(lián)系,擴展VA 原始功能可能造成的數(shù)據(jù)傳輸漏洞及因第三方授權(quán)而造成的用戶敏感或保密信息的泄露引起研究者關(guān)注[21,36-37]。根據(jù)自然語言處理中的深度學(xué)習(xí)模型,發(fā)現(xiàn)了針對VA 功能啟用模式的兩種對抗性攻擊,即語音搶注(Voice Squatting)與語音偽裝(Voice Masquerading)[38]。Kumar 等[39-40]對Alexa 語音識別中可能存在的易混淆指令誤讀及語音搶注攻擊進行了實證分析,深入討論了其對用戶隱私安全的影響。Mitev等[41]的實驗則展示了惡意中間人通過擴展程序在VA 與其良性附加功能之間發(fā)動攻擊的可行性,詳細分析了攻擊者如何通過用戶家中的物聯(lián)網(wǎng)設(shè)備遠程發(fā)射超聲波信號與VA 進行交互,并將用戶的語音重新定向至惡意應(yīng)用程序,最終達到突破Alexa 的智能識別防線、監(jiān)聽Alexa 與受害者之間對話的目的。此外,也有少部分研究者關(guān)注了VA 與其支持設(shè)備之間的秘密架線及電路竊聽現(xiàn)象。盡管目前VA 與綁定設(shè)備之間的通信大多使用加密,但外部攻擊者仍可通過監(jiān)控網(wǎng)絡(luò)流量獲取數(shù)據(jù)傳送速率并識別設(shè)備所處的工作狀態(tài)[42],通過網(wǎng)絡(luò)流量推斷語音指令的正確率高于通過機器學(xué)習(xí)模型介入[43]。
商家對收集的用戶語音數(shù)據(jù)的分享與使用方式也影響著用戶隱私安全。用戶在商家如何使用語音數(shù)據(jù)方面尚未充分行使自決權(quán),無法監(jiān)督與控制自身的數(shù)據(jù)安全[44]?,F(xiàn)有的VA 產(chǎn)品架構(gòu)一般將數(shù)據(jù)集中存儲于云上,一旦空間遭到入侵,大量敏感信息將面臨泄露[10]。
(3)對策與優(yōu)化研究。針對VA 產(chǎn)品設(shè)計與運行中暴露的語言信息安全問題,研究者們也提出了相應(yīng)的改進方案與使用建議。經(jīng)本次檢索及篩選得出的對策及優(yōu)化研究共有18 篇,占比33.9%,其中有半數(shù)以上為2020-2021 年發(fā)表,可見對策及優(yōu)化研究已成為VA 語言信息安全問題研究中的新熱點。
考慮到用戶發(fā)布的語音指令中含有豐富的語言生物特征,學(xué)者就如何在確保VA 語音搜索任務(wù)執(zhí)行效率的同時強化用戶語言隱私保護展開了探討。Li 等[45]提出語音加密搜索方案,采用粒計算技術(shù)對用戶指令進行加密;根據(jù)Vaidya 等研究[46],鑒于語音識別與存儲的可分離性,產(chǎn)品在將數(shù)據(jù)傳輸至云端之前可采用音頻處理技術(shù)去除其可識別特征,只留下執(zhí)行服務(wù)所需信息。實驗表明,此類措施可以有效防御語音合成攻擊。此外,針對VA 竊聽用戶談話、擅自記錄并交易語音數(shù)據(jù)的現(xiàn)象,Cheng 等[47]建議使用聲學(xué)標記,即VA 在接收用戶聲音的同時接收輔助設(shè)備發(fā)出的獨特聲學(xué)信號,并將此標簽嵌入他們錄制的音頻流中。該標簽不僅會向VA 合作軟件或后端系統(tǒng)發(fā)出信號,表明用戶尚未同意錄制,還可用于追蹤記錄的拍攝時間和地點,有利于增強產(chǎn)品監(jiān)聽并錄制用戶語音的可控性;Sun 等[5]則提出并驗證了一款能夠執(zhí)行隱私保護的VA配套設(shè)備MicShield,能夠在傳遞合法語音指令的同時混淆用戶的私人談話,在不影響VA 響應(yīng)能力的前提下有效保護用戶的私密談話。Mhaidli 等[48]的研究則將人際交流的凝視方向及音量變化作為增強設(shè)備語言隱私性能的手段,即只有當用戶對設(shè)備發(fā)話時,其麥克風(fēng)或語音識別系統(tǒng)才會被激活。Kepuska 等[49]同樣提出一套包括用戶語音、手勢、觸摸、注視以及頭部或身體運動的多模態(tài)識別系統(tǒng),協(xié)同作用以減少VA 監(jiān)聽用戶的日常談話。
研究者根據(jù)用戶與VA 的交互模式提出了對用戶身份認證方式的改良建議。在分析VA 的語音識別漏洞后提出了連續(xù)身份驗證系統(tǒng),以確保僅對合法用戶發(fā)出的指令進行回應(yīng)[24,50]。經(jīng)實驗驗證,該解決方案能將設(shè)備接收到的語音與收集的合法用戶的體表振動相關(guān)聯(lián),大大提高檢測準確度,但系統(tǒng)功能依靠可穿戴安全令牌完成。Pradhan 等[51]和Lei 等[52]的解決方案則免于穿戴,其提出的語音檢測系統(tǒng)能夠根據(jù)實時發(fā)音與重放語音時人類呼吸模式之間的固有差異實現(xiàn)基于物理存在的訪問控制,并利用WiFi 檢測出不同類型的外部攻擊,在此條件下,只有當附近有人時設(shè)備才會啟用并接受語音指令。Cheng 等[53]則建議使用保護性干擾裝置,一旦識別到語音喚醒詞后便會發(fā)出干擾信號,以防止VA 被喚醒并對語音信號作出進一步的分析。為應(yīng)對海豚攻擊的隱藏指令,Zhang 等[30]推薦了兩種緩解措施,分別為改進揚聲器以抑制超聲波對源語音的影響,以及在語音捕獲子系統(tǒng)中的低通濾波器之前引入一個模塊,專門用以識別和消除隱藏語音指令的基帶信號。Wang 等[54]則考慮到雖然隱藏指令的音頻特征可能會欺騙身份驗證系統(tǒng),但運動傳感器捕獲的由音頻引起的表面振動卻很難偽造,因此提出采用低成本運動傳感器,同時要求語音指令與聲學(xué)特征和振動域,為攻擊者帶來了更艱巨的挑戰(zhàn)。以上身份驗證方法都可以在一定程度上減少惡意攻擊的發(fā)生,加大其他用戶在未經(jīng)許可的情況下訪問VA 的難度,為用戶的隱私安全提供雙重保險。鑒于有些認證方法需要額外設(shè)備的支持,其實際的用戶接受度也值得考證[44]。
對策與優(yōu)化研究關(guān)注VA 第三方服務(wù)提供商的云端安全架構(gòu),根據(jù)對抗性攻擊利用系統(tǒng)漏洞的方式提出對應(yīng)的改進措施。Kumar 等[40]建議對每個新技能的啟用指令進行語音和文本分析,檢查是否與現(xiàn)有技能重疊,以減輕設(shè)備受語音搶注攻擊的風(fēng)險。Zhang 等[38]也針對惡意技能的檢測提出了解決方案,新系統(tǒng)會將用戶指令與當前正在交互的設(shè)備技能進行匹配,通過考慮用戶話語與他們當前使用技能之間的聯(lián)系確定切換意圖,減少惡意程序的回應(yīng)頻率。
云存儲的保密性能關(guān)乎著用戶的數(shù)據(jù)安全,研究者也針對VA 的存儲服務(wù)提出了改進建議。根據(jù)Ford 等[22]研究,僅靠用戶定期查看記錄以減少惡意攻擊只能提供事后分析,存在一定的被動與滯后性,并因此對提供商確保云端的安全組織架構(gòu)提出了要求。Vecchiato 等[55]針對數(shù)據(jù)收集與提取過程中的隱私與安全,提出由個人、環(huán)境和云三層組成,能夠?qū)膫鞲衅骱鸵苿釉O(shè)備收集的數(shù)據(jù)進行情景感知操作的基礎(chǔ)通信架構(gòu)。
總結(jié)可知,國外有關(guān)VA 語言信息安全威脅的應(yīng)對研究呈現(xiàn)出明顯的技術(shù)先導(dǎo)原則,即信息安全建立在技術(shù)發(fā)展的前提之上,但安全保護研究相對滯后,較少從用戶、開發(fā)者、第三方等多維主體角度,綜合考慮個體、團隊、組織和社會對信息安全進行立體、多層次地研究,缺乏根據(jù)語言信息安全敏感與風(fēng)險程度的系統(tǒng)性分析,并將安全防控前瞻性地落實在產(chǎn)品開發(fā)階段。
(4)綜述研究。自2014 年針對VA 與個人語言信息安全問題的文章發(fā)表以來,國外對該領(lǐng)域研究成果進行系統(tǒng)回顧與反思的綜述論文也較為缺乏,共有7 篇,具有代表性的文獻來自Bolton、Edu 和Pal等[21,44,56]。前兩篇均為梳理已被證實的VA 對用戶隱私與安全造成的負面影響以及相應(yīng)的改進措施,而非對研究主題或已有成果作出全面分析,后者以增強用戶對VA 的使用信任為研究視角,梳理了與用戶隱私與安全保護有關(guān)的利益主體及其詳細職責,分類討論了不同類型的VA 隱私問題,并據(jù)此提出了隱私保護信任模型以減輕VA 用戶在使用過程中的安全隱患。
2.3.3 研究方法
科學(xué)的研究方法是獲取可靠結(jié)果的前提與基礎(chǔ),決定著研究的有效性。梳理與分析研究方法既可以從宏觀上把握國外VA 與用戶語言生物信息安全問題研究的理論視角與發(fā)展態(tài)勢,也能為后續(xù)研究提供方法借鑒。本文采用信息系統(tǒng)領(lǐng)域內(nèi)學(xué)者廣泛采用的Alavi 和Carlson 的分類方法[57],將研究劃分為實證研究和非實證研究。如圖4 所示,2014-2021上半年國外VA 與用戶語言隱私安全研究大多采用了實證研究方法(43 篇,81.13%),標志該領(lǐng)域逐漸能夠以學(xué)科視角客觀解釋并驗證假設(shè)的合理性,走向發(fā)展成熟階段。
Fig.4 Research methods of foreign research on VA and language bioinformation security from 2014 to June 2021圖4 2014-2021上半年國外VA與用戶語言信息安全問題研究方法統(tǒng)計
從上述文獻梳理結(jié)果可知,用戶語言隱私與安全保護已成為國際VA 研究中的新興議題,處于持續(xù)發(fā)展階段,表現(xiàn)在文章發(fā)表總數(shù)不多但增幅較大,研究主題不斷拓寬,理論與實證研究的創(chuàng)新成果不斷涌現(xiàn)。相比之下,我國的VA 語言安全研究尚處于起步階段,學(xué)者大多探討VA 的適用場景、應(yīng)用效果及優(yōu)化功能的設(shè)計與實現(xiàn),但對與之相關(guān)的信息安全問題,尤其是語言生物信息安全問題研究仍停留在介紹階段。未來實證研究可從以下3 方面著手,深入探究VA 對用戶語言隱私安全的影響及優(yōu)化策略。
3.1.1 開闊研究視角
盡管本領(lǐng)域研究的關(guān)注對象主要為用戶群體,但國外相關(guān)研究選擇的用戶范圍相對寬泛?,F(xiàn)有的國內(nèi)外研究缺少以特定客戶,如兒童及家長、商務(wù)人士、圖書館讀者、教育人士等為受試對象的研究,無法了解其在產(chǎn)品使用過程中遇到的具體語言信息安全問題。未來研究可拓寬研究對象的選取范圍,豐富受試對象的多樣性和區(qū)分度。用戶語言隱私安全研究也應(yīng)更多回應(yīng)用戶的隱私顧慮,探究數(shù)據(jù)生命周期中各環(huán)節(jié)涉及的用戶個體、企業(yè)組織和社會等多層次利益主體及其詳細職責[56],建立用戶語言隱私關(guān)注與安全使用行為評估指標體系與符合用戶隱私關(guān)注與感知風(fēng)險、感知利益作用機制的語言信息保護模式,提升研究成果的科學(xué)性、系統(tǒng)性和實用性。
3.1.2 深化研究內(nèi)容
現(xiàn)階段國內(nèi)研究對VA 隱私安全性能問題大多處于介紹階段,只知其然而不知所以然,很少考慮到設(shè)備復(fù)雜的全貌架構(gòu),尤其對語言生物信息識別、用戶身份授權(quán)、語音數(shù)據(jù)安全技術(shù)研發(fā)與標準制定等方面已暴露問題的實驗驗證及運行機制研究不足,無法追溯不同安全問題在來源上的相似性,進而針對包括數(shù)據(jù)產(chǎn)生、傳輸、使用、分享及消除在內(nèi)的生命周期各個階段提出差異化的應(yīng)對措施,保護策略的理論研究也尚未得出體系化的建議。因此,研究者需要充分考慮不同環(huán)境下VA 與用戶語言安全問題的多樣性,從優(yōu)化實踐出發(fā)深入分析產(chǎn)品開發(fā)、運行環(huán)境、使用風(fēng)格、第三方介入等因素對用戶語言隱私安全造成的潛在威脅,亦或從風(fēng)險治理為視角,研究如何合理利用大數(shù)據(jù)技術(shù)更加精細、實時地監(jiān)測信息安全風(fēng)險,制定語言信息安全風(fēng)險評估機制,并在此基礎(chǔ)上探索有效的信息安全風(fēng)險規(guī)避措施。
云空間通常支持多種遠程的數(shù)據(jù)訪問模式,更加劇了其遭受外部攻擊的風(fēng)險。目前,少有研究者關(guān)注商家掌握大量語言生物數(shù)據(jù)后其保密存儲性能能否保證用戶的數(shù)據(jù)安全,但其能為用戶語音數(shù)據(jù)的合理使用及語言信息的充分消除提供學(xué)界支持,具有較大的現(xiàn)實意義與研究潛力。
此外,國外有關(guān)VA 語言信息安全威脅的應(yīng)對研究呈現(xiàn)出明顯的技術(shù)先導(dǎo)原則,即信息安全建立在技術(shù)發(fā)展的前提之上,但較少從用戶、開發(fā)者、第三方等多維主體角度,對信息安全保護管理進行立體、多層次地研究。國內(nèi)學(xué)者可據(jù)此對語言信息安全的敏感與風(fēng)險程度進行系統(tǒng)分析,并將安全防控前瞻性地落實在產(chǎn)品開發(fā)階段。
3.1.3 調(diào)查隱私政策
隱私法規(guī)要求開發(fā)者必須提供隱私政策,并通知用戶運營商在收集哪些信息、如何使用這些信息、正在共享什么信息[57]。第三方開發(fā)者提供的多樣化隱私政策有可能對用戶使用隱私敏感服務(wù)造成潛在風(fēng)險。為此,國內(nèi)研究者可關(guān)注隱私政策與許可信息一致性、語音應(yīng)用程序的更新是否及時反映在隱私政策、用戶如何參與隱私政策以及他們對VA 隱私政策的看法等。相關(guān)研究結(jié)果有助于開發(fā)者的隱私?jīng)Q策、提高隱私政策質(zhì)量,并為VA 用戶提供有效的隱私通知,減少其隱私暴露風(fēng)險。
近年來,國外VA 與用戶語言隱私安全的實證研究多采用解釋主義的質(zhì)性研究范式,研究者通過調(diào)查、訪談、實驗等方法探究VA 可能存在的隱私安全性能問題及相關(guān)用戶行為。相比之下,國內(nèi)在該領(lǐng)域的實證研究十分缺乏,可以通過引進國外較成熟的測量工具或機理框架,在尊重中國法律、政策等特定情境因素的前提下力圖得出更多具有概括性的研究結(jié)果,也可以考慮在自然情境下運用仿真實驗,有效提升研究的信度和效度。
VA 通過系統(tǒng)編譯大量敏感數(shù)據(jù)集與個人身份信息,可能暴露用戶記錄在語音通信中的生物信息。為應(yīng)對此類挑戰(zhàn),設(shè)計者和策劃者應(yīng)在設(shè)計初期考慮到VA 使用過程中的隱私風(fēng)險、安全問題及倫理道德。同時,無線連接在增強用戶體驗的同時,也加劇了與網(wǎng)絡(luò)可靠性相關(guān)的風(fēng)險。研究者可考慮設(shè)計和優(yōu)化能應(yīng)用于本地運行的算法,實現(xiàn)本地數(shù)據(jù)的靈活處理[58]。
為保護用戶隱私,針對VA 的國內(nèi)研究也可考慮借鑒國外相關(guān)技術(shù),如基于sm-ALTP(sign modified acoustic local ternary pattern)的SASV(Secure Automatic Speaker Verification)技術(shù)、Vocal Tract Length Normalization(VTLN)技術(shù),以期混淆用戶語音并刪除敏感的語音特征、構(gòu)建語音隱私保護框架、實現(xiàn)離線處理語音命令,挖掘其應(yīng)用發(fā)展前景。
對智能設(shè)備VA 與個人生物語言信息安全問題的國際文獻進行綜述發(fā)現(xiàn),近年來該領(lǐng)域的關(guān)注對象主要為廣泛的用戶群體,研究主題涉及用戶行為與意愿、對語言信息安全問題的解釋、對策優(yōu)化及綜述研究,較為全面地探究了語音數(shù)據(jù)全生命周期中可能存在的隱私安全問題,預(yù)測了國內(nèi)該領(lǐng)域未來的關(guān)鍵趨勢、核心挑戰(zhàn)和研究路徑。國外研究樣本缺乏多樣性,對策與綜述研究在以技術(shù)視角之余,較少有基于多維責任主體的系統(tǒng)觀照。鑒于國內(nèi)VA與用戶語言隱私的研究尚處于起步階段,期望本研究能為學(xué)者提供較為綜合的信息參考,秉承問題意識開闊研究視角,從優(yōu)化用戶語言信息的安全保護出發(fā)深化研究內(nèi)容,促進國內(nèi)成果的進一步涌現(xiàn)。