蔡茂貞,丁小波,黃珊珊,鐘地秀,彭 琨
(中移互聯(lián)網(wǎng)有限公司云產(chǎn)品事業(yè)部,廣州 510000)
人工智能是研究計(jì)算機(jī)來模擬人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,結(jié)合人類的思考方式對思維進(jìn)行量化,利用人類的分析方式將過程進(jìn)行數(shù)字化。最終利用數(shù)據(jù)與數(shù)學(xué)邏輯形成類人腦的推斷智能應(yīng)用。人工智能的技術(shù)領(lǐng)域包括了計(jì)算機(jī)視覺、自然語言處理、模式識別、數(shù)據(jù)挖掘、推薦系統(tǒng)、知識圖譜等。隨著數(shù)據(jù)爆發(fā)性增長與算力指數(shù)型增強(qiáng),人工智能突破領(lǐng)域應(yīng)用的瓶頸,使得人工智能技術(shù)能夠處理更切合實(shí)際的應(yīng)用問題。全球科技正朝著數(shù)字化、信息化、智能化方向迅速發(fā)展,各行各業(yè)均將人工智能作為一項(xiàng)能力引入到各自的領(lǐng)域,并對現(xiàn)有服務(wù)能力和業(yè)務(wù)應(yīng)用進(jìn)行革新。
2016 年,115 網(wǎng)盤、新浪微盤、迅雷快盤、騰訊微云、華為網(wǎng)盤、360網(wǎng)盤經(jīng)歷一輪業(yè)務(wù)調(diào)整潮。大浪淘沙,如今從事網(wǎng)盤業(yè)務(wù)的企業(yè)已經(jīng)歷了曾經(jīng)的發(fā)展瓶頸,各自對企業(yè)長效性合規(guī)發(fā)展進(jìn)行了調(diào)整,從事網(wǎng)盤業(yè)務(wù)的企業(yè)趨于穩(wěn)定,近幾年僅有阿里云盤、迅雷云盤等新玩家的入局網(wǎng)盤應(yīng)用市場。長久、可靠、安全不再是用戶考慮核心焦點(diǎn)。
5G 時代網(wǎng)絡(luò),增強(qiáng)型移動寬帶、可靠低時延通信和海量機(jī)器類通信均得到大面積應(yīng)用。可靠網(wǎng)絡(luò)的保障給云服務(wù)應(yīng)用落地提供了豐富的應(yīng)用場景和能力。更多的企業(yè)、個人融入到數(shù)字化、智能化之中,將云端作為自己的工作臺。與此同時,用戶對數(shù)據(jù)傳輸、存儲和共享的需求呈爆發(fā)性增長。網(wǎng)盤在個人、企業(yè)、家庭中的應(yīng)用日益得到長足發(fā)展。在產(chǎn)品功能方面,市場競爭從最基礎(chǔ)的存儲、傳輸功能向智能化方向演變,需滿足多場景應(yīng)用需求。
圖1 個人網(wǎng)盤品牌認(rèn)知度
網(wǎng)盤業(yè)務(wù)是一種重資產(chǎn)業(yè)務(wù),高運(yùn)營成本和低付費(fèi)轉(zhuǎn)化率一直以來制約著個人云盤市場的可持續(xù)發(fā)展,網(wǎng)盤應(yīng)用提供商很難從個人云盤產(chǎn)生長期有效的盈利。近年視頻網(wǎng)站、流媒體、數(shù)字音樂、知識付費(fèi)等產(chǎn)品逐漸培養(yǎng)了用戶使用習(xí)慣,為虛擬產(chǎn)品付費(fèi)的習(xí)慣以及付費(fèi)享有更優(yōu)質(zhì)服務(wù)的理念正在逐漸為用戶所接受。為網(wǎng)盤應(yīng)用開發(fā)增值類服務(wù)逐漸成為提高產(chǎn)品影響力的一種重要手段。如何提高用戶使用頻次,成為網(wǎng)盤類應(yīng)用需要考慮的應(yīng)用點(diǎn)。
網(wǎng)盤類應(yīng)用雖作為用戶存儲類,隨著用戶存儲資產(chǎn)的增加,幫助用戶高效管理的數(shù)字資產(chǎn)能有效地提升用戶體驗(yàn)滿意度?;谡Z音、視頻、圖像識別與分析等人工智能技術(shù)的應(yīng)用能為用戶個人網(wǎng)盤在內(nèi)容智能分類、內(nèi)容檢索和內(nèi)容創(chuàng)作上為用戶帶來更加智能、便利和高效的服務(wù)。在保證資產(chǎn)安全和用戶授權(quán)的基礎(chǔ)上,利用人工智能技術(shù)的個人云盤將可以采用更加智能化的方式幫助用戶提高數(shù)據(jù)管理的效率,進(jìn)一步優(yōu)化用戶使用體驗(yàn)。
用戶體驗(yàn)提升可以從實(shí)用性和娛樂性兩個大方向進(jìn)行引入人工智能技術(shù)。人工智能技術(shù)應(yīng)用以圖像處理算法為核心、視頻處理算法和自然語言算法共同協(xié)作打造面向圖片、視頻、情景的互動能力。在實(shí)用功能方面,通過提供人臉聚類、事物分類、文本處理等業(yè)務(wù)能力,讓用戶可以便捷地根據(jù)媒體內(nèi)容進(jìn)行查看和管理。在娛樂功能方面,引入人物卡通化、背景替換等娛樂場景,讓用戶對照片和視頻等媒體進(jìn)行二次創(chuàng)作,從而提升網(wǎng)盤的傳播性,引入新流量。
語音、視頻、圖像等多種AI 能力均可作為網(wǎng)盤業(yè)務(wù)應(yīng)用場景,其中圖像應(yīng)用的AI 能力又可分為圖像分類、物體檢測、圖像分割、人臉識別、人臉檢測。在實(shí)際人工智能應(yīng)用中,模型在初始時并不具有對具體任務(wù)有效的參數(shù),因此對于特定任務(wù),需要通過模型訓(xùn)練來尋找一組合適的參數(shù),從而反饋給模型的使用者一個有效的預(yù)測值。本章節(jié)據(jù)此設(shè)計(jì)了AI 模型從研發(fā)到應(yīng)用的整體框架,然后分別介紹AI 模型訓(xùn)練規(guī)范和模型測試規(guī)范的具體設(shè)計(jì)。
神經(jīng)網(wǎng)絡(luò)模型是擁有特定結(jié)構(gòu)和一系列權(quán)重參數(shù)的函數(shù)。模型訓(xùn)練是指利用大量已標(biāo)記數(shù)據(jù),通過反向傳播反復(fù)更新模型中的權(quán)重,直到模型能夠?qū)斎霐?shù)據(jù)輸出一個合適的預(yù)測值,通過這個預(yù)測值來確定輸入數(shù)據(jù)隱含的標(biāo)簽信息。
AI 模型訓(xùn)練中不同任務(wù)不同需求會有不同的訓(xùn)練配合和數(shù)據(jù)。模型訓(xùn)練計(jì)劃階段需定義任務(wù)類型、數(shù)據(jù)集、模型配置與模型輸出。根據(jù)具體任務(wù)設(shè)計(jì)指定AI 任務(wù)類型,如可劃分為語音、視頻、圖像等大類任務(wù);再根據(jù)大類任務(wù)劃分小類任務(wù),如圖像分類、物體檢測、圖像分割、人臉識別、人臉檢測等任務(wù)。其次需要基于定義好的任務(wù)類型準(zhǔn)備圖片。將圖片劃分為訓(xùn)練集、驗(yàn)證集和測試集,然后進(jìn)行數(shù)據(jù)人工標(biāo)注。最后進(jìn)行模型參數(shù)配置完成AI 模型訓(xùn)練。
圖2 模型訓(xùn)練流程規(guī)范
3.1.1 任務(wù)定義
根據(jù)網(wǎng)盤人工智能引入的圖像類應(yīng)用場景,可將任務(wù)分成以下大類。
(1)分類任務(wù)。識別一張圖是否是某類物體/狀態(tài)/場景,適用于圖片內(nèi)容單一、需要給整張圖片分類的場景。如果要識別的主體在圖片中占比較大且為單一主體,則可將任務(wù)設(shè)定成分類任務(wù)。
(2)檢測任務(wù)。檢測圖中每個物體的位置、名稱。適合圖中有多個主體要識別、或要識別主體位置及數(shù)量的場景。如果識別的主體在圖片中占比較小,且實(shí)際環(huán)境很復(fù)雜無法覆蓋全部的場景,建議用物體檢測的模型來解決問題。
(3)分割任務(wù)。對比物體檢測,支持用多邊形標(biāo)注訓(xùn)練數(shù)據(jù)。適合圖中有多個主體、需識別其位置或輪廓的場景。如果需要對目標(biāo)物體進(jìn)行精確定位或分割出來,則將任務(wù)設(shè)定成圖像分割任務(wù)。
3.1.2 數(shù)據(jù)集規(guī)范
在分類任務(wù)中,每個分類需要準(zhǔn)備20 張以上圖片;如果想要較好的效果,建議每個分類準(zhǔn)備不少于1000 張圖片,涵蓋各種角度情形。每個分類的圖片需要覆蓋實(shí)際場景里面的可能性,如拍照角度、光線明暗的變化,訓(xùn)練集覆蓋的場景越多,模型的泛化能力越強(qiáng)。訓(xùn)練圖片和實(shí)際場景要識別的圖片拍攝環(huán)境接近,例如:如果實(shí)際要識別的圖片是攝像頭俯拍的,那訓(xùn)練圖片就不能用網(wǎng)上下載的目標(biāo)正面圖片。
建議圖片類型為png、jpg、bmp、jpeg,圖片大小限制在4M 以內(nèi);圖片長寬比在3:1 以內(nèi),其中最長邊小于4096px,最短邊大于30px。
AI 模型在訓(xùn)練時,每訓(xùn)練一批數(shù)據(jù)會進(jìn)行模型效果檢驗(yàn),以一批驗(yàn)證圖片作為驗(yàn)證數(shù)據(jù),通過驗(yàn)證結(jié)果反饋去調(diào)節(jié)訓(xùn)練。驗(yàn)證集的標(biāo)簽應(yīng)與訓(xùn)練集完全一致,驗(yàn)證集圖片不應(yīng)與訓(xùn)練集圖片重疊。
AI 模型的效果測試不能使用訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)進(jìn)行測試,應(yīng)使用訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集外的數(shù)據(jù)測試,這樣才能真實(shí)地反映模型效果。測試集的標(biāo)簽是訓(xùn)練集的全集或者子集即可。
3.1.3 模型配置
任務(wù)類型決定了網(wǎng)絡(luò)結(jié)構(gòu)的選擇。根據(jù)任務(wù)定義進(jìn)行模型類型、網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)迭代器、損失函數(shù)、優(yōu)化器的配置和選擇。
(1)確認(rèn)模型類型。根據(jù)任務(wù)類型決定使用的網(wǎng)絡(luò)結(jié)構(gòu)。主要分為分類網(wǎng)絡(luò)、檢測網(wǎng)絡(luò)、分割網(wǎng)絡(luò)三類。
(2)確認(rèn)模型量級。根據(jù)應(yīng)用場景對處理速度、準(zhǔn)確率的要求進(jìn)行模型大小和模型運(yùn)算量的估算,再進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)選型。據(jù)此,確認(rèn)主干結(jié)構(gòu)、確認(rèn)頭部結(jié)構(gòu)、輸入輸出數(shù)據(jù)結(jié)構(gòu)。
(3)確認(rèn)算子支持。對于已知輸出平臺的模型,盡量選用平臺支持、優(yōu)化的算子進(jìn)行結(jié)構(gòu)設(shè)計(jì)。
(4)數(shù)據(jù)迭代器設(shè)計(jì)。通過色域轉(zhuǎn)換對特定通道進(jìn)行隨機(jī)增強(qiáng),如對亮度、飽和度、色調(diào)進(jìn)行隨機(jī)擾動。根據(jù)實(shí)際使用場景、目標(biāo)大小和數(shù)據(jù)集特點(diǎn),進(jìn)行匹配實(shí)際場景的增強(qiáng),如對于希望小目標(biāo)檢出的模型對數(shù)據(jù)進(jìn)行馬賽克擴(kuò)增。
(5)損失函數(shù)的設(shè)計(jì)。同樣根據(jù)任務(wù)類型決定損失函數(shù),這樣能提升模型訓(xùn)練效果。分類任務(wù)常見損失使用softmax 交叉熵?fù)p失函數(shù);檢測任務(wù)常見損失使用IOU 損失、二分類交叉熵?fù)p失函數(shù)。分割任務(wù)常見損失使用交叉熵?fù)p失函數(shù)。在具體任務(wù)具體需求實(shí)踐過程中,需對上述損失函數(shù)進(jìn)行適應(yīng)性改進(jìn)。
(6)優(yōu)化器設(shè)計(jì)。根據(jù)任務(wù)訓(xùn)練難度選擇不同的學(xué)習(xí)率衰減策略和優(yōu)化器。常用學(xué)習(xí)率衰減策略如指數(shù)衰減、固定步長的衰減、多步長衰減、余弦退火衰減等。常用優(yōu)化器如Adam、SGD 等,Adam 可以幫助模型快速收斂,但在部分場景下可能會錯過最佳優(yōu)化點(diǎn);SGD 收斂較慢,需要人工調(diào)參,但在某些情況下可以達(dá)到比Adam更好的精度。
模型測試是指將符合模型使用場景并具有真實(shí)標(biāo)簽的數(shù)據(jù)輸入模型,將模型的預(yù)測標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行對比并計(jì)算出指標(biāo)值,通過這些指標(biāo)值評估或?qū)Ρ饶P驮谡鎸?shí)使用場景時的表現(xiàn)是否能夠滿足預(yù)期,即輸出值是否能夠滿足人們在實(shí)際場景使用模型的需求。根據(jù)不同的模型類型需要制定不同的模型測試方式、模型測試規(guī)范、測試使用指標(biāo)。
圖3 模型測試流程規(guī)范
在模型測試時往往需要與一個已知使用效果的基準(zhǔn)模型進(jìn)行對比,我們期望的新模型是需要優(yōu)于之前的基準(zhǔn)模型。即在整體指標(biāo)相當(dāng)?shù)那闆r下,某些關(guān)鍵指標(biāo)優(yōu)于基準(zhǔn)模型,從而實(shí)現(xiàn)對基準(zhǔn)模型的替換,并將新模型設(shè)定成新的基準(zhǔn)模型。
3.2.1 測試方式定義
任務(wù)類型決定了測試方式。根據(jù)任務(wù)定義進(jìn)行模型測試方式的選取。
(1)分類任務(wù)。將測試數(shù)據(jù)按模型輸入進(jìn)行預(yù)處理,將模型的返回結(jié)果映射成類別標(biāo)簽,將類別標(biāo)簽與真實(shí)標(biāo)簽比較進(jìn)行測試指標(biāo)計(jì)算、統(tǒng)計(jì)。
(2)檢測任務(wù)。將測試數(shù)據(jù)按模型輸入進(jìn)行預(yù)處理,將模型返回結(jié)果進(jìn)行解析,將解析出的結(jié)果映射到原圖形成真實(shí)的檢出框位置、置信度和類別,根據(jù)這些信息與真實(shí)標(biāo)注比較進(jìn)行測試指標(biāo)計(jì)算、統(tǒng)計(jì)。
(3)分割任務(wù)。將測試數(shù)據(jù)按模型輸入進(jìn)行預(yù)處理,將模型返回結(jié)果進(jìn)行解析,得到目標(biāo)物體的類別和掩碼,將物體類別和掩碼與真實(shí)標(biāo)注比較進(jìn)行指標(biāo)的計(jì)算、統(tǒng)計(jì)。
3.2.2 測試規(guī)范設(shè)計(jì)
在實(shí)際驗(yàn)證模型效果的過程中,建議每個分類需要準(zhǔn)備20 張以上;一般建議每個類別準(zhǔn)備100張左右測試圖片。圖片格式參考訓(xùn)練圖像數(shù)據(jù)格式,且需與實(shí)際場景相近,能覆蓋實(shí)際場景里面的可能性,如拍照角度、光線明暗的變化。分類任務(wù)中,需要標(biāo)注圖片的類別;檢測任務(wù),需要標(biāo)注圖中存在所有待檢測目標(biāo)的位置及類別;分割任務(wù),需要標(biāo)注所需分割目標(biāo)的邊緣及類別。
3.2.3 測試指標(biāo)設(shè)計(jì)
根據(jù)模型類型,在標(biāo)注好的測試集上對需要的測試指標(biāo)進(jìn)行統(tǒng)計(jì)。具體的評估指標(biāo)有如下幾類:
(1)準(zhǔn)確率(accuracy)。預(yù)測正確的樣本數(shù)量占總量的百分比。測試樣本不均衡時,這個指標(biāo)不能評價(jià)模型的性能優(yōu)劣,需結(jié)合其他指標(biāo)一起使用。
(2)精準(zhǔn)率(precision)。針對預(yù)測結(jié)果而言的一個評價(jià)指標(biāo)。在模型預(yù)測為正樣本的結(jié)果中,真正是正樣本所占的百分比。
(3)召回率(recall)。針對原始樣本而言的一個評價(jià)指標(biāo)。在實(shí)際為正樣本中,被預(yù)測為正樣本所占的百分比。
(4)PR 曲線。主要描述精確率和召回率變化的曲線,用于比較不同模型在各閾值下的整體性能優(yōu)劣。通過置信度對所有樣本進(jìn)行排序,再逐個樣本的選擇閾值,在該樣本之前的都屬于正例,該樣本之后的都屬于負(fù)例。每一個樣本作為劃分閾值時,都可以計(jì)算對應(yīng)的precision和recall,以此繪制曲線。
(5)ROC 和AUC。ROC(receiver operating characteristic)曲線,又稱接受者操作特征曲線。曲線對應(yīng)的縱坐標(biāo)是TPR,橫坐標(biāo)是FPR。其中,TPR 含義是檢測出來的真陽性樣本數(shù)除以所有真實(shí)陽性樣本數(shù),F(xiàn)PR 含義是檢測出來的假陽性樣本數(shù)除以所有真實(shí)陰性樣本數(shù)。AUC(area under curve)是處于ROC 曲線下方的那部分面積的大小。AUC 越大,代表模型的性能越好??梢杂糜诒容^人臉識別模型性能的優(yōu)劣。
(6)類別平均精準(zhǔn)度(mean average precision,mAP)。一般在目標(biāo)檢測中結(jié)合IOU 使用。多個IOU 閾值在每一個IOU 閾值下都有某一類別的AP值,然后求不同IOU閾值下的AP平均,就是所求的最終的某類別的AP 值。所有類的AP 值平均值就是mAP。mAP 一般用于需要精確檢測框的檢測模型評價(jià)指標(biāo)。
本文基于個人網(wǎng)盤業(yè)務(wù)長期發(fā)展趨勢,結(jié)合人工智能技術(shù)分析了可行性的業(yè)務(wù)結(jié)合應(yīng)用場景。針對多種多樣的應(yīng)用場景,本文提出了人工智能在個人網(wǎng)盤應(yīng)用的模型訓(xùn)練與模型測試規(guī)范。該設(shè)計(jì)規(guī)范方案涵蓋多種人工智能技術(shù)應(yīng)用場景,為研究落地,技術(shù)功能實(shí)現(xiàn)提供了一套行之有效的模型訓(xùn)練、測試的設(shè)計(jì)方案。這對后續(xù)能力與業(yè)務(wù)結(jié)合的建設(shè)開發(fā)工作具有指導(dǎo)價(jià)值與參考意義。