湖北民族學院 李雙稀 王 強 嚴梓歡 李 超
基于人臉識別的商業(yè)大數(shù)據分析
湖北民族學院 李雙稀 王 強 嚴梓歡 李 超
廣告推薦系統(tǒng)通過建立用戶與信息產品之間的二元關系, 利用已有的選擇過程或相似性關系挖掘每個用戶潛在感興趣的對象, 進而進行個性化推薦, 其本質就是信息過濾.個性化推薦系統(tǒng)不僅在社會經濟中具有重要的應用價值, 而且也是一個非常值得研究的科學問題。
數(shù)據挖掘;人臉識別;廣告推薦
互聯(lián)網的發(fā)展,信息技術的日漸成熟,海量的數(shù)據中蘊藏著豐富的知識,一方面商家無法準確判斷這些指數(shù),另一方面客戶無法發(fā)現(xiàn)自己的真正愛好,大數(shù)據分析技術可以發(fā)現(xiàn)其中知識。廣告行業(yè),同樣存在可以挖掘的知識,如:什么樣的廣告在什么時段位置投放可以取得理想的效果,商品關注趨勢,客戶對商品的關注度分析,客戶對推薦廣告的滿意度,客戶喜歡的廣告模式……考慮到以上市場需求,利用現(xiàn)有技術開發(fā)出這樣一款產品不僅能夠提高商家對市場的了解程度,而且可以有效地做出相應決策,幫助商家為客戶提供更好的服務,同時可以幫助客戶發(fā)現(xiàn)自己真正感興趣的商品,幫助客戶法向一些閃人問津的“暗信息”。
本系統(tǒng)主要是幫助商家做出更加合理的決策為客戶提供更有好多服務。我們借助于人臉識別技術,采集用戶對商品的反饋信息。在各大商場的數(shù)字標牌廣告機安裝我們的圖片采集器并上傳到服務器,然后利用人臉分析技術分析出客戶的年齡、性別、表情、姿勢、關注時長、關注時間段、關注的廣告信息……有了這些基礎數(shù)據,現(xiàn)在可以在數(shù)據預處理階段計算出商場各時段的客流量、客戶性別年齡性格分布情況、客戶位置分布、天氣信息……數(shù)據處理階段我們利用統(tǒng)計學習,機器學習算法對客戶的各種特征數(shù)據和廣告的特征數(shù)據建立各種關系模型,利用上面得出的數(shù)據學習出模型;對客戶分類,對特定的類型客戶學習出模型;基于上面學習出的模型在數(shù)字標牌廣告機中投放廣告;最后評估模型的好壞,反復學習,反復訓練出更好的模型。
本系統(tǒng)主要涉及兩大技術難點:人臉分析、數(shù)據處理。人臉分析模塊采用深度學習框架CNTK做人臉檢測、人臉對齊,使用opencv圖像處理。數(shù)據分析模塊采用spark框架中的機器學習子框架做模型訓練、分類、關聯(lián)分析、頻繁模式挖掘。同時為了提高計算能力,我們將整個系統(tǒng)移植到hadoop平臺并采用spark作為計算框架。
經過這么長時間的努力,我們學習到了許多東西,有工程實踐方面的,也有學習方法上面的,還有團隊合作方面的……這些寶貴的東西才是值得我們學習銘記。同樣也折射出相當多的問題,系統(tǒng)運行速度方面、系統(tǒng)安全方面、信息采集、算法優(yōu)劣、等等。這些小方面的問題累積起來最終都會對我們系統(tǒng)的整體性能造成極大的影響,因此今后在開發(fā)的過程中在考慮將現(xiàn)有技術使用到系統(tǒng)中的時候不能總是追求技術的新,要從整體出發(fā),綜合考慮,在做出詳細的計劃,最后一步一步的實現(xiàn)。
[1]MENG Xiang-wu, JI Wei-yu, ZHANG Yu-jie. A Survey of Recommendation Systems in Big Data .
[2]Tu DD, Shu CC, Yu HY. Using unified probabilistic matrix factorization for contextual advertisement recommendation. Ruanjian Xuebao/Journal of Software, 2013,24(3):454 464 (in Chinese). http:// www.jos.org.cn/1000-9825/ 4238.htm
指導老師:李超。