富媒體聚合過程中人工智能應(yīng)用研究

2020-07-26 14:23:53張路吳正威

軟件導(dǎo)刊 2020年7期

張路吳正威

摘要：為了提高富媒體聚合過程的資源利用效率，特別是針對資料標(biāo)簽化工作量龐大的問題，運用語義分析與圖片識別等一系列人工智能技術(shù)，對富媒體生產(chǎn)制作流程進行改進，可將資源標(biāo)簽化效率提高80%以上，為產(chǎn)出高質(zhì)量的富媒體資源提供強大的技術(shù)支持。

關(guān)鍵詞：富媒體聚合;人工智能;標(biāo)簽

DOI：10. 11907/rjdk. 192231 開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

中圖分類號：TP301文獻標(biāo)識碼：A 文章編號：1672-7800（2020）007-0046-04

Research on the Application of AI in the Process of Rich Media Aggregation

ZHANG Lu1，2，WU Zheng-wei3

（1.Central Propaganda Department Organ Service Center， Beijing 100052，China;2. School of Software，Beijing Jiaotong University， Beijing 100044，China;3.Jiangsu Ruitai Digital Media Co.， Ltd.， Wuxi 214072，China）

Abstract：In order to improve the efficiency of resource utilization in the process of rich media aggregation， especially in view of the huge amount of data tagging， a series of artificial intelligence technologies such as semantic analysis and image recognition are used to improve the production process of rich media， which can increase the efficiency of resource tagging by more than 80%， and provide strong technical support for the production of high-quality rich media resources.

Key Words： rich media aggregation; artificial intelligence; tag

0 引言

在短短20年間，信息技術(shù)的發(fā)展一日千里。隨著計算機存儲容量和網(wǎng)絡(luò)速度的不斷提高，每時每刻都會產(chǎn)生海量的多媒體數(shù)據(jù)。同時，隨著交互技術(shù)的發(fā)展，除傳統(tǒng)的鼠標(biāo)鍵盤輸入方式外，觸屏交互方式顛覆了以往PC時代的人機交互界面，媒體交互也呈現(xiàn)出更為豐富的形式。

與此同時，出現(xiàn)了一種新的媒體呈現(xiàn)形態(tài)，通常被稱為富媒體[1]，即融合了文字、圖片、音頻、視頻等，既包含媒體內(nèi)容，又具備交互功能的一種媒體聚合形態(tài)。

聚合后的富媒體內(nèi)容能更好地凸顯與表現(xiàn)內(nèi)容主題，因此深受人們喜愛。但同時也可以看到，在富媒體的生產(chǎn)制作環(huán)節(jié)，編輯們在海量的媒體資源面前，往往需要耗費大量精力對媒體資源進行整合。富媒體聚合面臨多種問題亟待解決，這也成為當(dāng)下富媒體應(yīng)用的主要瓶頸。人工智能技術(shù)的蓬勃發(fā)展，為解決這些問題提供了很好的技術(shù)基礎(chǔ)，將對富媒體的進一步發(fā)展起著重要的推動作用。

結(jié)合人工智能發(fā)展趨勢[3-4]，針對不同媒體資源，可以采取不同智能手段提升工作效率。針對文本，主要結(jié)合語義分析技術(shù)[8]對文本進行再加工;針對圖片，主要采用圖像識別的方式[11-12，20]提升工作效率。

本文將對富媒體制作流程進行梳理，同時在文本及圖片應(yīng)用場景下，對采用傳統(tǒng)工作方式與人工智能技術(shù)后的工作效率進行對比分析，以體現(xiàn)運用人工智能技術(shù)的優(yōu)勢，并為富媒體未來的發(fā)展提出建議。

1 人工智能

1.1 人工智能定義

人工智能（Artificial Intelligence，AI）是研究、開發(fā)用于模擬、延伸與擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新興技術(shù)科學(xué)，研究范圍包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。

1.2 人工智能發(fā)展

人工智能技術(shù)涉及學(xué)科較多，發(fā)展歷程相對緩慢。由圖1可以看出，在上世紀(jì)初期，人工智能的研究開始興起，并從初級的手工知識階段逐步過渡到統(tǒng)計學(xué)習(xí)階段。到本世紀(jì)初，隨著計算與存儲技術(shù)的發(fā)展，大數(shù)據(jù)技術(shù)也日趨成熟，統(tǒng)計分析效率得到成倍提升，從而使人工智能技術(shù)也得到了飛速發(fā)展。伴隨著深度學(xué)習(xí)的運用，目前已逐步邁入第三階段的語境順應(yīng)階段。

1.3 媒體技術(shù)中的人工智能

在媒體技術(shù)領(lǐng)域主要涉及機器視覺、語言與圖像理解、自動規(guī)劃、智能搜索、語音識別、語音合成等方面的人工智能應(yīng)用。

富媒體制作是在獲得各類媒體資源后進行聚合加工創(chuàng)作，之后再進行發(fā)布的過程。針對媒體聚合過程效率較低的問題，如何更高效地進行富媒體內(nèi)容聚合，成為媒體人關(guān)注的首要問題。因此，可考慮通過引入人工智能技術(shù)以解決目前遇到的一些問題。

2 需求分析

如何對海量媒體資源進行有效的管理與應(yīng)用，已成為影響日常富媒體制作效率的關(guān)鍵問題。針對不同媒體類型，有著不同的使用需求，以下將依次進行分析。

2.1 文本應(yīng)用

文本內(nèi)容屬于最常見的內(nèi)容載體，基于其自身特點，通常需要進行存儲與檢索。在檢索過程中，用戶會希望檢索到更符合需要的文字，這種需求又可分為精確需求與關(guān)聯(lián)需求，即推薦。常規(guī)或傳統(tǒng)文件工具是以關(guān)系型數(shù)據(jù)庫為基礎(chǔ)的平臺，由于缺乏分詞能力，往往會檢索出很多無效數(shù)據(jù)，從而導(dǎo)致制作效率低下。

同時，作為出版內(nèi)容，敏感詞審核也非常重要，但目前大量內(nèi)容仍需要依靠編輯進行人工審核，工作量巨大，且效率不高。

另外，文本與音視頻之間有著間接的耦合關(guān)系，特別對于兒童群體，由于認(rèn)知的限制，無法有效進行閱讀。如果能將文本轉(zhuǎn)換為語音形式，則能讓該群體接觸到更多內(nèi)容。但受限于人工配音的高昂成本，以及音色及場景的復(fù)雜性，傳統(tǒng)方式無法實現(xiàn)規(guī)?；?/p>

2.2 圖片應(yīng)用

在圖片領(lǐng)域，涉及到對圖片的鑒別，即確認(rèn)圖片來源的合法性與可用性。在版權(quán)意識逐漸強化的大背景下，判斷素材資源是否涉及侵權(quán)，是否存在如色情/涉政等非法內(nèi)容，也需要在使用圖片前進行鑒別。同時，對圖片中文字合法性的審查也是十分必要的。

圖像識別結(jié)果主要體現(xiàn)為標(biāo)簽化，即通過編輯的查看對圖片進行標(biāo)簽化管理的過程，標(biāo)簽化主要為了便于在后期應(yīng)用過程中快速找到相應(yīng)內(nèi)容。人工方式同樣存在效率低下的問題，比如在出現(xiàn)新的標(biāo)簽需求后，編輯需要重新對圖片進行查閱，從而確認(rèn)是否需要重新進行標(biāo)簽化，這一過程費時又費力。

2.3 音頻應(yīng)用

音頻由于不可見，在應(yīng)用過程中通常難以進行標(biāo)簽化處理。針對音頻的標(biāo)簽化，一方面可對音頻中包含的歌詞內(nèi)容進行分析與處理，形成標(biāo)簽;另一方面可針對音樂場景或情感制作分類標(biāo)簽，這類標(biāo)簽則更為復(fù)雜，同時依賴于個人的欣賞水平與音樂素養(yǎng)。對歌詞內(nèi)容的解析，需要事先將音頻中的語音識別為文字，因此可運用語音識別技術(shù)，提取其中的語音信息轉(zhuǎn)換為所需的文本內(nèi)容。

2.4 視頻應(yīng)用

視頻可認(rèn)為是圖像與音頻的集合，同樣需要對視頻內(nèi)容進行審查與標(biāo)簽化，而這一過程同樣是耗時又耗力的，往往很難快速形成大量標(biāo)注后的視頻，因此也無法有效應(yīng)用于實際需求中。

綜上所述，在目前的富媒體制作過程中，需要對收集的媒體資源進行大量復(fù)雜的標(biāo)簽化工作。若缺乏有效標(biāo)注，在選擇素材時，檢索或推薦素材的匹配度則會較低，需要更多人工介入。因此，本文考慮運用人工智能技術(shù)提高相關(guān)工作效率，從而進一步提升富媒體制作效率。

3 人工智能富媒體聚合平臺設(shè)計

富媒體工具本身是基于對媒體資源的整合，而這些媒體資源往往是由后端平臺承載的。本文構(gòu)建一個智能化平臺與富媒體工具進行無縫對接，在整個富媒體加工過程中充分運用AI技術(shù)。富媒體聚合平臺如圖2所示。

從媒體資源輸入到媒體聚合后輸出，通過集成人工智能技術(shù)，可提升整體工作效率。對于各類可文本化的資源進行語義化識別，之后進行相應(yīng)標(biāo)簽化;對于不同場景，通過深度學(xué)習(xí)不斷提高輸入端處理能力。在制作富媒體資源時，系統(tǒng)可結(jié)合用戶行為特征與主題內(nèi)容特征進行精確查找與關(guān)聯(lián)推薦，為用戶提供高效的素材資源服務(wù)，從而加快富媒體資源聚合進程，高效、便捷地進行富媒體資源生產(chǎn)與輸出。

4 人工智能技術(shù)應(yīng)用

面對編輯不斷提高的制作標(biāo)準(zhǔn)，本文考慮在不同領(lǐng)域應(yīng)用不同的AI技術(shù)以解決目前所遇到的問題。

4.1 文本領(lǐng)域應(yīng)用

文字存儲與檢索應(yīng)用是數(shù)據(jù)庫技術(shù)時代的基本應(yīng)用，而在人工智能時代，單純的文字檢索已遠遠不能滿足人們的應(yīng)用需求。因此，通過智能的語義分析技術(shù)（NLP），可按照更符合人類日常的語言交流習(xí)慣，對被檢索的文本對象進行標(biāo)識，從而避免檢索時出現(xiàn)詞同義不達的情況。基于語義的分析，一方面可形成更精確的標(biāo)簽，另一方面可大大提高對敏感詞的識別準(zhǔn)確率，以避免過度過濾。結(jié)合行業(yè)、場景、業(yè)務(wù)等不同維度，可使各類文本標(biāo)簽形成相互關(guān)聯(lián)、相互影響的標(biāo)簽網(wǎng)絡(luò)體系，從而更好地理解用戶檢索需求。

另外，文字通過結(jié)合語音合成技術(shù)，可實現(xiàn)音頻的快速輸出，從而降低特殊人群獲取文本內(nèi)容時的門檻。更進一步，在獲取用戶屬性信息的情況下，可結(jié)合不同語音角色進行針對性選擇后再輸出，如兒童可以使用卡通類配音，小學(xué)生可以使用青少年配音等，從而大大提升富媒體的表現(xiàn)力，使媒體內(nèi)容更為豐富多彩，能更好地吸引用戶注意力。

針對文本領(lǐng)域的應(yīng)用，以下通過實驗進行對比研究。通過人工方式對文本內(nèi)容進行標(biāo)簽化，首先需要閱讀全文，從中找到合適的標(biāo)記內(nèi)容。針對篇幅為一萬字的文章，按照一個編輯500字/min的常規(guī)閱讀速度，閱讀時長大約為20min;然后結(jié)合閱讀內(nèi)容進行標(biāo)簽化處理，之后進行系統(tǒng)錄入。錄入時間因系統(tǒng)不同而存在差異，本文取平均約2min/個標(biāo)簽作為標(biāo)簽錄入時間。一萬字的文章在提取10個標(biāo)簽的情況下，整個工作時長預(yù)計為：20 min +2 min /個*10個=40 min。由此可知，完成10個標(biāo)簽的標(biāo)記工作，從閱讀、標(biāo)記到錄入共需要40 min的作業(yè)時長。同時這一工作是基于線性的方式，也即編輯在進行上述工作時無法同時進行其它工作。

采用基于人工智能的方式，首先運用語義識別引擎，閱讀約16萬字內(nèi)容花費時間約為0.2s，解析準(zhǔn)確率約為90%，即每萬字平均閱讀時間約為0.0125s;然后通過系統(tǒng)自動進行錄入，10條標(biāo)簽信息記錄在0.1s的時間內(nèi)即可完成錄入;結(jié)合業(yè)務(wù)需要，對入庫的標(biāo)簽再次進行人工審核，10個標(biāo)簽，每個標(biāo)簽50個文字左右，預(yù)計總閱讀量為500字，需要花費1min左右的時間。因此，運用人工智能方式結(jié)合人工審核模式，每萬字的時間開銷為：0.0125s+0.1s+1 min≈1 min。由此可見，每萬字的標(biāo)簽化時間由原來的40 min減少到1 min左右，花費時間減少了97.5%。

以上是基于單個處理過程獨立運行的場景，在充分利用計算機的并行處理能力之后，處理速度還有很大的提升空間。

4.2 圖像領(lǐng)域應(yīng)用

圖像識別技術(shù)已日趨成熟，運用圖像識別技術(shù)可以對大批量圖像進行審核，從而過濾或標(biāo)識出有問題的圖像，比如暴力、色情及政治敏感的圖像等。

運用事先訓(xùn)練好的標(biāo)簽庫，可快速進行智能化標(biāo)引工作，對不同物體、場景等高效地進行自動識別。在完成標(biāo)簽化工作后，需進一步提高用戶使用過程中的匹配準(zhǔn)確度。例如對太陽進行識別時，還可同時對太陽拍攝時間，如朝陽、烈日或夕陽等進行更精準(zhǔn)的識別，從而使用戶后期使用時能大大提高檢索準(zhǔn)確率。

識別工作并非一次性完成，在出現(xiàn)新標(biāo)簽或新場景時，需要對既有素材再一次進行識別與標(biāo)簽化工作。此時運用機器學(xué)習(xí)方法對新標(biāo)簽進行學(xué)習(xí)后，新標(biāo)簽的標(biāo)注工作都可以交由人工智能技術(shù)完成，從而大大減少了編輯工作量。

圖片檢索技術(shù)的應(yīng)用可有效解決在文字檢索過程中，描述上存在一定局限性或不完整等情況。在形狀、色彩、場景等無法進行精確描述時，圖片檢索方式將更為高效和便捷。如在圖片版權(quán)審查方面，人工審查是比較困難的，通過圖片檢索技術(shù)，結(jié)合第三方圖片版權(quán)庫，可以有效提高版權(quán)審查效率。

針對圖像領(lǐng)域的應(yīng)用，以下也通過實驗進行對比研究。在人工鑒圖的場景下，平均效率約為1 200張/小時，即每秒0.33張（1張/3秒）。通過采用人工智能技術(shù)，如圖3所示，在采用不同算法的情況下，單張圖片的識別時間大約為不到1ms，而且隨著時間推移，識別時間還會不斷減少。

目前對單張圖片的識別時間最快為0.637 3ms，換算成每秒，即1 569張/秒，相比人工方式提高了約4 707倍，在識別效率上提高了99.978 8%，而且準(zhǔn)確率可達到92.980 2%，從而大幅提高了識別效率，對于無法確定的部分再由人工進行標(biāo)注。

4.3 音頻領(lǐng)域應(yīng)用

通過語音識別技術(shù)將音頻轉(zhuǎn)換為文字內(nèi)容后，可以再輕松地運用文本領(lǐng)域的智能化技術(shù)，在完成語義分析后進行標(biāo)簽化工作，從而極大地提高了語音內(nèi)容的可標(biāo)識性。

在制作不同主題內(nèi)容時，針對場景需求，可以快速從媒體庫中找到所需的音頻素材，而不需要編輯花費太多時間聆聽后再選曲。

4.4 視頻領(lǐng)域應(yīng)用

視頻領(lǐng)域的人工智能應(yīng)用可以綜合運用以上語音、圖片和文字的智能技術(shù)，提高視頻內(nèi)容標(biāo)簽化過程工作效率。其中對音頻除常規(guī)應(yīng)用外，通過集成翻譯技術(shù)，可以將其轉(zhuǎn)換成所需的字幕內(nèi)容，使視頻獲得更多受眾。

4.5 標(biāo)簽更新

隨著時間推移，媒體資源庫通常需要不斷地添加與調(diào)整資源的標(biāo)簽內(nèi)容，在做這類重復(fù)性工作時，同樣可以采用人工智能技術(shù)進行初期篩選，之后再進行人工審核。長此以往，可以顯著提升工作效率。

5 結(jié)語

本文對人工智能技術(shù)在富媒體制作過程中的運用場景進行分析，通過采用人工智能技術(shù)提高資源標(biāo)簽化效率，為產(chǎn)出高質(zhì)量的富媒體資源提供了強大的技術(shù)支持?？梢灶A(yù)見的是，未來隨著人工智能技術(shù)的發(fā)展越來越成熟，很多低效率的重復(fù)性工作都可交由人工智能技術(shù)協(xié)助完成，從而使編輯和制作人員有更多時間投入到內(nèi)容創(chuàng)作中，將對富媒體的進一步發(fā)展產(chǎn)生重要促進作用。

參考文獻：

[1] 傅乃芹. 富媒體與文學(xué)出版物的富媒體開發(fā)[J]. 出版發(fā)行研究，2016（1）：50-52.

[2] 劉瓊昕，宋祥，王鵬. 面向出版社富媒體知識的文本分類研究[J]. 情報工程，2019，5（2）：40-48.

[3] 汪濤. 人工智能發(fā)展將駛?cè)肟燔嚨繹J]. 中國科技產(chǎn)業(yè)，2019（9）：10-11.

[4] 婁宇爽，李四達. 人工智能設(shè)計的發(fā)展趨勢研究[J]. 藝術(shù)與設(shè)計：理論，2019，2（7）：87-89.

[5] 吳戈. 機器翻譯：語義還是數(shù)據(jù)——人工智能視域下的語義問題與哲學(xué)反思[J]. 河南社會科學(xué)，2019，27（4）：75-80.

[6] 劉宓慶. 翻譯與語言哲學(xué)[J]. 外語與外語教學(xué)，1998（10）：42-45.

[7] 劉喬輝. 計算機人工智能識別技術(shù)的應(yīng)用探討[J]. 科技風(fēng)，2016（4）：121-122.

[8] 李振，周東岱，王勇. “人工智能+”視域下的教育知識圖譜：內(nèi)涵、技術(shù)框架與應(yīng)用研究[J]. 遠程教育雜志，2019，37（4）：42-53.

[9] 高源. 自然語言處理發(fā)展與應(yīng)用概述[J]. 中國新通信，2019，21（2）：117-118.

[10] 趙園丁. 淺談人工智能時代背景下自然語言處理技術(shù)的發(fā)展應(yīng)用[J]. 辦公自動化，2019，24（10）：63-64.

[11] 酈濤. 基于人工智能的圖像識別技術(shù)的研究[J]. 通訊世界，2019，26（8）：69-70.

[12] 任萌. 圖像視覺識別算法概述[J]. 智能計算機與應(yīng)用，2019，9（3）：294-297.

[13] 紀(jì)漢霖，黃嘉冬. 我國人工智能產(chǎn)業(yè)發(fā)展及應(yīng)用研究[J]. 軟件導(dǎo)刊， 2019， 18（3）： 34-38.

[14] 過馨露. 人工智能技術(shù)及其應(yīng)用探究[J]. 軟件導(dǎo)刊，2018，17（2）：35-37.

[15] 王曉陽. 人工智能能否超越人類智能[J]. 自然辯證法研究，2015，31（7）：104-110.

[16] WU B，LYU S，HU B G，et al. Multi-label learning with missing labels for image annotation and facial action unit recognition[J]. Pattern Recognition， 2015， 48（7）：2279-2289.

[17] ZHOU Z H，ZHANG M L，HUANG S J，et al. Multi-instance multi-label learning[J]. Artificial Intelligence，2008，176（1）：2291-2320.

[18] THOMAS L，CAROL P，OANH D，et al. Evaluation of natural language processing （NLP） systems to annotate drug product labeling with MedDRA terminology[J]. Journal of Biomedical Informatics， 2018， 83：73-86.

[19] SOUILI A，CAVALLUCCI D，ROUSSELOT F. Natural Language Processing （NLP） -a solution for knowledge extraction from patent unstructured data[J].? Procedia Engineering， 2015，131：635-643.

[20] WENZHU Y，QING L，SILE W，et al. Down image recognition based on deep convolutional neural network school of cyber security and computer[J]. Information Processing in Agriculture，2018（2）：246-252.

（責(zé)任編輯：黃健）