高曉雪
隨著人工智能的飛速進(jìn)步,音頻領(lǐng)域正經(jīng)歷著前所未有的變革。在此過(guò)程中,音頻算法工程師發(fā)揮了極其重要的作用。他們以電子技術(shù)、應(yīng)用聲學(xué)和聲電換能原理為關(guān)鍵技術(shù),在吸收、融合其他學(xué)科的研究成果的基礎(chǔ)上,不斷優(yōu)化和改進(jìn)音頻處理算法,突破了現(xiàn)實(shí)與虛擬世界的界限,為用戶(hù)構(gòu)建出了三維沉浸式的聽(tīng)覺(jué)環(huán)境。近日,《中國(guó)經(jīng)貿(mào)》雜志記者采訪了有著豐富經(jīng)驗(yàn)的音頻算法工程師杭睿翔,在分享自己職業(yè)經(jīng)歷的過(guò)程中,讓我們看到音頻技術(shù)的廣泛應(yīng)用場(chǎng)景和商業(yè)價(jià)值。
杭睿翔,畢業(yè)于廣西師范大學(xué),EE電子工程專(zhuān)業(yè)。精通C/C++、Python等計(jì)算機(jī)語(yǔ)言,具備數(shù)字信號(hào)處理、深度學(xué)習(xí)、音頻混合、音樂(lè)編曲等能力,尤其擅長(zhǎng)音頻技術(shù)、數(shù)據(jù)分析、實(shí)時(shí)通信(RTC)和計(jì)算機(jī)音樂(lè)、量子計(jì)算等前沿技術(shù)。當(dāng)前,就職于傳音控股股份有限公司(Transsion Holdings Co.Ltd.),擔(dān)任音頻技術(shù)總監(jiān)職務(wù),主要研發(fā)基于Android平臺(tái)的聲音效果算法功能。
作為音頻技術(shù)管理人才,杭睿翔對(duì)空間音頻的商業(yè)應(yīng)用有清晰的認(rèn)知。2016年,他加入TBTech Inc.負(fù)責(zé)第一代虛擬樂(lè)器(7弦重金屬吉他)算法開(kāi)發(fā),這種虛擬樂(lè)器非常適合重金屬風(fēng)格的音樂(lè)作品創(chuàng)作。作為算法音頻工程師,他主要負(fù)責(zé)音源軟件的設(shè)計(jì)與開(kāi)發(fā)。比如,壓縮混響、失真、延遲等效果模塊的算法設(shè)計(jì)開(kāi)發(fā),時(shí)間拉伸、高位位移、共振峰值調(diào)整等音頻特效的算法設(shè)計(jì)開(kāi)發(fā),以及完成采樣記錄和預(yù)處理工作。杭睿翔表示,音源軟件是專(zhuān)業(yè)音樂(lè)人的生產(chǎn)工具,在音樂(lè)制作過(guò)程中,通過(guò)數(shù)字化手段減少了尋找專(zhuān)業(yè)樂(lè)手和樂(lè)器錄音的環(huán)節(jié),從而節(jié)省了制作成本,提升了音樂(lè)作品制作效率。值得一提的是,音源軟件的出現(xiàn),為眾多音樂(lè)行業(yè)從業(yè)者提供了極大的便利,使其在音樂(lè)創(chuàng)作過(guò)程中,能夠借助音源軟件制作出高水平的音樂(lè)作品。不難發(fā)現(xiàn),通過(guò)音頻技術(shù)的賦能,讓音樂(lè)插上了科技的翅膀,也在很大程度上為音樂(lè)生產(chǎn)提供了全新的視角。
在該公司三年的時(shí)間里,杭睿翔對(duì)音頻技術(shù)有了更多認(rèn)識(shí)。2019年,隨著元宇宙概念的興起,蘋(píng)果Vision Pro設(shè)備展示了空間計(jì)算與現(xiàn)實(shí)的無(wú)縫鏈接、數(shù)字孿生和沉浸式購(gòu)物紛至沓來(lái)……種種跡象預(yù)示著市場(chǎng)對(duì)新型數(shù)字體驗(yàn)有強(qiáng)烈的需求。杭睿翔意識(shí)到,在即將到來(lái)的Web3.0時(shí)代里,音頻技術(shù)將是人們走進(jìn)三維沉浸式網(wǎng)絡(luò)世界的重要工具,將無(wú)縫融合數(shù)字內(nèi)容與物理世界。在此背景下,他加入了Agora Inc,該公司是全球?qū)崟r(shí)互動(dòng)云服務(wù)開(kāi)創(chuàng)者和引領(lǐng)者,聲網(wǎng)API已經(jīng)賦能社交直播、教育、游戲電競(jìng)、IoT、AR/VR、金融、保險(xiǎn)、醫(yī)療、企業(yè)協(xié)作等多個(gè)行業(yè)賽道,尤其Agora的第一代空間音頻渲染引擎,已經(jīng)成功應(yīng)用于RTC中的元宇宙領(lǐng)域。
杭睿翔主要負(fù)責(zé)空間音頻算法設(shè)計(jì)和模塊開(kāi)發(fā),如直接聲音和反射聲音模擬、空間傳遞函數(shù)處理、聲場(chǎng)處理等。通過(guò)音頻處理技術(shù),模擬出聲音在三維空間中的傳播和變化效果,實(shí)現(xiàn)對(duì)聲音的3D定位,讓用戶(hù)感受到聲音來(lái)自不同的方向和距離,創(chuàng)造出更加逼真和沉浸的聽(tīng)覺(jué)體驗(yàn),進(jìn)而提升用戶(hù)的參與感和體驗(yàn)感。
杭睿翔認(rèn)為,空間渲染技術(shù)能夠具有廣闊的應(yīng)用場(chǎng)景,能夠更好地幫助人們模擬和控制聲音效果。比如,車(chē)載音樂(lè)、虛擬現(xiàn)實(shí)、社交應(yīng)用等領(lǐng)域,通過(guò)音頻空間渲染技術(shù),能夠?qū)崿F(xiàn)更加真實(shí)、自然的聽(tīng)覺(jué)體驗(yàn)。
“通俗來(lái)講,空間音頻渲染引擎的實(shí)現(xiàn)過(guò)程包括音頻采集、處理和呈現(xiàn)三個(gè)環(huán)節(jié)。在采集環(huán)節(jié),通過(guò)多聲道采集設(shè)備,獲取聲音的原始數(shù)據(jù)。在處理環(huán)節(jié),利用算法對(duì)采集到的聲音數(shù)據(jù)進(jìn)行處理,包括混響、反射、散射等模擬,以及對(duì)聲場(chǎng)寬度、高度、深度的調(diào)整等,最終生成具有三維空間感的聲音數(shù)據(jù)。在呈現(xiàn)環(huán)節(jié),通過(guò)耳機(jī)、揚(yáng)聲器等設(shè)備將處理后的聲音數(shù)據(jù)播放出來(lái),讓用戶(hù)感受到聲音的立體感和空間感。比如,虛擬會(huì)議場(chǎng)景中,通過(guò)空間音頻渲染,能夠讓與會(huì)者拉近距離,甚至能夠模擬出不同位置的發(fā)聲效果。”杭睿翔向筆者這樣解釋。
同時(shí),杭睿翔還精通RTC技術(shù),并基于RTC設(shè)計(jì)了音頻美化處理解決方案,以及設(shè)計(jì)了RTC中的音頻質(zhì)量評(píng)估和最佳體驗(yàn)優(yōu)化解決方案。
2022年,杭睿翔加入傳音控股股份有限公司,該公司是一家致力于成為新興市場(chǎng)消費(fèi)者最喜愛(ài)的智能終端產(chǎn)品和移動(dòng)互聯(lián)服務(wù)提供商,長(zhǎng)期著力為用戶(hù)提供優(yōu)質(zhì)的以手機(jī)為核心的多品牌智能終端,并基于自主研發(fā)的智能終端操作系統(tǒng)和流量入口,為用戶(hù)提供移動(dòng)互聯(lián)網(wǎng)服務(wù),旗下?lián)碛行屡d市場(chǎng)知名手機(jī)品牌TECNO、itel和Infinix。傳音品牌手機(jī)在非洲市場(chǎng)保持著絕對(duì)的領(lǐng)先優(yōu)勢(shì),目前傳音在全球手機(jī)市場(chǎng)的占有率排名第三。
在競(jìng)爭(zhēng)激烈的手機(jī)市場(chǎng),只有具備強(qiáng)大的產(chǎn)品創(chuàng)新能力,才能在同行中保持競(jìng)爭(zhēng)力。杭睿翔告訴筆者,隨著手機(jī)智能化不斷提升,客戶(hù)對(duì)手機(jī)功能的體驗(yàn)感逐日增強(qiáng)。音頻作為衡量手機(jī)功能的要素,必須不斷地在音頻技術(shù)上進(jìn)行創(chuàng)新和優(yōu)化,為用戶(hù)創(chuàng)造沉浸式的音頻空間。因此,杭睿翔將空間音頻技術(shù)和游戲行業(yè)深度融合,并通過(guò)游戲引擎植入到對(duì)應(yīng)的手機(jī)應(yīng)用平臺(tái),進(jìn)一步提升和豐富傳音手機(jī)功能,以豐富的實(shí)踐經(jīng)驗(yàn)和先進(jìn)的音頻技術(shù)算法,讓聲音能夠在三維空間中自由移動(dòng),實(shí)時(shí)匹配玩家視角和行動(dòng),從而獲得更真實(shí)、立體的聽(tīng)覺(jué)感受。比如,在和平精英、王者榮耀等等此類(lèi)協(xié)同游戲中,通過(guò)分布式沉浸聲音空間,讓玩家能夠快人一步做出反應(yīng)動(dòng)作,感受更加真實(shí)的聲音空間,讓每次聽(tīng)覺(jué)都充滿(mǎn)驚喜。
作為音頻技術(shù)總監(jiān),杭睿翔通過(guò)改進(jìn)基本音頻功能,優(yōu)化音頻算法處理邏輯,通過(guò)設(shè)計(jì)低計(jì)算復(fù)雜度的空間渲染引擎,并減少Android硬件級(jí)別的理論延遲,實(shí)現(xiàn)了增強(qiáng)算法利用的用戶(hù)體驗(yàn)。同時(shí),基于Android平臺(tái)設(shè)計(jì)了低功耗游戲場(chǎng)景音頻效果算法,以及設(shè)計(jì)基于深度學(xué)習(xí)框架的音頻增強(qiáng)算法,如自適應(yīng)均衡器、音色克隆等等,打開(kāi)了更加廣泛的娛樂(lè)軌道音頻技術(shù)設(shè)計(jì)方向。杭睿翔坦言,該技術(shù)方案已經(jīng)初步形成,屆時(shí)將導(dǎo)入對(duì)應(yīng)型號(hào)的手機(jī)端,使得手機(jī)游戲體驗(yàn)得到極大的提升,從而進(jìn)一步提高手機(jī)買(mǎi)點(diǎn),增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力。
智能時(shí)代已經(jīng)悄然來(lái)臨,音頻技術(shù)已經(jīng)開(kāi)始為消費(fèi)者、企業(yè)和商業(yè)應(yīng)用打開(kāi)了新的大門(mén)。未來(lái)的生活形態(tài)我們或許無(wú)法洞悉,但可以預(yù)知的是,數(shù)字技術(shù)將更好地連接虛擬世界與實(shí)體空間,人們更需要優(yōu)質(zhì)的聆聽(tīng)體驗(yàn)。我們相信,精通音頻技術(shù)的杭睿翔,將會(huì)在聲音的世界里創(chuàng)造更多的精彩。