顧克明 顧锃
【摘 要】 介紹全新的數(shù)字會(huì)議系統(tǒng)即自適應(yīng)語(yǔ)控智能會(huì)議系統(tǒng),并實(shí)現(xiàn)“一線通、一聲控、一云端”理念。
【關(guān)鍵詞】 智能會(huì)議系統(tǒng);自適應(yīng)性;抗噪聲傳聲器;語(yǔ)音文字化;語(yǔ)控系統(tǒng)
文章編號(hào): 10.3969/j.issn.1674-8239.2017.10.010
【Abstract】The author introduces a new digital conference system, namely adaptive speech control intelligent conference system, and implements the concept of "one line connection, one voice control, one cloud".
【Key Words】intelligent conference system; adaptive; anti noise microphone; voice and text; speech control system
會(huì)議的擴(kuò)聲效果千差萬(wàn)別,甚至有時(shí)會(huì)出現(xiàn)聽(tīng)不見(jiàn)、聽(tīng)不清的窘?jīng)r。因此,對(duì)于會(huì)議系統(tǒng),通常在前期需要對(duì)系統(tǒng)設(shè)備及會(huì)場(chǎng)環(huán)境進(jìn)行專門(mén)的設(shè)計(jì)調(diào)試;開(kāi)會(huì)發(fā)言時(shí)需要現(xiàn)場(chǎng)操作擴(kuò)聲系統(tǒng),隨時(shí)調(diào)節(jié)音量等參數(shù);會(huì)上還要指定專人進(jìn)行會(huì)議記錄;會(huì)后還要加班加點(diǎn)整理會(huì)議紀(jì)要……
以上繁雜的工作能否化繁為簡(jiǎn),形成一個(gè)高度智能化的自適應(yīng)系統(tǒng),這是筆者想討論的內(nèi)容。
1 自適應(yīng)語(yǔ)控智能會(huì)議系統(tǒng)及功能
自適應(yīng)語(yǔ)控智能會(huì)議系統(tǒng)能夠按照設(shè)定的標(biāo)準(zhǔn)工作,并根據(jù)會(huì)場(chǎng)的各種條件,自動(dòng)適應(yīng)地選擇各種會(huì)議功能,同時(shí)對(duì)自身工作特性進(jìn)行智能調(diào)節(jié),從而獲得語(yǔ)言清晰、音樂(lè)豐滿、聲像一致的會(huì)場(chǎng)效果。其可以將繁瑣、復(fù)雜的會(huì)議步驟高度簡(jiǎn)化,為與會(huì)人員提供自然舒適、高效順暢的會(huì)議體驗(yàn)。
自適應(yīng)語(yǔ)控智能會(huì)議系統(tǒng)包含會(huì)議拾聲自適應(yīng)、會(huì)議設(shè)備智能語(yǔ)控、會(huì)議發(fā)言實(shí)時(shí)轉(zhuǎn)寫(xiě)三大模塊,為各類會(huì)議提供系統(tǒng)解決方案。 其具體的三項(xiàng)功能如下。
(1)會(huì)議拾聲自適應(yīng)。會(huì)議系統(tǒng)能夠根據(jù)說(shuō)話人的聲音大小、環(huán)境噪聲強(qiáng)弱來(lái)自動(dòng)調(diào)節(jié)自身特性、自動(dòng)匹配聲音處理策略,使系統(tǒng)處于適配的工作狀態(tài),盡可能地提高拾取音源的聲音質(zhì)量,從而獲得高語(yǔ)言清晰度的聽(tīng)音效果,擺脫由操作人員調(diào)整控制傳聲器等設(shè)備的傳統(tǒng)會(huì)議模式。
(2)會(huì)議設(shè)備智能操控。系統(tǒng)通過(guò)人機(jī)語(yǔ)音交互完成投影儀、幕布、窗簾、燈光、音響、空調(diào)等會(huì)場(chǎng)設(shè)備的應(yīng)用操作,為與會(huì)人員提供便捷、智能、個(gè)性化的會(huì)議體驗(yàn)。
(3)會(huì)議發(fā)言實(shí)時(shí)轉(zhuǎn)寫(xiě)?;谡Z(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),能夠?qū)?huì)議發(fā)言實(shí)時(shí)轉(zhuǎn)換成文字,還具有實(shí)時(shí)編輯修改、關(guān)鍵詞優(yōu)化、敏感詞屏蔽等實(shí)用功能,會(huì)議結(jié)束即可同步提供會(huì)議紀(jì)要。
2 系統(tǒng)設(shè)備
2.1 抗噪聲傳聲器
抗噪聲指向性傳聲器(專利第55 32871號(hào))如圖1所示,其抗噪性能可在各類會(huì)場(chǎng)條件下提供自適應(yīng)的解決辦法。
2.1.1 主要性能
(1)抗噪聲傳聲器配備了具有聲干涉管的¢14 mm專業(yè)數(shù)字音頭,采用指向性結(jié)構(gòu)與DSP(數(shù)字信號(hào)處理)技術(shù)相結(jié)合的原理,在增加指向性與降低環(huán)境噪聲的基礎(chǔ)上達(dá)到遠(yuǎn)距離拾音的目的。
(2)為了減少干擾和噪聲,內(nèi)置聲學(xué)DSP芯片,通過(guò)短音節(jié)收斂算法達(dá)到穩(wěn)態(tài)噪聲抑制效果,在每次開(kāi)機(jī)時(shí),可針對(duì)傳聲器當(dāng)時(shí)所處環(huán)境的情況自動(dòng)校準(zhǔn)以實(shí)現(xiàn)消噪功能;支持廣泛的采樣率范圍,從8 kHz、16 kHz(寬帶語(yǔ)音)到48 kHz。
(3)采用AGC(自動(dòng)增益控制)與高低頻帶寬抑制技術(shù),實(shí)現(xiàn)較高的拾音信噪比指標(biāo),獲得清晰的音質(zhì)。只要人在5 m范圍內(nèi)說(shuō)話,不論遠(yuǎn)近,聲音能一直維持相同的輸出音量。
2.1.2 主要指標(biāo)
(1)強(qiáng)指向性。接收角度小于30°,定向拾音有效地排除周?chē)肼暿叭×浚WC會(huì)議質(zhì)量。
(2)AGC自動(dòng)增益。做到0.2 m~5 m范圍內(nèi)拾音輸出保持相同音量,為多種場(chǎng)合使用提供方便。
(3)語(yǔ)言清晰度。通過(guò)STIPA測(cè)試對(duì)比,抗噪聲指向性傳聲器比普遍傳聲器提高0.05以上,語(yǔ)言清晰度得到提高。
(4)傳聲器配備PDM數(shù)字輸入,針對(duì)環(huán)境自動(dòng)校準(zhǔn),對(duì)穩(wěn)態(tài)噪聲具有降噪功能,經(jīng)實(shí)測(cè)降噪值達(dá)14 dB以上,如圖2所示,圖中淺紅色為噪聲原信號(hào),深紅色為降噪后信號(hào)。
經(jīng)降噪處理后的會(huì)議擴(kuò)聲系統(tǒng),其會(huì)場(chǎng)環(huán)境噪聲相對(duì)降低14 dB以上,信噪比得到很大改善,會(huì)議發(fā)言的語(yǔ)言清晰度得到顯著提高,特別是應(yīng)用于聲場(chǎng)環(huán)境不太好的會(huì)議室會(huì)更為有效。
2.1.3 主要用途
抗噪聲傳聲器廣泛適用于會(huì)議采訪、電化教學(xué)、安防系統(tǒng)等場(chǎng)合??乖肼晜髀暺饔绕溥m用于教學(xué)系統(tǒng),滿足了“要把師生的手解放出來(lái)”的學(xué)校需求,解決了有些老師不愿配帶無(wú)線傳聲器或手持傳聲器的問(wèn)題。只要將傳聲器吊裝于教室頂棚之上,充分發(fā)揮抗噪聲傳聲器遠(yuǎn)距離拾音的特性,即可方便自如地進(jìn)行互動(dòng)教學(xué),如圖3。
2.2 數(shù)字自動(dòng)混音臺(tái)
數(shù)字自動(dòng)混音器是近年會(huì)議系統(tǒng)中使用的常規(guī)設(shè)備,其特點(diǎn)是連接容易、使用簡(jiǎn)便、防嘯叫效果好。數(shù)字自動(dòng)混音器不同于調(diào)音臺(tái),其在抑制聲反饋方面完成了“人+調(diào)音臺(tái)”的自適應(yīng)工作。
新近的數(shù)字自動(dòng)混音器,采用 “自動(dòng)傳聲器開(kāi)關(guān)管理”控制技術(shù),在標(biāo)準(zhǔn)工作模式下,雖然有多支傳聲器同時(shí)收到同一個(gè)人的講話聲,但只有音量最大的傳聲器的通道才能被自動(dòng)打開(kāi)。由于其他傳聲器不被打開(kāi),從而避免了反射聲、背景噪聲等激勵(lì)信號(hào)的迭加,拾音質(zhì)量得到保障。另外一項(xiàng)技術(shù)是“自動(dòng)傳聲增益控制”,傳聲器切換速度達(dá)到毫秒級(jí),開(kāi)/關(guān)無(wú)轉(zhuǎn)換痕跡,達(dá)到信號(hào)平滑過(guò)渡,不會(huì)發(fā)生講話時(shí)第一音節(jié)丟失的現(xiàn)象。endprint
2.3 強(qiáng)指向性揚(yáng)聲器
強(qiáng)指向性揚(yáng)聲器能夠以窄的波束向指定方向傳播聲音,波束內(nèi)的聲音較強(qiáng),波束外的聲音較弱,如圖4。目前,市場(chǎng)上出現(xiàn)了多種會(huì)議系統(tǒng)專用揚(yáng)聲器,大部分為條狀揚(yáng)聲器系統(tǒng),即音柱。音柱即強(qiáng)指向性揚(yáng)聲器系統(tǒng),但僅指垂直方向,其水平方向仍是較寬的,指向性圖呈扇形?,F(xiàn)有一款磁磚揚(yáng)聲器系統(tǒng),在垂直方向與水平方向兩個(gè)方向上,指向性都很窄,指向性圖呈銳形,能將聲音更集中地傳輸?shù)铰?tīng)眾區(qū),更大程度地減弱反射聲對(duì)會(huì)場(chǎng)的影響。如果能很好地控制揚(yáng)聲器垂直/水平指向性,使波束區(qū)內(nèi)聽(tīng)眾得到更多的直達(dá)聲,就能獲得比普通揚(yáng)聲器系統(tǒng)更高的語(yǔ)言清晰度。
選用強(qiáng)指向性揚(yáng)聲器系統(tǒng)相當(dāng)于起到縮短混響時(shí)間的效果,這是“有效混響時(shí)間”的概念,對(duì)于混響時(shí)間較長(zhǎng)的會(huì)議室更有選擇的必要??乖肼晱?qiáng)指向傳聲器結(jié)合強(qiáng)指向性揚(yáng)聲器,是對(duì)抗長(zhǎng)混響環(huán)境行之有效的方法。
2.4 功率放大器的擴(kuò)聲電平控制
從圖5中可以清晰地看到語(yǔ)言傳輸指數(shù)(選自IEC 60268-16(4.0版.2011.6)規(guī)范)與聲壓級(jí)的關(guān)系,見(jiàn)表1。
經(jīng)過(guò)反復(fù)驗(yàn)證,在工程實(shí)際中多次證實(shí)了以下規(guī)律:同等條件下,聲壓級(jí)50 dB~80 dB 時(shí)語(yǔ)言傳輸指數(shù)(STI)的一種簡(jiǎn)化形式STIPA(擴(kuò)聲系統(tǒng)語(yǔ)言傳輸指數(shù))基本不變,而聲壓級(jí)升高到80 dB后,STIPA急劇下降。由此可見(jiàn),為了使會(huì)議系統(tǒng)獲得較高的語(yǔ)言傳輸指數(shù),保證較好的語(yǔ)言清晰度,建議擴(kuò)聲的聲壓級(jí)控制在75 dB±3 dB,大型會(huì)場(chǎng)控制在85 dB±3 dB為宜。
例如,昆明滇池國(guó)際會(huì)展中心萬(wàn)人會(huì)場(chǎng)的擴(kuò)聲系統(tǒng)設(shè)計(jì)[3]中,如圖6,在實(shí)測(cè)混響時(shí)間高達(dá)10.58 s的嚴(yán)峻現(xiàn)實(shí)下,運(yùn)用以上原理展開(kāi)設(shè)計(jì)施工,最終語(yǔ)言清晰度仍達(dá)到GB/T 28049-2011《廳堂、體育場(chǎng)館擴(kuò)聲系統(tǒng)設(shè)計(jì)標(biāo)準(zhǔn)》會(huì)議類擴(kuò)聲系統(tǒng)聲學(xué)特性指標(biāo)一級(jí)標(biāo)準(zhǔn)(STIPA≥0.5)。
由此想到,倘若在數(shù)字功率放大器輸入端設(shè)有三段壓限器,設(shè)定75 dB前為線性增益、75 dB~78 dB為斜率增益、78 dB以上為0增益,這將自動(dòng)適應(yīng)講話人聲音大小,為會(huì)議系統(tǒng)管理帶來(lái)極大便利。
3 語(yǔ)音控制技術(shù)
引入人機(jī)交互理念,集成了包括雙全工技術(shù)、傳聲器技術(shù)、聲紋識(shí)別技術(shù)、方言識(shí)別、語(yǔ)義理解技術(shù)和內(nèi)容服務(wù)等技術(shù),通過(guò)繼電器、遠(yuǎn)紅外等控制音頻、視頻、燈光、小型機(jī)械、窗簾、空調(diào)等會(huì)議室相關(guān)設(shè)備,可根據(jù)邏輯關(guān)系進(jìn)行聯(lián)動(dòng)編程,達(dá)到智能控制、一鍵聯(lián)動(dòng)等。操作設(shè)備采用有線或無(wú)線觸摸屏、電腦、墻裝按鍵面板等。
通過(guò)AIUI(科大訊飛人工智能交互界面)前端語(yǔ)音交互入口,進(jìn)行高保真拾音及語(yǔ)音轉(zhuǎn)寫(xiě),轉(zhuǎn)寫(xiě)的結(jié)果是利用其語(yǔ)義理解平臺(tái)所提供的語(yǔ)音交互、上下文理解能力,快速關(guān)聯(lián)相應(yīng)的設(shè)備應(yīng)用場(chǎng)景,快速抽取語(yǔ)義、提取意圖和關(guān)鍵信息,形成結(jié)構(gòu)化的語(yǔ)義理解結(jié)果指令,經(jīng)中央控制器輸出到已連接的相應(yīng)設(shè)備,從而達(dá)到控制設(shè)備的效果。還可預(yù)設(shè)多個(gè)設(shè)備的組合控制模式,達(dá)到一句話控制所有設(shè)備的便捷效果。
語(yǔ)義理解平臺(tái)是一種實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信的軟件系統(tǒng)。從形式上看,中文文本是由漢字(包括標(biāo)點(diǎn)符號(hào)等)組成的一個(gè)字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。但在不同的場(chǎng)景或不同的語(yǔ)境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。但是,為了消解歧義,是需要大量的知識(shí)并進(jìn)行推理。語(yǔ)義理解平臺(tái)就是將這些知識(shí)較完整地加以收集和整理,以合適的形式將它們存入計(jì)算機(jī)系統(tǒng)中,有效地利用它們來(lái)消除歧義,實(shí)現(xiàn)準(zhǔn)確識(shí)別、理解自然語(yǔ)言含義的功能。
4 語(yǔ)音文字化功能
在會(huì)議系統(tǒng)中整合語(yǔ)音文字化產(chǎn)品,以符合安全要求的離線方式,將會(huì)議場(chǎng)景下的發(fā)言語(yǔ)音內(nèi)容實(shí)時(shí)轉(zhuǎn)換成文字,方便有效地解決了語(yǔ)言與文字的互換關(guān)系,從而有效提高會(huì)議系統(tǒng)的智能化程度。
如果要真正實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)寫(xiě)在會(huì)議場(chǎng)景下的應(yīng)用能力,需要提升語(yǔ)音轉(zhuǎn)寫(xiě)結(jié)果的可讀性,提高智能語(yǔ)音轉(zhuǎn)寫(xiě)系統(tǒng)的易用性,就需要開(kāi)展轉(zhuǎn)寫(xiě)結(jié)果可讀性提升、段落劃分、摘要及意圖檢測(cè)方面的研究工作。
(1)語(yǔ)音轉(zhuǎn)寫(xiě)結(jié)果的可讀性提升:使用基于多信息融合及基于聲學(xué)屬性識(shí)別的聲學(xué)置信度技術(shù),并結(jié)合語(yǔ)義信息,進(jìn)一步提升異常語(yǔ)音的檢測(cè)能力;基于CRF(Conditional Random Field)模型的標(biāo)點(diǎn)技術(shù)、基于CRF模型的句子順滑及基于最大熵模型的關(guān)鍵信息抽取等技術(shù),通過(guò)這些技術(shù)的組合,進(jìn)一步改善轉(zhuǎn)寫(xiě)內(nèi)容的可閱讀性。
(2)語(yǔ)義段落的自動(dòng)劃分:基于句子級(jí)別語(yǔ)義聚類和關(guān)聯(lián)邏輯關(guān)系的分析以及一些特殊的提示型詞匯、停頓長(zhǎng)度等額外信息,自動(dòng)將較長(zhǎng)的內(nèi)容轉(zhuǎn)寫(xiě)結(jié)果切分為語(yǔ)義相對(duì)獨(dú)立的若干個(gè)段落,為關(guān)鍵信息和摘要做準(zhǔn)備。
(3)語(yǔ)義摘要:借鑒傳統(tǒng)的文本自動(dòng)摘要,并根據(jù)語(yǔ)音中說(shuō)話人、語(yǔ)氣強(qiáng)調(diào)重復(fù)等信息,自動(dòng)對(duì)每一段語(yǔ)音進(jìn)行關(guān)鍵信息的抽取和自動(dòng)摘要,以便快速地從長(zhǎng)時(shí)語(yǔ)音中找到所需轉(zhuǎn)寫(xiě)的內(nèi)容,進(jìn)一步提升人機(jī)結(jié)合方式的語(yǔ)音轉(zhuǎn)寫(xiě)的投入產(chǎn)出比。
會(huì)議語(yǔ)音轉(zhuǎn)寫(xiě)的核心價(jià)值在于語(yǔ)音轉(zhuǎn)寫(xiě)的實(shí)時(shí)性和準(zhǔn)確率,采用的智能會(huì)議系統(tǒng)可達(dá)到實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)效率≤500 ms,基本達(dá)到零延遲的出材效果感知。而基于“即聽(tīng)即所見(jiàn)”的核心技術(shù),其對(duì)標(biāo)準(zhǔn)普通話的轉(zhuǎn)寫(xiě)準(zhǔn)確率超過(guò)95%,達(dá)到無(wú)紙化記錄水平。
目前,國(guó)內(nèi)相關(guān)的前沿技術(shù)主要為采用13 000小時(shí)以上連續(xù)語(yǔ)流數(shù)據(jù)訓(xùn)練而成的聲學(xué)模型及二遍解碼技術(shù),其獨(dú)有的文本順滑、標(biāo)點(diǎn)識(shí)別、英文數(shù)字后處理等自然語(yǔ)言處理能力,使識(shí)別結(jié)果更加準(zhǔn)確、規(guī)范。
5 工程案例
某會(huì)議室尺寸為長(zhǎng)9.5 m、寬4.5 m、高3.4 m,如圖7所示。經(jīng)建聲專業(yè)裝修后混響時(shí)間T60=0.4 s;系統(tǒng)配置包括降噪傳聲器系統(tǒng)、會(huì)議音響系統(tǒng)、視頻顯示系統(tǒng)、智能照明系統(tǒng)、語(yǔ)音控制系統(tǒng)、語(yǔ)言轉(zhuǎn)寫(xiě)系統(tǒng),視頻會(huì)議系統(tǒng)、電動(dòng)窗簾系統(tǒng)、中央空調(diào)系統(tǒng)、集中控制系統(tǒng),系統(tǒng)原理圖如圖8所示。
6 結(jié)束語(yǔ)
綜上所述,自適應(yīng)語(yǔ)控智能會(huì)議系統(tǒng)以數(shù)字處理為核心技術(shù),形成由數(shù)字傳聲器-數(shù)字處理器-數(shù)字有源揚(yáng)聲器組成的智能會(huì)議系統(tǒng),有利于提高會(huì)場(chǎng)系統(tǒng)工程質(zhì)量;以降噪技術(shù)為手段,體現(xiàn)在會(huì)場(chǎng)語(yǔ)言清晰度的提高從聲源上解決問(wèn)題; “即聽(tīng)即所見(jiàn)”技術(shù)實(shí)現(xiàn)了語(yǔ)音文字化,對(duì)會(huì)議紀(jì)要整理、資料保存以及無(wú)紙化辦公具有實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 顧克明,彭妙顏,周錫韜等. 會(huì)場(chǎng)系統(tǒng)工程[M]. 北京:中國(guó)電力出版社,2013.
[2] 高玉龍. 小房間聲學(xué)設(shè)計(jì)及建筑聲學(xué)處理[M]. 北京:國(guó)防工業(yè)出版社, 2014.
[3] 顧克明,陳敏,顧 锃. 昆明滇池國(guó)際會(huì)展中心萬(wàn)人會(huì)場(chǎng)的擴(kuò)聲系統(tǒng)設(shè)計(jì)[J]. 電聲技術(shù),2015(8).endprint