• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      人工智能玩轉(zhuǎn)音色 以亞歷山大·舒伯特《合流》為例

      2022-11-19 08:37:06文字薛蕙心
      音樂愛好者 2022年11期
      關(guān)鍵詞:合流人聲作曲家

      文字_薛蕙心

      在音樂創(chuàng)作領(lǐng)域,人工智能的加持在技法、效果與理念等方面都為作曲家提供了更多的可能性?!耙羯边@一音樂作品中較為復(fù)雜的參數(shù),在人工智能技術(shù)的輔助下得以在一定程度上被分析與復(fù)現(xiàn)。德國作曲家亞歷山大·舒伯特(Alexander Schubert)在2020至2021年創(chuàng)作的《合流》(Convergence),正是一部為弦樂合奏與人工智能而作的作品。該作品采用了自編碼器(Auto Encoder)的音色合成技術(shù),產(chǎn)生了獨特的音色效果。作曲家通過這一技術(shù),表達了人與人工智能之間在某種程度上的“合流”。

      基于人工智能的音色合成技術(shù)

      人工智能技術(shù)參與音樂創(chuàng)作并不是近幾年才出現(xiàn)的,相關(guān)研究與實踐表明,這項技術(shù)很多年前就已開始應(yīng)用在音樂創(chuàng)作中。聚焦當下,人工智能參與音樂創(chuàng)作的主要原理是運用遺傳算法、神經(jīng)網(wǎng)絡(luò)、馬爾科夫鏈和混合型算法等,將音樂作品中一些能夠總結(jié)、量化出的規(guī)律“投喂”給計算機,給計算機制定規(guī)則并建立包含海量“學習素材”的數(shù)據(jù)庫,計算機會進一步分析素材的各項特征信息,在此基礎(chǔ)上生成新的音樂。在這個過程中,研究者們嘗試使用計算機從多種維度分析、模仿、學習構(gòu)成作品的音樂元素,如音高、節(jié)奏、結(jié)構(gòu)等,以此參與音樂創(chuàng)作。

      相比其他音樂元素,計算機對音色的分析與復(fù)現(xiàn)更為困難。探究單個音符的音色往往需要依賴其他參數(shù)特征,例如音量、時間甚至是演奏法等?;谏蓪咕W(wǎng)絡(luò)(Generative Adversarial Network)的方法能夠?qū)⒁患菲鞯囊羯D(zhuǎn)化并映射到另一件樂器,但它本身不夠靈活,無法對音色進行建模。為了實現(xiàn)可控的音色建模,我們需要使用基于自編碼器的神經(jīng)網(wǎng)絡(luò)?;谧跃幋a器模型的神經(jīng)合成器(Neural Synthesizer)是著名的神經(jīng)音頻合成(Neural Audio Synthesis)模型,它可以使用隱空間的插值(interpolation)來對音色進行建模,將多個聲音輸入編碼器,將輸出結(jié)果按一定比例混合后給到解碼器,即可合成新的聲音。

      圖一 自編碼器原理圖示

      眾所周知,目前人工智能視域中比較常用的幾種音色合成技術(shù)均為“編碼——解碼”的結(jié)構(gòu)。相比傳統(tǒng)模型,“編碼——解碼”結(jié)構(gòu)的靈活性體現(xiàn)在其能夠直接選擇合成哪幾種聲音,并控制其合成比例。如作曲家想要實現(xiàn)A音色到B音色的轉(zhuǎn)換,只需要使用A音色的編碼器和B音色的解碼器即可完成,而其他一些音色合成技術(shù)都需要選定好A與B音色的種類,再訓(xùn)練A到B音色合成的模型才能夠?qū)崿F(xiàn)。如果想更進一步,實現(xiàn)A、B、C三種音色的互相轉(zhuǎn)換,“編碼——解碼”結(jié)構(gòu)同樣只需要訓(xùn)練三個模型,再將它們按需組合即可,其他技術(shù)則通常需要訓(xùn)練六種模型,即AB、AC、BA、BC、CA、CB。因此“編碼——解碼”結(jié)構(gòu)能夠更靈活地控制和影響輸出的結(jié)果,從而解決音色合成中“是否可控”這一問題。

      自編碼器是一類在半監(jiān)督學習和非監(jiān)督學習中使用的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks),其功能是通過將輸入信息作為學習目標,對輸入信息進行表征學習(representation learning)。它是深度學習中的一種常用的生成算法,常被運用于計算機視覺與自然語言處理任務(wù)中,例如圖像去噪、圖像恢復(fù)、圖像生成、降維和文本生成等。

      圖一展示的便是自編碼器的工作原理。編碼器(Encoder)首先將原始數(shù)據(jù)映射到較低維度空間中,神經(jīng)元逐漸減少的過程是其中的關(guān)鍵。從圖中我們可以看到,隱空間(Latent Space)是編碼器運算的結(jié)果,是對輸入數(shù)據(jù)的特征提取,以低維數(shù)據(jù)來代表輸入的數(shù)據(jù)。例如訓(xùn)練人聲的自編碼器,編碼器并不需要額外的音色信息來表示人聲的數(shù)據(jù),便可直接將原始的人聲數(shù)據(jù)(波形或語譜圖)映射為一個低維數(shù)組,從而表示原始的人聲數(shù)據(jù)。而解碼器(Decoder)是對編碼過程的反轉(zhuǎn),使用較低維度數(shù)據(jù)去創(chuàng)造較高維度數(shù)據(jù),由此得到最終的輸出數(shù)據(jù),例如訓(xùn)練人聲的自編碼器時,解碼器會盡可能去還原原始的人聲數(shù)據(jù)來優(yōu)化其自身。

      自編碼器的優(yōu)勢在于其能夠從數(shù)據(jù)樣本中進行無監(jiān)督學習,算法能夠直接從原始數(shù)據(jù)中捕捉到最顯著的特征。就好像是給一個人看一張貓的圖片,然后要求他在一段時間后畫出那只貓,通常他會畫出貓的兩只眼睛、三角形的耳朵和長長的胡須,這就是所謂提取到的最“顯著”的特征。

      亞歷山大·舒伯特的《合流》

      德國作曲家亞歷山大·舒伯特出生于1979年,在漢堡音樂戲劇大學獲得多媒體作曲博士學位,任教于漢堡音樂學院,其作品曾在維也納現(xiàn)代音樂節(jié)中演出。

      他的作品以實驗性音樂為主,因在作品中巧妙使用技術(shù)手段展現(xiàn)出了超前、先鋒的藝術(shù)理念而受到關(guān)注。他常在作品中使用多媒體、傳感器、交互、人工智能等技術(shù)手段,并將爵士音樂、電子音樂等風格融入其中,如為小提琴、傳感器、現(xiàn)場電子設(shè)備和現(xiàn)場視頻而作的《首選武器》(Weapon of Choice),為配備傳感器的合奏和現(xiàn)場電子設(shè)備而作的《嚴肅微笑》(Serious Smile)和裝置藝術(shù)《圓滿輪回》(A Perfect Circle)等,其對技術(shù)的大膽使用和獨特的藝術(shù)效果給人留下了深刻的印象。

      近幾年,許多音樂創(chuàng)作者都試圖將人工智能融入自己的作品,亞歷山大·舒伯特也不例外。《合流》是一部成功地將人工智能應(yīng)用在音樂創(chuàng)作中的作品,其中具有典型性的基于自編碼器的音色合成技術(shù)尤其具有分析與研究的價值。

      亞歷山大·舒伯特在作品簡介中寫道:《合流》使用了人工智能的概念來學習人類音樂家的特征,根據(jù)演奏錄音來重建新的實體。在這部作品中,演奏家與人工智能生成的對應(yīng)部分進行交互,他們看到自己的轉(zhuǎn)換與重塑。從隱喻的角度,作品展示了一個被構(gòu)造和參數(shù)化的世界。機器感知和人類世界感知之間的摩擦是解決自我流動性和感知限制問題的起點。

      《合流》中基于自編碼器的音色合成技術(shù)實現(xiàn)過程

      在創(chuàng)作這部作品之前,作曲家的構(gòu)想是探索、創(chuàng)造新的聲音與視覺形態(tài),演奏者能在作品中和使用人工智能技術(shù)創(chuàng)建出的實體相遇、互動、協(xié)同演出,并在作品中展現(xiàn)出人工智能技術(shù)捕捉的過程。

      在聆聽作品時,我們能夠發(fā)現(xiàn)許多新奇聲音的存在,例如尖叫的小提琴、像樂器一樣夸張的人聲以及一些“像樂器又好像不是樂器”的聲音。作曲家將許多弦樂與人聲的聲音片段,包括弦樂的演奏法、歌聲、說話聲和尖叫聲等輸入到計算機中,讓其進行學習,由此訓(xùn)練出多個弦樂與人聲的“聲音模型”。在此學習過程中,編碼器會分析出每個聲音片段中最獨特且區(qū)別于其他聲音的代表性特征。除此之外,聲音的“共性特征”也會被整個自編碼器學習并記錄。

      圖二 “人聲尖叫聲”音頻語譜圖

      圖三 “小提琴演奏聲”音頻語譜圖

      圖四 “人聲尖叫聲”與“小提琴演奏聲”音色合成后的音頻語譜圖

      圖五 創(chuàng)作團隊為《合流》研發(fā)的音色合成工具

      在《合流》這部作品的創(chuàng)作過程中,自編碼器模型主要做了兩件事:音色復(fù)現(xiàn)與音色遷移,可統(tǒng)稱為音色合成。音色復(fù)現(xiàn)為分析學習聲音特征,訓(xùn)練自編碼器模型還原聲音。在復(fù)現(xiàn)過程中,模型會一遍遍地比較復(fù)現(xiàn)結(jié)果與原始音頻,以此進行優(yōu)化,作品中聽到的一些“像樂器又好像不是樂器”的聲音大多就是音色復(fù)現(xiàn)的結(jié)果。而音色遷移的實現(xiàn)則更依賴于作曲家的音頻庫。若原素材為一個“人聲尖叫聲”與一個“小提琴演奏聲”,那么人聲的編碼器模型將提取該聲音的個性特征,并將此數(shù)據(jù)存于隱空間中,然后再輸入給小提琴模型的解碼器。由此生成的聲音,聽感上便像是“尖叫的小提琴”。

      從圖二、圖三、圖四這幾張音頻語譜圖中可以發(fā)現(xiàn),合成后音頻的中高頻能量比人聲音頻更加飽滿,且具有不同的泛音特征。這些參數(shù)變化,一方面與合成后的聲音音色具有小提琴特征有關(guān),另一方面也與模型特征有關(guān)。

      為了方便音色合成的實現(xiàn),創(chuàng)作團隊研發(fā)了一個音色合成工具,操作界面如圖五所示。在此過程中,團隊對自編碼器特定模型進行訓(xùn)練,模型包含錄制的大量不同演奏技巧的聲音數(shù)據(jù),然后通過上述計算機訓(xùn)練過程對代表這些演奏技巧的模型進行訓(xùn)練。在基于訓(xùn)練的模型界面中,“audio loader”部分顯示加載的聲音,“l(fā)atent series”部分表示在隱空間中對聲音進行編碼。接下來,想要用何種聲音來展示這段加載聲音的個性特征,只需將其放入該聲音模型中即可。

      “人工智能”在《合流》中的藝術(shù)化呈現(xiàn)

      《合流》時長為三十四分二十五秒,其中的元素包括弦樂演奏者的現(xiàn)場演奏和表演,以及計算機處理后的聲音與視覺等。

      圖六 演奏者面對攝像機,向計算機輸入“小提琴演奏”的聽覺與視覺信息

      作品結(jié)構(gòu)大致可分為三個部分(存在過渡與交錯的部分)。開頭至第十二分鐘左右為第一部分,由計算機播放指令,演奏者根據(jù)指令完成相應(yīng)行為,向計算機輸入數(shù)據(jù);第十二分鐘左右至第二十分鐘左右為第二部分,多角色進行相遇、對話與碰撞,包括現(xiàn)場演奏與人工智能生成的聲音之間、人類音樂家與計算機之間等,作品中的元素明顯增多;第二十分鐘左右至結(jié)尾為作品第三部分,這一部分蘊含了作曲家對人類、人工智能、世界、宇宙等問題的思考。

      我們都知道,人工智能深度學習需要收集大量的數(shù)據(jù),這是一個枯燥的過程,而《合流》的獨特之處便在于將此過程搬上了舞臺,使之成為最終呈現(xiàn)的一部分。在作品第一部分,由預(yù)置的一個機械化的女聲發(fā)出“下弓”“上弓”“重復(fù)”“放慢”“加快”等指令,演奏者面對攝像機根據(jù)指令完成演奏。如圖六所示,畫面以攝像機的視角呈現(xiàn),畫面下方顯示其演奏聲音的各個參數(shù)。

      在此過程中,演奏者仿佛進入了近似恍惚、冥想的狀態(tài),所有演奏均聽從指令執(zhí)行,純粹地面對計算機展示自己,并接受著計算機的掃描和讀取。這一過程像是演奏者與計算機之間的一種互動:計算機通過這些指令向演奏者發(fā)出請求,而演奏者也在指導(dǎo)計算機進一步了解我們。

      這個過程讓我想起,當我們剛剛開始學習演奏一件樂器時,老師會手把手教我們?nèi)绾稳パ葑?,如“下弓”“上弓”分別是什么,應(yīng)當如何操作。我們在學習過程中會根據(jù)自己的理解和認知,聽、看、模仿,從而領(lǐng)悟并“內(nèi)化”其中的要領(lǐng)。老師與我們的這種關(guān)系,現(xiàn)在似乎被放到了演奏家與計算機之間。但此刻,演奏家與計算機之間究竟是誰在向誰學習,答案似乎不是確定的。正如作曲家所說,計算機正在觀察我們,而我們也在試圖去理解計算機是如何觀察我們的,如何在其內(nèi)部用數(shù)據(jù)分析、表示音樂,并在一遍遍學習中不斷優(yōu)化與比較。計算機似乎擁有與人類相似的思維方式,包含“輸入”“分析”“映射”這些過程,每一步都十分重要且必不可少。

      作品中許多以“計算機視角”發(fā)出的聲音都使用了人聲的音色,包括第一部分與第三部分計算機的指令與提問,以及出現(xiàn)于第二部分的許多合成聲音的音色。個人認為從藝術(shù)處理的角度來講:一是作曲家對計算機的一種擬人化的藝術(shù)處理,以突出計算機在作品中的“角色感”;二是用音樂暗示計算機與人類思維方式的相似性,計算機也在觀察人類,學習、模仿人類的行為,模仿人類音樂家的演奏。

      《合流》十分三十秒處的畫面

      在作品的第三部分,出現(xiàn)了許多包含作曲家思考的句子,如“這究竟是一個夢境,還是一種清晰的感知?……所有感知都是經(jīng)過重建的,沒有哪種呈現(xiàn)是絕對化的……我們是參數(shù)化的,所有參數(shù)都可以被替代……我在一個永恒的循環(huán)中對自己進行編碼與解碼,放大所有的特征……”預(yù)置音頻以計算機的身份播放出這些句子。

      關(guān)于人類對事物的感知問題,大量心理學與神經(jīng)科學研究顯示,人類對自我的感知模式也是一個參數(shù)化的模型。人類思考的過程往往發(fā)生在潛意識情況中,對一些現(xiàn)象、概念或身份的認知常常過于絕對化。而通過人工智能重建的模型是具有可塑性的,例如自編碼器的表達可以被人為調(diào)整,可以編輯與轉(zhuǎn)換,使之發(fā)生變化。從這個意義上來說,人工智能系統(tǒng)實現(xiàn)了這種可塑性:不同的人、角色特征、評價或性別等,代表其特征的參數(shù)可以從社會、臨床或生物等許多角度進行改變。人工智能系統(tǒng)用于實現(xiàn)這種改變,告訴人們對事物的認識不應(yīng)當是絕對化的。

      人工智能就像一面鏡子,反映了人類感知事物的一部分過程與特征,鏡子里所發(fā)生的與人類構(gòu)建認知的過程相平行。因此從某種意義上講,對人工智能及自編碼器程序的應(yīng)用可以讓我們從一個新的角度去認識世界、認識自己。而這種思維方式或是觀點,究竟是人類引領(lǐng)的,還是計算機驅(qū)動的?這部作品中存在的對這些問題的思考與隱喻,是對它們的一種開放式的展現(xiàn),作曲家并沒有在作品中給出絕對的答案。

      關(guān)于《合流》這部作品,亞歷山大·舒伯特在聲音層面的創(chuàng)意為“音色合成”,基于自編碼器的音色合成技術(shù)較為靈活而可控,以此來實現(xiàn)作品中獨特而創(chuàng)新的聲音效果;在呈現(xiàn)上,他將人工智能技術(shù)的實現(xiàn)過程搬上了舞臺,讓聽眾清晰地了解到數(shù)據(jù)是如何進行輸入,計算機是如何分析學習的;在理念層面,作曲家表達了人與人工智能之間在“感知”與表現(xiàn)力等方面的“合流”。

      這部作品是在智能化環(huán)境下對人類本身具有的感知力和表現(xiàn)力的一種形式化展示,在此過程中引發(fā)觀眾對人類學習與感知事物過程的聯(lián)想、對自我的思考、對人類以及人類外部世界在存在、意識、生命、身份等方面的新的理解。在人工智能越來越多地對音樂創(chuàng)作產(chǎn)生影響的今天,我們除了需要關(guān)注技術(shù)本身外,也應(yīng)當對音樂人工智能的美學以及哲學、倫理方面的問題進行跟進。

      科技的發(fā)展會對音樂的創(chuàng)作、呈現(xiàn)、接受和音樂哲學等產(chǎn)生深遠的影響,人類的音樂藝術(shù)也將因人工智能的參與而更加豐富多彩。

      猜你喜歡
      合流人聲作曲家
      小小作曲家
      科學大眾(2022年9期)2022-06-05 07:27:30
      青年作曲家危陽簡介
      阿卡貝拉人聲合唱團的基本訓(xùn)練研究
      河北畫報(2020年10期)2020-11-26 07:21:24
      昭君戲中王昭君與劉文龍故事合流現(xiàn)象研究
      戲曲研究(2020年4期)2020-07-22 06:32:22
      著名作曲家楊天解
      合流超幾何函數(shù)的零點性質(zhì)
      愛樂之城
      民主(2017年3期)2017-05-12 09:48:52
      胰膽管合流異常合并胰腺分裂癥一例并文獻復(fù)習
      高中音樂選修課程《人聲極致“阿卡貝拉”》的開發(fā)和實施
      風流者——他將雜沓人聲留在身后,張先生,走好
      小說月刊(2014年12期)2014-04-19 02:40:13
      崇信县| 阿坝| 普定县| 陇南市| 界首市| 泸州市| 永仁县| 锡林郭勒盟| 哈密市| 古丈县| 湖北省| 张掖市| 平邑县| 收藏| 长葛市| 安达市| 新巴尔虎右旗| 北辰区| 葵青区| 六枝特区| 萨迦县| 华阴市| 皋兰县| 平乡县| 布尔津县| SHOW| 思茅市| 和硕县| 哈尔滨市| 西林县| 南部县| 万荣县| 自治县| 苏尼特左旗| 叶城县| 湖北省| 永州市| 沐川县| 常熟市| 奎屯市| 舞阳县|