本期『量子信息』專欄主持人 王曉霆
王曉霆
區(qū)塊鏈被認為是一種正在顛覆互聯(lián)網(wǎng)、變革傳統(tǒng)生產(chǎn)關(guān)系以及提高生產(chǎn)力的革命性創(chuàng)新體系,具有重大發(fā)展?jié)摿?。然而,量子計算機具備破壞哈希函數(shù)、公鑰密碼等傳統(tǒng)信息安全技術(shù)的潛力,給依賴于傳統(tǒng)密碼學(xué)的區(qū)塊鏈系統(tǒng)帶來了嚴重威脅。因此,研究“量子+區(qū)塊鏈”這一方向,意義重大。由于相關(guān)的研究成果較少,并且已有成果相對獨立,系統(tǒng)性的研究總結(jié)一直缺乏。
該文總結(jié)了區(qū)塊鏈產(chǎn)業(yè)和量子科技發(fā)展現(xiàn)狀,指出兩者都極具戰(zhàn)略價值和科學(xué)意義;分析了在即將來臨的量子時代,Grover 算法和Shor 算法如何在理論上攻擊區(qū)塊鏈核心技術(shù)中的共識算法和密碼體系;接著說明了量子科技如何從量子通信、量子共識算法、量子隨機數(shù)、量子簽名等方面賦予區(qū)塊鏈更安全高效的性能,從而打造新型量子區(qū)塊鏈系統(tǒng);最后指出了“量子+區(qū)塊鏈”存在的問題以及發(fā)展趨勢。通過明確的背景介紹和引用大量重要研究成果,該文分析總結(jié)了區(qū)塊鏈將面臨的量子科技所帶來的諸多機遇與挑戰(zhàn),闡明了“量子+區(qū)塊鏈”這一新興研究方向的研究現(xiàn)狀及未來發(fā)展趨勢,并指明其所具有的重要價值和意義,為相關(guān)研究提供了有益的指導(dǎo)與借鑒。
吳熱冰
強化學(xué)習(xí)作為一類重要的機器學(xué)習(xí)模型,用于解決人工智能體如何在環(huán)境中采取行動以最大化其累積獎勵的問題。其中,深度強化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)生成人工智能體的動作選擇策略,可以有效解決基于離散動作空間和連續(xù)動作空間的強化學(xué)習(xí)問題。然而,隨著任務(wù)環(huán)境變得復(fù)雜,利用經(jīng)典神經(jīng)網(wǎng)絡(luò)生成人工智能體的動作選擇策略需要擴大經(jīng)典神經(jīng)網(wǎng)絡(luò)規(guī)模,從而導(dǎo)致其參數(shù)數(shù)量激增。因此,一個自然的想法是能否利用量子神經(jīng)網(wǎng)絡(luò)替代經(jīng)典神經(jīng)網(wǎng)絡(luò),利用量子態(tài)的疊加性或量子糾纏等資源減少神經(jīng)網(wǎng)絡(luò)的參數(shù)規(guī)模。已有的量子深度強化學(xué)習(xí)方案在訓(xùn)練量子智能體時,具有需要量子智能體與經(jīng)典環(huán)境進行大量交互的問題,這增加了量子線路執(zhí)行的次數(shù)。
該文沿著如何減少量子智能體與經(jīng)典環(huán)境的交互次數(shù)這一方向進行了深入討論,提出了一種基于情景記憶的量子深度強化學(xué)習(xí)模型。該模型將擁有高獎勵值的歷史訓(xùn)練記錄存儲至情景記憶中,進而利用情景記憶來加速量子智能體的訓(xùn)練過程,可以有效降低量子智能體訓(xùn)練的迭代次數(shù),提升了在解決典型強化學(xué)習(xí)問題時量子智能體的表現(xiàn),減少了量子深度強化學(xué)習(xí)算法的運行時間。該方案有效降低了量子深度強化學(xué)習(xí)的應(yīng)用難度,提升了量子機器學(xué)習(xí)在處理實際問題中的效用。