• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      帶Q網(wǎng)絡過濾的兩階段TD3深度強化學習方法

      2023-10-21 03:04:42周嫻瑋包明豪余松森
      計算機技術(shù)與發(fā)展 2023年10期
      關鍵詞:估值深度階段

      周嫻瑋,包明豪,葉 鑫,余松森

      (華南師范大學 軟件學院,廣東 佛山 528000)

      0 引 言

      深度強化學習是一種解決決策性問題的算法,在自動駕駛[1]、機器人控制[2]、無人機[3]等領域應用廣泛。深度強化學習以“試錯”的方式與環(huán)境進行交互,智能體通過學習這些交互過程產(chǎn)生的經(jīng)驗,以最大化環(huán)境中獲得的累積獎勵為目標,不斷優(yōu)化自身策略[4]。

      常規(guī)的深度強化學習模型訓練方式由“零”開始訓練,即智能體的起始策略為隨機初始化[5]。這種方式會導致智能體在與環(huán)境進行交互的前期階段過程中,出現(xiàn)盲目性探索環(huán)境,樣本學習率低,并沒有良好、穩(wěn)定的表現(xiàn),這種現(xiàn)象也被有關學者定義為冷啟動(Cold Start)[6]問題。

      為解決冷啟動問題,近些年來,有學者提出兩階段深度強化學習訓練方式[7]。具體而言,使用A-C(Actor-Critic)演員-評論家模式的深度強化學習模型,通過采集專家演示數(shù)據(jù)[8],利用模仿學習對智能體進行預訓練,而后采用深度強化學習進行下一步的訓練。通過策略預訓練,減少智能體前期盲目探索次數(shù),提高學習效率,加快網(wǎng)絡收斂速度,從而緩解訓練前期的冷啟動問題。

      兩階段深度強化學習訓練方式雖然能夠緩和智能體冷啟動問題,但是在智能體從模仿學習過渡至深度強化學習階段后,可能出現(xiàn)專家演示動作被遺忘的問題,具體表現(xiàn)為性能和回報出現(xiàn)突然性回落的現(xiàn)象[2-3,9]。

      造成該現(xiàn)象的主要原因有以下兩個:

      (1)若智能體在模仿學習階段僅對Actor網(wǎng)絡進行預訓練,而Critic網(wǎng)絡選擇隨機初始化[2,9]。在深度強化學習前期訓練階段,由于Critic網(wǎng)絡未經(jīng)過預訓練,因此無法提供準確的動作估值,導致Actor網(wǎng)絡進行策略梯度更新時做出錯誤的選擇,將所學的演示動作遺忘。

      (2)即使Critic網(wǎng)絡經(jīng)過預訓練,但是由于專家演示數(shù)據(jù)集中沒有提供所有動作經(jīng)驗,預訓練時演示數(shù)據(jù)集之外的動作的估值可能被過高估計,因此演示動作不一定為最高估值動作[10]。在深度強化學習階段進行策略梯度更新時,預訓練后的Actor網(wǎng)絡追求估值最高的動作,可能選擇演示數(shù)據(jù)集之外的動作,進而遺忘所學的演示動作,嚴重時導致訓練速度大大減緩。

      綜上所述,該文針對上述兩個主要原因做出如下改進工作:

      (1)提出兩階段TD3(Twin Delayed Deep Deterministic Policy Gradient)[11]深度強化學習方法。首先,通過采集專家演示數(shù)據(jù)集采用模仿學習-行為克隆[12]方式對Actor網(wǎng)絡進行預訓練;其次,使用TD3模型Q網(wǎng)絡更新公式對Critic網(wǎng)絡進行預訓練,避免其隨機初始化。

      (2)提出Q網(wǎng)絡過濾算法,通過所提出的過濾函數(shù)調(diào)整預訓練Critic網(wǎng)絡參數(shù)權(quán)重,過濾掉網(wǎng)絡中過高估值的演示數(shù)據(jù)集之外的動作估值,使演示動作成為估值最高的動作。目的是使預訓練后的Actor網(wǎng)絡在深度強化學習階段進行策略梯度更新時,減少選擇演示數(shù)據(jù)集之外的動作,盡量避免遺忘演示動作。

      1 相關工作

      模仿學習[13]是一種監(jiān)督學習,可以在離線情況下根據(jù)數(shù)據(jù)集進行快速有效地學習,形成一個端到端的網(wǎng)絡模型。雖然模仿學習存在分布不匹配、魯棒性差等問題[14],但是可以被運用于智能體的預訓練,而后采用深度強化學習進行改進訓練,因此能夠加快深度強化學習網(wǎng)絡的收斂速度。例如,Peng等人[7]提出一個兩階段框架,稱為IPP-RL,通過模仿學習預訓練模型共享權(quán)值來初始化DDPG(Deep Deterministic Policy Gradient)[15]模型的(Actor)行動者網(wǎng)絡,以加快深度強化學習的訓練速度。Pfeiffer等人[2]提出增強模仿學習(R-IL)方法,結(jié)合基于專家演示的有監(jiān)督的IL,對后續(xù)的RL策略(Actor)網(wǎng)絡進行預訓練,比純RL更容易和更快的訓練。雖然上述兩階段深度強化學習方法能夠緩解冷啟動問題,但Pfeiffer與Jing等人[2,9]的工作表明,由于隨機初始化的Critic網(wǎng)絡需要在深度強化學習的前期階段進行訓練工作,在此期間無法提供準確的動作估值,可能使預訓練后的Actor網(wǎng)絡做出錯誤的更新決定,導致智能體出現(xiàn)性能和回報突然性回落的情況,極大地影響了網(wǎng)絡訓練速度。

      為改善此情況,許多學者提出相應的Critic網(wǎng)絡預訓練方法。例如,Chen等人[16]提出將DDPG模型中的Actor網(wǎng)絡與Critic網(wǎng)絡采用相同的圖像提取特征CNN架構(gòu)。首先對Actor網(wǎng)絡進行預訓練,隨后將其卷積網(wǎng)絡權(quán)重賦值給Critic網(wǎng)絡,使兩者均擁有初始能力。Ma等人[17]提出利用先前收集的專家演示數(shù)據(jù)集通過最小化一步TD誤差公式對Critic網(wǎng)絡進行預訓練;同時Actor網(wǎng)絡通過復合策略梯度更新公式及行為克隆損失函數(shù)進行預訓練工作。將預訓練完畢后的網(wǎng)絡權(quán)重用以初始化DDPG模型進行下一步的訓練。Wang等人[3]使用ORCA(Optimal Reciprocal Collision Avoidance)作為引導策略生成演示數(shù)據(jù),設計出一個基于ORCA速度障礙的損失函數(shù)來預訓練Actor網(wǎng)絡;同時使用DDPG的Q網(wǎng)絡更新函數(shù)對Critic網(wǎng)絡進行預訓練。當智能體達到ORCA能力值時,采用深度強化學習進行下一步的訓練。

      這些工作雖然提出了相應的Critic網(wǎng)絡預訓練方法來改善智能體性能和回報突然性回落的情況,但是并未關注到造成該情況出現(xiàn)的第二個原因,即忽略了預訓練后Critic網(wǎng)絡中虛高的演示數(shù)據(jù)集之外的動作估值對Actor網(wǎng)絡的更新影響。為此,借鑒前人經(jīng)驗,該文同時彌補其不足,提出相應的改進工作。

      2 帶Q網(wǎng)絡過濾的兩階段TD3深度強化學習方法

      該文提出的方法分為以下兩大階段:(1)預訓練階段(Actor、Critic網(wǎng)絡預訓練)以及Q網(wǎng)絡過濾階段,這兩個小階段使用采集得到的專家演示數(shù)據(jù)進行網(wǎng)絡訓練;(2)深度強化學習訓練階段,將上一階段預訓練得到的Actor網(wǎng)絡以及Q網(wǎng)絡過濾后的Critic網(wǎng)絡參數(shù)權(quán)重用以初始化TD3深度強化學習模型,使用深度強化學習進一步訓練網(wǎng)絡。

      2.1 TD3深度強化學習模型

      該文采用的TD3深度強化學習算法,是一種基于A-C模式面向連續(xù)動作空間的確定性策略深度強化學習模型。其包含主策略網(wǎng)絡(Main Actor Network)πφ、目標策略網(wǎng)絡(Target Actor Network)πφ';與DDPG模型相比:

      (2)增加延遲更新機制,使Actor網(wǎng)絡更新頻率相對于Critic網(wǎng)絡更新頻率要小,從而使Actor網(wǎng)絡更加平穩(wěn)地進行訓練;

      (3)添加了Smoothing Regularization機制,在計算目標預估值時引入隨機噪聲ε,目的是使預測估值更加準確(ε從正態(tài)分布中隨機抽取數(shù)值,為標準差;同時ε的取值上下限為[-c,c],c為智能體動作空間數(shù)值上限)。

      TD3模型的Critic網(wǎng)絡更新公式為:

      (1)

      (2)

      (3)

      TD3模型使用均值平方差公式作為Critic網(wǎng)絡的Loss損失函數(shù),由目標值y與當前值Qθi(s,a)之間的差值組成。其中N表示從經(jīng)驗池中隨機抽取得到的經(jīng)驗數(shù)量,這些經(jīng)驗(s,a,r,s')包含了當前狀態(tài)、動作、獎勵值、下一狀態(tài)。

      在進行Critic網(wǎng)絡更新時,不斷地從經(jīng)驗池中隨機采樣N條經(jīng)驗代入公式(3)的損失函數(shù)L,使用隨機梯度下降法更新Critic網(wǎng)絡參數(shù)θi,以最小化目標值與當前值之間的差距。

      在Critic網(wǎng)絡經(jīng)過d次更新后,同樣地,需要從經(jīng)驗池中隨機采樣N條經(jīng)驗數(shù)據(jù)(s)代入策略梯度更新公式(4)。根據(jù)Critic網(wǎng)絡中第一個Q網(wǎng)絡Qθ1的情況對Actor網(wǎng)絡πφ進行訓練,使用隨機梯度下降法進行網(wǎng)絡參數(shù)φ的更新:

      (4)

      (5)

      φ'←τφ+(1-τ)φ'

      (6)

      2.2 預訓練階段

      2.2.1 Actor網(wǎng)絡預訓練

      首先,從演示數(shù)據(jù)集D中隨機采樣N條數(shù)據(jù)(st,at)代入公式(7)中,該文使用均值平方差作為行為克隆的損失函數(shù)LBC,利用梯度下降法進行Main Actor網(wǎng)絡參數(shù)φ的更新。不斷地隨機采樣N條演示數(shù)據(jù)對網(wǎng)絡進行訓練,直至網(wǎng)絡收斂后將主網(wǎng)絡參數(shù)權(quán)重φ復制給目標網(wǎng)絡φ',完成該階段預訓練工作。

      (7)

      φ'←φ

      (8)

      2.2.2 Critic網(wǎng)絡預訓練

      (9)

      (10)

      (11)

      (12)

      算法1 預訓練階段算法

      輸入:演示數(shù)據(jù)集D,樣本采樣數(shù)量N,獎勵折扣因子γ,訓練總步驟數(shù)T

      2.For←0 toTdo

      3.從演示數(shù)據(jù)集D中隨機采樣N條(st,at)數(shù)據(jù)

      4.將(st,at)代入行為克隆損失函數(shù)式(7)中,更新Main Actor網(wǎng)絡參數(shù)φ

      5.End For

      6.將Main Actor網(wǎng)絡參數(shù)權(quán)重復制給目標網(wǎng)絡φ'←φ

      7.For←0 toTdo

      11.End For

      2.3 Q網(wǎng)絡過濾階段

      2.3.1 Q網(wǎng)絡過濾算法原理

      由于預訓練后的Critic網(wǎng)絡中存在過高估值的演示數(shù)據(jù)集之外的動作估值,而這些估值會影響深度強化學習階段Actor網(wǎng)絡的更新,導致智能體出現(xiàn)性能和回報突然性回落的情況,大大影響網(wǎng)絡訓練速度。為此,借鑒濾波算法原理,該文提出Q網(wǎng)絡過濾算法,對演示數(shù)據(jù)集之外的動作過高估值進行過濾操作。

      Q網(wǎng)絡過濾算法在智能體進入深度強化學習階段之前,使用過濾函數(shù)調(diào)整預訓練后Critic網(wǎng)絡參數(shù)權(quán)重,降低網(wǎng)絡中演示數(shù)據(jù)集之外的動作估值,使演示動作at成為估值最高的動作。

      該算法原理如圖1所示,橫坐標表示在某個演示數(shù)據(jù)集狀態(tài)st下的動作空間(Action space),在圖中,將多維的動作空間進行一維化處理;縱坐標表示該動作的估值(Q-value)。

      圖1 Q網(wǎng)絡過濾算法原理

      圖1中的實線假設為預訓練后Critic網(wǎng)絡中動作估值情況,此時演示動作at(Demo-action正三角標記)并非為最高估值動作。而在經(jīng)歷Q網(wǎng)絡過濾算法后,如圖1虛線所示,演示動作at成為最高估值動作。

      這樣做的目的是使Actor網(wǎng)絡在過渡至深度強化學習階段后,若是在演示數(shù)據(jù)集狀態(tài)st情況下進行策略梯度更新時,所追求的最高估值動作與演示動作at重合,盡量避免誤選擇演示數(shù)據(jù)集之外的動作,遺忘演示動作。

      2.3.2 Q網(wǎng)絡過濾算法步驟

      步驟一 尋找估值最高動作:由于演示數(shù)據(jù)集中并未提供所有動作的經(jīng)驗,該文利用策略梯度更新公式尋找預訓練Critic網(wǎng)絡中st狀態(tài)下估值最高的動作。首先從演示數(shù)據(jù)D中隨機采樣N條數(shù)據(jù)(st,at),將st以及預訓練后的Actor、Critic網(wǎng)絡參數(shù)權(quán)重φ、θi代入至策略梯度更新公式(4)中,對?φJ(φ)進行隨機梯度下降,更新Main Actor網(wǎng)絡參數(shù)φ。將更新后的網(wǎng)絡參數(shù)φ代入式(13),得到在狀態(tài)st下估值最高的動作am。

      am=πφ(st)

      (13)

      步驟二 降低演示數(shù)據(jù)集之外動作估值:將估值最高的動作am,即演示數(shù)據(jù)集之外動作,與先前隨機采樣得到演示動作at及狀態(tài)st代入該文提出的第一條Q網(wǎng)絡濾波函數(shù)F1中。

      (14)

      (15)

      步驟四 網(wǎng)絡更新:將兩條過濾函數(shù)F1(θi)、F2(θi)進行相加后,根據(jù)式(16)進行隨機梯度下降,更新Main Critic網(wǎng)絡的參數(shù)θi。

      ?θiF(θi)=?θiF1(θi)+?θiF2(θi)

      (16)

      演示數(shù)據(jù)集D中存在多條數(shù)據(jù),因此需要多次循環(huán)過濾。經(jīng)過Q網(wǎng)絡過濾后,網(wǎng)絡中演示數(shù)據(jù)集之外動作估值比專家動作估值大、或者相等的情況會明顯減少,從而達到“過濾”目的。

      步驟五 網(wǎng)絡復制:在Q網(wǎng)絡過濾階段,為了尋找最高估值動作,預訓練Main Actor網(wǎng)絡參數(shù)權(quán)重φ被策略梯度公式更新,為保持預訓練階段所學習的專家知識,將過濾階段未參與網(wǎng)絡更新操作的Target Actor網(wǎng)絡參數(shù)權(quán)重φ'復制給Main Actor網(wǎng)絡。

      φ←φ'

      (17)

      與此同時,由于Main Critic網(wǎng)絡參數(shù)θi在過濾階段經(jīng)過了網(wǎng)絡調(diào)整,其參數(shù)權(quán)重已經(jīng)發(fā)生變化,即完成了過濾操作,因此將過濾后的主網(wǎng)絡參數(shù)權(quán)重復制給目標網(wǎng)絡。

      (18)

      算法2 Q網(wǎng)絡過濾算法

      1.For←0 toTdo

      2.從演示數(shù)據(jù)集D中隨機采樣N條(st,at)數(shù)據(jù)

      3.將N個st數(shù)據(jù)及φ、θi代入式(4),更新Main Actor網(wǎng)絡參數(shù)φ

      4.將更新后的參數(shù)φ代入式(13)得到估值最高動作am

      6.End For

      8.將網(wǎng)絡參數(shù)權(quán)重φ'復制給φ

      2.4 深度強化學習階段

      該文將預訓練后的Actor網(wǎng)絡以及經(jīng)過Q網(wǎng)絡過濾后的Critic網(wǎng)絡參數(shù)權(quán)重用于初始化TD3深度強化學習模型,而后智能體將采用TD3更新公式進行自主探索環(huán)境學習[16]。

      將上述智能體訓練階段繪制成總體算法流程,見圖2。圖中包括預訓練階段(Actor網(wǎng)絡預訓練,Critic網(wǎng)絡預訓練)、Q網(wǎng)絡過濾階段以及TD3深度強化學習階段。

      圖2 總體算法流程

      3 仿真實驗

      該文采用Deep Mind提供的Mujoco[18]多關節(jié)仿生機器人環(huán)境進行實驗,如圖3所示,使用3種不同關節(jié)類型的機器人Ant-v3(左下)、HalfCheetah-v3(左上)、Walker2d-v3(右)來驗證所提出的Q網(wǎng)絡過濾算法。

      圖3 三種不同關節(jié)結(jié)構(gòu)Mujoco機器人

      仿真機器人獎勵函數(shù)由三部分組成:前向速度、健康度、動作消耗,不同的機器人中這三部分組成比例不相同;機器人所觀察的狀態(tài)s、動作a均為多維向量,每種機器人維度不相同。

      3.1 實驗設置

      3.1.1 環(huán)境參數(shù)設置

      表1 專家演示數(shù)據(jù)

      在深度強化學習階段,每個機器人在一個隨機種子數(shù)環(huán)境訓練106次,總共訓練5個隨機種子數(shù),其中機器人單次訓練回合最長步數(shù)為1 000步;在回合中,若其健康度低至0,則會重置機器人,重新開始下一回合訓練。實驗中,機器人在與環(huán)境交互25 000步后,開始進行網(wǎng)絡更新工作,此后每步都進行網(wǎng)絡更新。每隔2 500步進行一次測試,其中包括回報、差異度測試。將當前環(huán)境所訓練的TD3模型轉(zhuǎn)移至新的隨機種子數(shù)環(huán)境中測試10次,取得分結(jié)果平均值作為當前階段的回報情況;與此同時進行智能體Actor網(wǎng)絡輸出動作與專家演示動作之間的差異度測試,將差異值記錄。

      3.1.2 超參數(shù)設置

      該文所使用的TD3模型的Actor、Critic網(wǎng)絡采用三層全連接網(wǎng)絡,其中隱藏層網(wǎng)絡寬度為256,輸入輸出維度根據(jù)機器人種類決定。折扣因子γ=0.99,Actor、Critic網(wǎng)絡學習率為3e-3,軟更新系數(shù)τ=0.01,網(wǎng)絡延遲更新系數(shù)d為2,探索噪聲系數(shù)ε=0.1,經(jīng)驗池大小為106,每次采樣N=256條經(jīng)驗。

      3.2 實驗結(jié)果分析

      本次實驗采用以下算法進行對比:

      (1)TD3模型Baseline基準;

      (2)經(jīng)歷Actor、Critic網(wǎng)絡預訓練但未經(jīng)過Q網(wǎng)絡過濾TD3模型,即常規(guī)的兩階段TD3深度強化學習方法;

      (3)經(jīng)歷Actor、Critic網(wǎng)絡預訓練同時經(jīng)過Q網(wǎng)絡過濾TD3模型,即帶Q網(wǎng)絡過濾的兩階段TD3深度強化學習方法。

      將這三種算法分別在Ant-v3、HalfCheetah-v3、Walker2d-v3仿真環(huán)境中進行實驗,同時收集智能體產(chǎn)生的兩種數(shù)據(jù),分別為:

      (1)深度強化學習訓練階段智能體在演示集狀態(tài)st下Actor網(wǎng)絡輸出動作與專家動作at差異均值,用式(7)LBC作評價,其結(jié)果如圖4所示。

      (a)Ant-v3

      (2)在訓練過程中的測試回報情況如圖5所示,最終測試得分回報如表2所示。

      表2 智能體最終回報

      (a)Ant-v3

      3.2.1 動作差異分析

      如圖4所示,圖中用圓實線(Our)表示經(jīng)過Q網(wǎng)絡過濾后的智能體數(shù)據(jù),正方形虛線(Without Q Filtration)表示未經(jīng)過Q網(wǎng)絡過濾的智能體。圖中陰影部分表示數(shù)據(jù)的95%置信區(qū)間。

      從圖4的動作差異圖中可以看出,在Actor網(wǎng)絡開始進行策略梯度更新時(智能體與環(huán)境交互25 000步后),網(wǎng)絡輸出動作與數(shù)據(jù)集中演示動作的差異值急速上升。而經(jīng)歷了Q網(wǎng)絡過濾的智能體,其上升幅度小于未過濾的智能體。這表明經(jīng)過Q網(wǎng)絡過濾后的智能體遺忘專家演示動作程度較小,保留了更多的專家演示動作,其中Ant-v3、HalfCheetah-v3較為明顯。而在訓練的后期,由于智能體探索環(huán)境,尋找到更優(yōu)或者替代的動作,因此動作差異程度比較大。

      3.2.2 回報情況分析

      在圖5的眾多曲線中,用圓實線(Our)表示經(jīng)過Q網(wǎng)絡過濾后的智能體回報均值;正方形虛線(Without Q Filtration)則表示未經(jīng)歷過濾的智能體回報均值;使用菱形實線表示TD3基準回報均值。圖中陰影部分表示數(shù)據(jù)的95%置信區(qū)間。而在直線中,使用正三角形實線(Expert)表示專家演示回報(性能),倒三角虛線(Imitation Learning)表示模仿學習回報情況。

      從圖5的回報結(jié)果中可以得知,由于智能體經(jīng)歷了預訓練,其初始性能與模仿學習階段相同。在與環(huán)境交互25 000步后,網(wǎng)絡開始進行更新時性能和回報迅速下降,低于模仿學習階段。但隨著訓練的深入,智能體能夠從中恢復至模仿學習時期能力水平。而經(jīng)歷Q網(wǎng)絡過濾的智能體能夠更快恢復,同時其得分回報下降程度相對于未經(jīng)歷過濾的智能體更小。從實驗中可得知Q網(wǎng)絡過濾算法能夠改善性能和回報突然性回落情況。

      與TD3基準對比,該文提出的算法能夠從一個較為良好的策略開始進行訓練,緩解冷啟動問題,從而加快了網(wǎng)絡收斂速度,最終收斂結(jié)果如表2所示。

      表2記錄了3個機器人在不同算法最終收斂時的回報均值情況。從表2中可以看出,經(jīng)過Q網(wǎng)絡過濾后的智能體最終回報要高于TD3及未經(jīng)過過濾的智能體回報。同時結(jié)合表2及表1的實驗數(shù)據(jù)中得知,3個機器人的模仿學習平均回報均沒有超過專家演示,這是因為演示與測試并不在同一個隨機種子數(shù)環(huán)境中,其次是專家演示數(shù)據(jù)D中只包含環(huán)境的一部分狀態(tài)-動作分布區(qū)間,并沒有包括所有未知狀況,因此智能體并不能很好地處理未曾遇到過的狀態(tài)。

      4 結(jié)束語

      針對兩階段深度強化學習訓練方式中存在的遺忘演示動作問題,即智能體性能和回報突然性回落問題,提出一種帶Q網(wǎng)絡過濾的兩階段TD3深度強化學習方法。通過采集專家演示數(shù)據(jù)集對Actor及Critic網(wǎng)絡進行預訓練,同時使用Q網(wǎng)絡過濾算法過濾掉預訓練后Critic網(wǎng)絡中過高估值的演示數(shù)據(jù)集之外的動作估值,有效緩解演示動作遺忘現(xiàn)象,改善了智能體性能和回報突然性回落情況。最終,通過Mujoco機器人仿真實驗表明,該算法能夠改善智能體得分回報突然性回落情況。

      猜你喜歡
      估值深度階段
      關于基礎教育階段實驗教學的幾點看法
      科學與社會(2022年1期)2022-04-19 11:38:42
      深度理解一元一次方程
      在學前教育階段,提前搶跑,只能跑得快一時,卻跑不快一生。
      莫愁(2019年36期)2019-11-13 20:26:16
      深度觀察
      深度觀察
      深度觀察
      巧用估值法
      大熱的O2O三個階段,你在哪?
      營銷界(2015年22期)2015-02-28 22:05:18
      兩岸婚戀邁入全新階段
      海峽姐妹(2015年6期)2015-02-27 15:11:19
      如何創(chuàng)業(yè)一年估值過十億
      延安市| 东至县| 舟曲县| 普兰店市| 永修县| 都昌县| 广南县| 车致| 新津县| 浮梁县| 贵德县| 临海市| 望城县| 茌平县| 衡水市| 习水县| 平泉县| 恩施市| 冷水江市| 宜川县| 札达县| 武穴市| 芦山县| 西吉县| 广元市| 仁寿县| 饶河县| 益阳市| 海南省| 阿合奇县| 海口市| 延津县| 张掖市| 柏乡县| 泸西县| 兴国县| 六安市| 利津县| 奉新县| 静海县| 安国市|