日前,清華大學人工智能研究院基礎理論研究中心發(fā)布了深度強化學習框架“天授”,代碼已在GitHub開源。這是繼“珠算”可微分概率編程庫之后,該中心推出的又一個面向復雜決策任務的編程庫。
據(jù)悉,“天授”一詞來源于《史記》,意為“取天所授而非學自人類”,刻畫了強化學習通過與環(huán)境進行交互自主學習,而不需要像監(jiān)督學習一樣需要大量人類標注數(shù)據(jù)。研究團隊繼承了首版“天授0.1”在模塊化等方面的優(yōu)勢后,推出了基于PyTorch框架的“天授0.2”版本。
據(jù)介紹,天授系統(tǒng)具有5大技術優(yōu)勢:代碼簡潔、模塊化、可復現(xiàn)性、接口靈活以及訓練速度快。相較于其他PyTorch強化學習框架,“天授0.2”具有結構簡單、二次開發(fā)友好的特點,整個框架代碼1500行左右,支持主流的強化學習算法DQN、A2C等,同時設計了靈活的接口,用戶可以定制自己的訓練方法。針對現(xiàn)有平臺訓練速度慢的缺點,“天授”通過將并行采樣與緩存機制相結合提高了采集數(shù)據(jù)的速度。此外,整個框架基于模塊化的原則進行設計,在其上實現(xiàn)常見的強化學習算法僅需不到100行的代碼。
目前,“天授0.2”版本已在GitHub上獲得超過900個星標。