摘要:針對(duì)傳統(tǒng)Q-learning算法在復(fù)雜環(huán)境下移動(dòng)機(jī)器人路徑規(guī)劃問題中容易產(chǎn)生維數(shù)災(zāi)難的問題,提出一種改進(jìn)方法。該方法將深度學(xué)習(xí)融于Q-learming框架中,以網(wǎng)絡(luò)輸出代替Q值表,解決維數(shù)災(zāi)難問題。通過構(gòu)建記憶回放矩陣和雙層網(wǎng)絡(luò)結(jié)構(gòu)打斷數(shù)據(jù)相關(guān)性,提高算法收斂性。最后,通過柵格法建立仿真環(huán)境建模,在不同復(fù)雜程度上的地圖上進(jìn)行仿真實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)驗(yàn)證了傳統(tǒng)Q-learming難以在大狀態(tài)空間下進(jìn)行路徑規(guī)劃,深度強(qiáng)化學(xué)習(xí)能夠在復(fù)雜狀態(tài)環(huán)境下進(jìn)行良好的路徑規(guī)劃。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C