摘要:當前,卷積神經(jīng)網(wǎng)絡已在圖像分類、目標檢測等計算機視覺領域被廣泛應用。然而,在前向推斷階段,許多實際應用往往具有低延時和嚴格的功耗限制。針對該問題,采用參數(shù)重排序、多通道數(shù)據(jù)傳輸?shù)葍?yōu)化策略,設計并實現(xiàn)了一種基于FPGA的SIMD卷積神經(jīng)網(wǎng)絡加速器架構(gòu)。以YOLOv2目標檢測算法為例,介紹了將卷積神經(jīng)網(wǎng)絡模型映射到FPGA上的完整流程;對加速器的性能和資源耗費進行深入分析和建模,將實際傳輸延時考慮在內(nèi),縮小了加速器理論時延與實際時延的誤差;改進了加速器架構(gòu)中的輸入和輸出模塊,有效提高了總線帶寬的實際利用率。實驗結(jié)果表明,在Zedboard上獲得了30.15 GOP/s的性能,與Xeon E5-2620 v4 CPU相比,能效是其120.4倍,性能是其7.3倍;與雙核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機科學與探索雜志, 月刊,本刊重視學術(shù)導向,堅持科學性、學術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述探索、簡訊、學術(shù)研究、專題報導、專題報導。等。于2007年經(jīng)新聞總署批準的正規(guī)刊物。