摘要:聲學場景中包含著很多長時特征和短時特征。本文提取環(huán)境聲的能量信息,批量生成聲音場景的三維語譜圖,作為卷積神經(jīng)網(wǎng)絡的輸入。神經(jīng)網(wǎng)絡采用卷積層和下采樣層重復交疊,整體網(wǎng)絡采用六層網(wǎng)絡結構,最終經(jīng)過softmax方法進行多分類。實驗采用DCASE2017競賽數(shù)據(jù)集作為素材,對15類6300段音頻進行訓練測試,結果表明,語譜圖特征與卷積神經(jīng)網(wǎng)絡相結合的算法能夠很好的提取長時特征和短時特征,使得最終分類準確率較高,優(yōu)于網(wǎng)站基線系統(tǒng)的分類結果。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社