摘要:在非平衡數(shù)據(jù)分類問題中,為了合成有價(jià)值的新樣本和刪除無影響的原樣本,提出一種基于邊界混合重采樣的非平衡數(shù)據(jù)分類算法。該算法首先引入支持k-離群度概念,找出數(shù)據(jù)集中的邊界點(diǎn)集和非邊界點(diǎn)集;利用改進(jìn)的SMOTE算法將少數(shù)類中的邊界點(diǎn)作為目標(biāo)樣本合成新的點(diǎn)集,同時(shí)對(duì)多數(shù)類中的非邊界點(diǎn)采用基于距離的欠采樣算法,以此達(dá)到類之間的平衡。通過實(shí)驗(yàn)結(jié)果對(duì)比表明了該算法在保證G-mean值較優(yōu)的前提下,一定程度上提高了少數(shù)類的分類精度。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社。
計(jì)算機(jī)工程與應(yīng)用雜志, 半月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:博士論壇、網(wǎng)絡(luò)、通信與安全、數(shù)據(jù)庫(kù)、信號(hào)與信息處理 、工程與應(yīng)用等。于1964年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。