摘要:機器學習中類不平衡分布問題包含了不同類之間數(shù)據(jù)樣本的偏差分布,導致學習過程更偏向于多數(shù)類。而高維數(shù)據(jù)的稀疏性使得分類的偏差更加明顯,因此對于高維不平衡數(shù)據(jù),維度災難與類不平衡分布這兩個挑戰(zhàn)性問題相互疊加在一起,使得解決高維不平衡問題變得更為困難。針對這一問題,文中提出結(jié)合隨機子空間和SMOTE過采樣技術(shù)的AdaBoost集成方法(AdaBoost ensemble of Random subspace and SMOTE,AdaBoostRS)來處理高維不平衡數(shù)據(jù)的分類。具體地,AdaBoostRS通過隨機子空間選取部分特征來訓練每個分類器,以增加分類樣本的多樣性和降低高維數(shù)據(jù)的維度,然后通過SMOTE方法對降維數(shù)據(jù)的少數(shù)類進行線性插值,以解決類不平衡問題?;?個高維不平衡的標準時間序列數(shù)據(jù)集進行實驗,結(jié)果表明,以F-measure、G-mean與AUC 3個性能指標來進行評判,AdaBoostRS優(yōu)于傳統(tǒng)的集成學習方法。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社