摘要:對(duì)由多個(gè)指標(biāo)組成的多元數(shù)據(jù)進(jìn)行聚類(lèi)分析時(shí),數(shù)據(jù)維度的增加、各指標(biāo)與總體聚類(lèi)的相關(guān)性程度不一致以及各指標(biāo)服從的分布不同會(huì)增加聚類(lèi)的復(fù)雜性,影響聚類(lèi)結(jié)果的準(zhǔn)確性,因此需要通過(guò)合適的方法來(lái)對(duì)多元數(shù)據(jù)進(jìn)行聚類(lèi)分析。針對(duì)這一問(wèn)題,提出改進(jìn)的帶粘性的層次Dirichlet過(guò)程(sticky Hierarchical Dirichlet Process)方法來(lái)實(shí)現(xiàn)對(duì)多元數(shù)據(jù)的降維聚類(lèi),以解決各指標(biāo)服從不同分布的問(wèn)題,并用粘性參數(shù)反映各指標(biāo)與總體聚類(lèi)之間的相關(guān)性。用MCMC方法來(lái)估計(jì)模型參數(shù)。通過(guò)對(duì)仿真模擬數(shù)據(jù)和IRIS數(shù)據(jù)集的聚類(lèi)分析,證實(shí)了該方法的有效性,同時(shí)發(fā)現(xiàn)單個(gè)指標(biāo)與總體聚類(lèi)的相關(guān)性越大,則相應(yīng)的粘性參數(shù)越大,從而反映該指標(biāo)在總體聚類(lèi)中的重要性程度越高;并且當(dāng)各指標(biāo)數(shù)據(jù)中有粘性較大的指標(biāo)時(shí),帶粘性的層次Dirichlet過(guò)程方法明顯優(yōu)于其他聚類(lèi)方法,能夠顯著提高分類(lèi)的準(zhǔn)確性。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社