摘要:非頻繁項(xiàng)集是未被標(biāo)準(zhǔn)化的頻繁項(xiàng)集產(chǎn)生算法(如APRIORI以及FP-Growth算法)提取的所有項(xiàng)集.在數(shù)據(jù)集上挖掘有意義的非頻繁項(xiàng)集是數(shù)據(jù)挖掘的重要工作之一.目前,基于傳統(tǒng)數(shù)據(jù)集的非頻繁項(xiàng)集挖掘研究主要集中在負(fù)相關(guān)、負(fù)模式以及間接關(guān)聯(lián)等方面,且主要是對(duì)整個(gè)數(shù)據(jù)集上的性質(zhì)進(jìn)行分析,而沒(méi)有對(duì)數(shù)據(jù)集的切片進(jìn)行分析.該文提出了一種新的模式,試圖找到符合如下條件的特定子群,其描述的數(shù)據(jù)集切片上存在某些特殊項(xiàng)集,這些項(xiàng)集在整個(gè)數(shù)據(jù)集上并非頻繁項(xiàng)集,但是在該數(shù)據(jù)集切片上卻是頻繁項(xiàng)集.根據(jù)用戶要求自動(dòng)找出這些異常子群以及其對(duì)應(yīng)項(xiàng)集的算法在數(shù)據(jù)分析中有著十分重要的意義.該文提出的解決方案由兩部分組成:候選產(chǎn)生階段以及查詢交互階段.前者是一個(gè)脫機(jī)處理的過(guò)程,而后者則是在線實(shí)時(shí)反饋的過(guò)程.在候選產(chǎn)生階段,該文提出了一種基于多維數(shù)據(jù)集高效產(chǎn)生頻繁項(xiàng)集以及顯著子群并有效建立索引的算法.根據(jù)索引,在查詢交互階段,該文提出的算法框架可以快速準(zhǔn)確地返回給定查詢對(duì)應(yīng)的異常子群以及對(duì)應(yīng)項(xiàng)集.基于多個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)表明,該文提出的方案可以根據(jù)用戶要求實(shí)時(shí)返回有意義的異常子群以及對(duì)應(yīng)項(xiàng)集.此外,該文提出的算法在多維數(shù)據(jù)集上的挖掘效率比UTMTU算法提升了數(shù)倍.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社
國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C