摘要:針對傳統(tǒng)基于鏈表結(jié)構(gòu)的Top-K高效用挖掘算法在大數(shù)據(jù)環(huán)境下不能滿足挖掘需求的問題,提出一種基于Spark的并行化高效用項(xiàng)集挖掘算法(STKO)。首先從閾值提升、搜索空間縮小等方面對TKO算法進(jìn)行改進(jìn);然后選擇Spark平臺(tái),改變原有數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),利用廣播變量優(yōu)化迭代過程,在避免大量重新計(jì)算的同時(shí)使用負(fù)載均衡思想實(shí)現(xiàn)Top-K高效用項(xiàng)集的并行挖掘。實(shí)驗(yàn)結(jié)果表明,該并行算法能有效地挖掘出大數(shù)據(jù)集中的高效用項(xiàng)集。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計(jì)算機(jī)工程與科學(xué)雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:算法研究、圖形與圖象、計(jì)算機(jī)網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、仿真技術(shù)研究、人工智能、研究與實(shí)現(xiàn)、試題選載與博士論文摘要等。于1973年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。