摘要:聚類是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究方向,在過(guò)去幾十年間,針對(duì)不同類型中小規(guī)模數(shù)據(jù)集聚類算法的研究取得了很大的進(jìn)展,許多行之有效的算法先后問(wèn)世.然而,這些算法在處理大規(guī)模數(shù)據(jù)集時(shí),計(jì)算復(fù)雜度較高,處理高維數(shù)據(jù)的能力較弱,難以獲得令人滿意的效果.隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的采集和存儲(chǔ)變得相對(duì)容易和便捷,但數(shù)據(jù)量也與日俱增,因此,針對(duì)各種實(shí)際應(yīng)用的聚類問(wèn)題應(yīng)運(yùn)而生,使得專門針對(duì)大規(guī)模數(shù)據(jù)集的聚類算法研究成為當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的重要任務(wù)之一.本文以大規(guī)模數(shù)據(jù)集的可計(jì)算性為切入點(diǎn),對(duì)目前串行和并行計(jì)算環(huán)境下專門用于處理大規(guī)模數(shù)據(jù)集的聚類算法進(jìn)行綜述和分析,重點(diǎn)評(píng)述了串行計(jì)算環(huán)境下基于樣例選擇、增量學(xué)習(xí)、特征子集和特征轉(zhuǎn)換的聚類算法以及并行計(jì)算環(huán)境下基于MapReduce、Spark和Storm框架的聚類算法,給出了有關(guān)未來(lái)大規(guī)模數(shù)據(jù)集聚類算法設(shè)計(jì)思路與應(yīng)用前景的思考和討論,包括基于數(shù)據(jù)并行和訓(xùn)練過(guò)程自動(dòng)化的聚類算法設(shè)計(jì)策略及關(guān)于社交網(wǎng)絡(luò)大數(shù)據(jù)聚類算法的若干理解.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社。
深圳大學(xué)學(xué)報(bào)·人文社會(huì)科學(xué)版雜志, 雙月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅(jiān)持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:文明對(duì)話與文化比較、創(chuàng)意經(jīng)濟(jì)與文化產(chǎn)業(yè)、經(jīng)濟(jì)增長(zhǎng)與金融創(chuàng)新、政治空間與法治社會(huì)、城鄉(xiāng)建設(shè)與社會(huì)治理、人文天地與中國(guó)精神等。于1984年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。