摘要:聚類是機(jī)器學(xué)習(xí)領(lǐng)域的一個重要研究方向,在過去幾十年間,針對不同類型中小規(guī)模數(shù)據(jù)集聚類算法的研究取得了很大的進(jìn)展,許多行之有效的算法先后問世.然而,這些算法在處理大規(guī)模數(shù)據(jù)集時,計算復(fù)雜度較高,處理高維數(shù)據(jù)的能力較弱,難以獲得令人滿意的效果.隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的采集和存儲變得相對容易和便捷,但數(shù)據(jù)量也與日俱增,因此,針對各種實際應(yīng)用的聚類問題應(yīng)運而生,使得專門針對大規(guī)模數(shù)據(jù)集的聚類算法研究成為當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的重要任務(wù)之一.本文以大規(guī)模數(shù)據(jù)集的可計算性為切入點,對目前串行和并行計算環(huán)境下專門用于處理大規(guī)模數(shù)據(jù)集的聚類算法進(jìn)行綜述和分析,重點評述了串行計算環(huán)境下基于樣例選擇、增量學(xué)習(xí)、特征子集和特征轉(zhuǎn)換的聚類算法以及并行計算環(huán)境下基于MapReduce、Spark和Storm框架的聚類算法,給出了有關(guān)未來大規(guī)模數(shù)據(jù)集聚類算法設(shè)計思路與應(yīng)用前景的思考和討論,包括基于數(shù)據(jù)并行和訓(xùn)練過程自動化的聚類算法設(shè)計策略及關(guān)于社交網(wǎng)絡(luò)大數(shù)據(jù)聚類算法的若干理解.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
深圳大學(xué)學(xué)報·人文社會科學(xué)版雜志, 雙月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:文明對話與文化比較、創(chuàng)意經(jīng)濟(jì)與文化產(chǎn)業(yè)、經(jīng)濟(jì)增長與金融創(chuàng)新、政治空間與法治社會、城鄉(xiāng)建設(shè)與社會治理、人文天地與中國精神等。于1984年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。