摘要:三對角方程求解器是一種在很多科學(xué)與工程領(lǐng)域廣泛應(yīng)用的數(shù)值計算核心。目前,CPU、GPU等主流硬件平臺上都提出了高度優(yōu)化的并行算法,但是對于中國自主研發(fā)的申威26010眾核處理器,還沒有一種算法能有效地利用其獨特的硬件特性來達(dá)到最大化的性能。提出了一種分布式CR算法swDCR,來求解大量的、規(guī)模不大的三對角方程。該算法對每個三對角方程使用多個從核并行求解,通過聯(lián)合多個從核的緩存使得運(yùn)算過程中所有中間變量都能存儲在緩存中,同時利用寄存器通信完成核間數(shù)據(jù)的高速傳輸。通過設(shè)計線程級數(shù)據(jù)劃分機(jī)制,使得向量化的優(yōu)化效果最大化。swDCR的吞吐率相比主核上的追趕法達(dá)到了單精度43.9倍和雙精度36.7倍的加速,相比從核上的追趕法達(dá)到了單精度和雙精度均2.07倍的加速。該算法在申威26010處理器單個核組上可以獲得24GB/s的有效帶寬。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機(jī)科學(xué)與探索雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進(jìn)性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述探索、簡訊、學(xué)術(shù)研究、專題報導(dǎo)、專題報導(dǎo)。等。于2007年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。