摘要:在機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)等領(lǐng)域,高質(zhì)量數(shù)據(jù)集的合成一直以來(lái)是一個(gè)非常重要且充滿挑戰(zhàn)性的問(wèn)題.其中,合成的高質(zhì)量數(shù)據(jù)集可用來(lái)改善模型,尤其是深度學(xué)習(xí)模型的訓(xùn)練過(guò)程.一個(gè)健壯的模型訓(xùn)練過(guò)程需要大量已標(biāo)注的數(shù)據(jù)集,獲取這些數(shù)據(jù)集的一種方法是通過(guò)領(lǐng)域?qū)<业氖謩?dòng)標(biāo)注,這種方法不僅代價(jià)大還容易出錯(cuò),因此由模型自動(dòng)合成高質(zhì)量數(shù)據(jù)集的方法更為合理.近年來(lái),由于計(jì)算機(jī)視覺(jué)領(lǐng)域的飛速發(fā)展,已經(jīng)有不少致力于圖像數(shù)據(jù)集合成的研究,但是這些模型不能直接應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)表上,并且據(jù)調(diào)研,對(duì)這類數(shù)據(jù)的相關(guān)研究幾乎沒(méi)有.因此,提出了一個(gè)針對(duì)結(jié)構(gòu)化數(shù)據(jù)表的生成模型TableGAN,該模型是生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)家族的一種變體,通過(guò)對(duì)抗訓(xùn)練的方式提高生成模型的性能.針對(duì)結(jié)構(gòu)化數(shù)據(jù)的特征改變了傳統(tǒng)GAN模型的內(nèi)部結(jié)構(gòu),包括優(yōu)化函數(shù)等,使其能夠生成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)用于改善模型的訓(xùn)練過(guò)程.通過(guò)在真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明了此模型的有效性,即在擴(kuò)大后的數(shù)據(jù)集上訓(xùn)練模型的效果有明顯提升.
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社
國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C