摘要:關(guān)系抽取是自然語言處理的重要研究內(nèi)容,是知識圖譜構(gòu)建的關(guān)鍵技術(shù)。目前,在神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制進(jìn)行關(guān)系抽取成為主流方法,現(xiàn)有方法一般結(jié)合句子單詞和實體相關(guān)性計算注意力,沒有考慮短語和實體關(guān)系之間的相關(guān)性,并且對實體信息利用不夠充分。針對該問題,提出基于短語級注意力機(jī)制的關(guān)系抽取方法。首先用卷積層對詞向量做卷積,以滑動窗口的方式得到短語級的向量表示,然后利用短語與實體關(guān)系之間的相關(guān)性計算注意力。為了使實體信息利用更充分,用卷積層和池化層分別提取實體短語的深度特征表示,并引入TransE的思想表示兩個實體關(guān)系的特征。最后,采用分段池化方法得到深度特征。為了減少遠(yuǎn)程監(jiān)督中錯誤標(biāo)簽的干擾,使用標(biāo)簽平滑正則化(LSR)把原來的“硬”標(biāo)簽改為“軟”標(biāo)簽。實驗結(jié)果表明,該方法能夠有效利用短語信息和實體關(guān)系信息,對實體關(guān)系抽取效果有較大的提升。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社