摘要:實體識別是數(shù)據(jù)集成和數(shù)據(jù)清洗的一個重要方面.針對Pay-as-you-go數(shù)據(jù)管理需求,本文提出一個基于多路分塊的Pay-as-you-go實體識別方法.該方法不要求提供最優(yōu)的分塊或排序的鍵,并且可以直接找出臟數(shù)據(jù)集中冗余度最大的區(qū)域.分為兩個階段,初始化階段和迭代階段.在初始化階段,初步地生成候選數(shù)據(jù)對象對,并按匹配可能性排序后加入到候選隊列.在迭代階段,每次選擇候選隊列隊首的候選對(即最可能匹配的)來處理,并且根據(jù)實時的實體識別結果,動態(tài)地更新候選對的匹配可能性,調整候選隊列.這樣減少了無用的數(shù)據(jù)對象比較,使得實時的識別結果最優(yōu)化.通過在真實數(shù)據(jù)集和合成數(shù)據(jù)集上的實驗對比,說明本文提出的基于多路分塊的Pay-as-you-go實體識別方法顯著地優(yōu)于已有工作中提出的方法.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機學報雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創(chuàng)新性,刊載內容涉及的欄目:研究論文與技術報告、短文、學術通信、學術活動、中國計算機學會學術動態(tài)等。于1978年經新聞總署批準的正規(guī)刊物。