前言:本站為你精心整理了條件隨機域的生物醫學命名識別范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1背景
隨著生物醫學技術的迅速發展,生物醫學文獻的數量也急劇增加。研究人員如何才能從海量的自然語言文本中獲得所需信息呢?當今人們普遍采用文本挖掘(TextMining)技術來解決這一問題。文本挖掘的第一步是命名實體識別(NamedEntityRee銘nition,NER)。在生物醫學領域NER工作比普通領域困難得多,州LPBAZoo4任務I’l的公開測評結果表明,在GEN認[2]語料集上最好的系統也只能達到72.6%的F一score,離可以應用的水平還有很大的差距。目前的生物醫學命名實體識別的方法主要有基于字典和機器學習的方法。機器學習方法能夠識別未登陸詞,并且可以根據上下文環境對己經登陸詞給出更準確的答案。因此越來越被人們所重視,大量的模型應用于該領域,。而其中最具優勢的是既擁有馬爾科夫鏈結構,又適合于處理復雜稀疏特征的條件隨機域模型。從JNLPBA2004測評的結果分析,系統I3j只使用了很少種類的特征,沒有使用任何專業詞典,F一score就達到了69.8%,而該實驗使用的模型正是條件隨機域。
2條件隨機域
條件隨機域(ConditionalRandomFields,c),是計算具有無向圖G結構的隨機變量集合s在給定隨機變量集合。下的條件概率P(s}o)。將CRF應用于命名實體識別中,則0表示一個句子的單詞序列,S表示相應的狀態序列,標注的過程就是根據己知的單詞序列推斷出最有可能的狀態序列,即P(s}o)的最大值。本實驗使用了一階線性C盯。表明當前句子中第i個位置上是否具有第k個特征,并且取決于當前狀態s,和前一個狀態si-,•凡是特征的權重,通過訓練得到。
3實驗
3.1特征選擇
本實驗借鑒了JNLPBA2004任務中各系統的部分特征,同時選取了一些新特征。共分為9類:單詞本身(Fl):將所有的單詞都轉化成小寫字母。構詞特征(F2):包括首字母大寫,所有字母大寫,是否包含橫線,是否是數字等。詞綴特征(F3):對每個單詞都取了3個和4個字符的前綴,以及3個和4個字符的的后綴。詞形特征(F4):將大寫字母替換成A,小寫字母替換成a,數字替換成O,特殊符號替換成x。特征聯合(F5):將相鄰位置的特征進行聯合,得出新的特征,有助于識別長距離詞。本實驗選擇窗口的大小為(-1,十l)。詞性標記特征(F6)和短語切分標記特征(F7):本實驗使用GENIATa朗er對訓練語料和測試語料進行標注,得到相應的詞性標記和短語切分標記作為特征。關鍵詞特征(F8):實驗中統計了訓練集的命名實體中出現20次以上的1一gram和2一gram的關鍵詞,將這些詞是否出現作為特征。邊界詞特征(F9):從結果的統計中發現,相當多的錯誤都是發生在邊界。因此,本實驗統計了訓練集中的邊界詞,取出現5次以上的作為特征。
3.2可以看出隨著訓練語料的增加,后期的F一score趨于平緩,提高的幅度很小,一半的語料兒乎沒有被利用。可以預計,如果訓練集再增加2000篇文章,還采用當前的方法,效果仍然不會有太人的改善。另一個值得注意的現象是,隨著訓練語料的增多,對訓練集本身的標注效果有明顯的降低,見圖2。原因之一可能是由于有過多的特征是針對未登陸詞的,從而影響了已經登陸詞的識別;另一個原因則是語料本身的錯誤,尤其是標注不一致。有文獻統計過生物醫學文獻人工標注的正確率在87%一89%之間,但從本實驗的結果推測,GENIA中的標注正確率應高于90%。此外,語料標注錯誤對機器學習方法的影響相對較小,統計的方法可以忽略極個別的錯誤;如果在訓練集中的標注錯誤類型基本一致,只是通過學習錯誤的語料標注同樣錯誤的數據,并不影響機器學習的效果。總之70%左右的F一score不能僅僅用語料的錯誤來解釋。但從曲線的趨勢可以推測,仍使用當前的方法,無論使用多大的語料進行訓練,F一score都不會超過92%。
3.3邊界判定問題
邊界判定不準確是生物醫學命名實體識別面臨的最主要問題,經統計發現38%的錯誤是發生在邊界上。生物醫學命名實體的邊界判定是一個極其復雜的問題。本實驗采用CRF進行二次標注,集中解決左邊界問題。即固定了右邊界,對左邊屆從新進行判斷。首先把第一次標注的命名實體分為己確定和未確定的部分,左邊界詞以及它前面和后面一個詞是未確定的,其它詞都是己確定的。對已經確定的部分只賦予一個特征,就是第一次標注的結果,對未確定的部分賦予以下特征:
1.詞匯特征:l一gram,2一gram項。
2.關鍵詞特征:與第一次標注相同。
3.邊界詞特征:同上。
4.詞性標記,短語切分特征:同上。
5.核心名詞特征:假定右邊界正確,把右邊界詞當作核心名詞,如:purifiedhumane明hro記co!ony一formingcells,cells就作為核心名詞。對于判斷前面詞的類別起著重要的作用,尤其當名字很長的時候。這個特征在第一次標注的時候由于沒有判斷出右邊界而無法得到。
6.特征聯合:將特征1的卜gram項和特征5聯合。然后將不同的結果利用Google進行裁決,僅僅利用簡單的規則:如果較長的實體名長度不大于3,且返回網頁數超過10就算正確,否則選取較短的實體名;如果長度大于3且無不匹配的括號,則遵循第二次標注的結果,否則依照第一次結果。在F一score上得到了1%的提高,左邊界錯誤率減少了7.2%。
4總結
本文使用基于條件隨機域的方法進行了生物醫學命名實體識別的實驗,討論了訓練語料規模和不同特征對標注結果的影響,然后使用二次標注的方法處理了邊界判定的問題,取得了一定的效果。得出以下結論:對于通過一次機器學習很難處理的復雜的問題,往往可以利用第一次的結果選擇新特征進行再學習,這樣會逐步縮小范圍,便于進一步處理。