來源:HIT專家網 作者:程鵬
在信息時代,各行業的數據量都在爆炸式增長,臨床醫療數據也呈現出體量大、增速快、形式多樣、潛在價值高的特點。在醫療衛生信息化的發展過程中,數據利用問題一直是困擾行業發展的一大難題。電子病歷是促進衛生信息化的重點,也是實現區域醫療資源共享的基石。為實現新醫改提出的區域衛生協同目標,如何充分利用電子病歷中的信息,是首先要解決的問題。
電子病歷中非結構化信息提取面臨的困難
作為醫療活動的主要載體,電子病歷不但是一個海量的語料庫,也是病歷大數據分析的基礎。電子病歷文檔不僅包含自然語言文本描述的、完全非結構化的內容,也包含半結構化信息等。在電子病歷中,病案主體及包含在病案中的各種診斷相關描述、檢驗檢查結果、查房記錄、醫囑等,都可以被認為是包含豐富語義信息的半結構化(或非結構化)內容。在臨床醫學研究中,以自然語言文本描述的非結構化數據是電子病歷數據利用方面的一大障礙。由于自然語言沒有相對統一的結構,文檔格式沒有固定的限制,而且寫作自由,所以對電子病歷中的非結構化數據提取非常困難。
在自然語言處理(Natural Language Processing,NLP)領域,常用的文本信息提取方法有兩種:基于統計提取與基于規則提取?;诮y計的提取方法,其特點是提取信息的準確度較高,但是對于概率模型來說,訓練過程比較復雜,而且需要較長的時間;基于規則的提取方法,具有抽取過程簡單的特點,但其抽取結構過于依賴規則的生成和學習。而且,這兩種方法都是針對文本信息的通用提取方法,沒有考慮到醫學數據的行業屬性與特點,因此很難快速、準確地提取出最優解。
深度學習算法誕生后,立即被運用到醫學實體識別和關鍵信息提取的工作中來。早期實體識別領域通用的深度學習方法是采用包含LSTM單元(Long Short Term Memory,長短期記憶單元)的RNN模型(Recurrent Neural Network,遞歸神經網絡),對于輸入的每一個字,隱藏層輸出,通過全連接層與Softmax層獲得最終的標簽概率。但這種方法有兩個明顯缺陷:一是單向的LSTM只能利用上文的信息,無法捕捉到下文的信息;二是LSTM傾向于忽略標簽序列的相互關系作用,體現不出標簽之間的邏輯關系。
一種全新的模型探索
BiLSTM(雙向循環神經網絡)的引入,解決了同時考慮上下文信息的問題,而CRF(Conditional Random Fields,條件隨機場)的引入則對標簽的預測建立了約束條件,從而可以體現出標簽之間相互影響的關系。
實踐中,CRF應用在BiLSTM的頂層,即把BiLSTM的輸出作為CRF的輸入。這樣就得到了當前最流行的方法:BiLSTM結合CRF算法。其中,BiLSTM的作用是感知;而CRF能學習上下文信息,結合輸出層結果和標簽序列的全局概率,預測出最大概率的標簽序列。如圖1所示。
我們在此基礎上進行了進一步的改造。Transformer模型是最近一年多來NLP領域最重要的進展。與BiLSTM一樣,Transformer模型可以對輸入序列每個字之間的特征關系進行提取與捕捉。通過自注意力機制和對多個基本的編碼器(Encoder)與解碼器(Decoder)單元進行連續堆疊,Transformer模型可以發現單字在不同語境下的不同語義,從而實現了一詞多義的區分,比BiLSTM具備更強的特征提取性能。如圖2所示。
在實踐中,我們只使用了Transformer的編碼器部分(某種意義上說,更像是Bert,即雙向Transformer的Encoder),通過多層的自注意力計算結合殘差的計算,將最頂層的Encoder單元的輸出作為CRF的輸入,就得到命名實體的標簽分類。
我們將電子病歷中通過自然語言描述的人體部位、疾病名稱、癥狀、化驗項目、檢查項目、手術、治療等術語,界定為醫學命名實體,通過上述Transformer結合CRF的算法,進行了實體識別及提取的試驗。由于我們標注的詞匯相對比較核心,即未包括各種修飾類的形容詞,因此識別效果比之前的一些研究成果要高出很多,如圖3所示。
Transformer結合CRF的算法,既克服了CRF算法難以識別上下文語義的缺點,又克服了BiLSTM結合CRF算法容易梯度消失和難以并行化計算的不足。有了這一算法的精準識別和提取,我們就可以在“電子病歷結構化分拆系統”中進一步構造后結構化模板:即key或value包含一個或多個實體,再組合修飾詞共同構成,從而實現電子病歷的準確拆分,如圖4所示。
要實現醫療信息資源的共享和互聯互通,必須從電子病歷中提取出結構化數據。采用最新的基于深度學習的實體識別和提取方法,可以快速、準確地提取各種診斷、癥狀、醫囑、檢驗、檢查、手術等信息,提高電子病歷的利用水平,間接提升電子病歷書寫質量,以達成更高的電子病歷評級標準,為未來人工智能輔助診斷系統奠定基礎,是未來醫院的重要發展方向。
【作者簡介】
程鵬,高級工程師,曾任大型衛生行業企業的技術總監,參與多個省、市級醫院的衛生信息化項目的建設?,F任上海資智網絡科技有限公司技術負責人,主要研究方向為人工智能在醫療行業的應用。
【責任編輯:陳曦】
評論前必須登錄!
注冊