來源:HIT專家網????作者:張守輝
電子病歷的前結構化和后結構化
病歷結構化是醫院信息化和醫療智能化發展的重要環節,是使計算機能像醫生一樣進行診斷和判斷的基礎。如果病歷能夠結構化,就意味著,以類似的方式也能完成對各種非結構化數據(如病人咨詢、醫生檢查、化驗單等)的結構化。所以,在智能醫學領域,病歷結構化被認為是除醫學圖像識別外的另一項關鍵技術。
電子病歷的前結構化是一種預設模塊的控制,在醫生書寫電子病案時,提供一套結構化模板,醫生可從中選擇。
后結構化是對醫生書寫的文本型非結構化數據進行事后處理,利用自然語言處理方法,從中提取結構化信息,并在電子病歷模板中進行填充。
總結來說,首先要有某種結構化的電子病歷規范(或稱為模板),先由醫生來填寫;再通過后結構化,從醫生寫的病歷中抽取相應的信息來填寫。
為什么要結構化?
目前,醫療記錄的結構化主要基于以下幾個方面的原因和要求:
(1)醫療記錄數據不標準,或者沒有完全整合。全國有超過2.7萬家醫院使用由幾十家主要供應商開發的不同的HIS系統管理醫療記錄。即使這些不同的HIS系統都以文本形式存儲醫療記錄,甚至有些已經采用了最新標準的電子醫療記錄系統,以結構化形式存儲醫療記錄,但由于處理大量累積的歷史記錄、打通不同廠商的醫療記錄系統格式、處理因個人隱私而只能提供的紙質醫療記錄等諸多方面的原因,仍需要對醫療記錄進行結構化,以完成后續的分析和利用。
(2)分析患者資料以供臨床試驗。全國有4千多家藥廠,每年都有大量新藥和已上市藥物的臨床試驗,要求在醫院收集患者資料以測試藥物效果等指標,這就需要大量收集和協調臨床資料,如EDC系統(Electronic Data Capture System, 電子數據捕獲系統)和CRC系統(Cyclic Redundancy Check, 循環冗余校驗)。而大多數患者資料都記錄在HIS系統中,所以,EDC、CRC系統本質上是以人工整理和檢查的方式來組織部分患者數據。如果采用智能化病案結構技術,可以大大降低這一環節的成本。
(3)醫生診斷治療的輔助、管理和培訓。以病案結構為基礎,可計算出病癥、疾病、藥物、化驗指標等多個知識點之間的推理關系和概率,進一步用于優化醫生的工作。舉例來說,在構建了知名大醫院的病歷結構之后,創建輔助診斷系統,輸出到基層衛生單位以提高醫生的工作能力,根據癥狀描述和檢驗結果智能地提出診斷建議;自動分析醫生開的藥是否合理,或判斷是否存在誤診風險;自動填寫病歷首頁等。
如何實現后結構化?
整體而言,將病歷結構化,提取相關知識點,是智能診療等一系列人工智能應用的基礎工作。
病案構造是根據病案內容的深層語義理解,提取出相應的知識點,因而一般包括以下幾個環節:(1)建立需要在某一領域提取的知識本體,如心臟病和糖尿病,以及相應的本體涵蓋的相應疾病、癥狀、檢查方法、分析結果、藥物、治療方法、手術名稱、病因等;(2)針對每個目標知識點,標注足夠的訓練語料,或者寫出足夠的提取規則,開始提??;(3)利用機器學習方法,根據訓練語料和提取規則,建立訓練模型,采用自動學習模式,并處理新的醫療記錄。
建立病案結構時,知識圖譜和深度學習是重要的技術支持之一。創建有關疾病領域的知識圖譜,定義成千上萬個概念以及它們之間的關系。將定義中的每個概念和關系從病歷中提取出來,就完成了結構化。知識圖譜的定義過程中,可能會出現定義不全、定義不準確的情況,這時可以通過深度學習進行完善,將少量人工定義的知識與大量歷史記錄相結合,自動發現新知識,完成“小知識+大知識”的過程。
也就是說,首先構建相關領域的醫學知識圖譜,然后利用包括深度學習在內的多種算法對知識圖譜進行優化,實現新知識的自動發現。
后結構化的難點
醫療記錄結構化技術的研究與開發存在以下幾個主要難點:
(1)知識量大。醫療記錄的結構需要抽取大量的知識點,如ICD-10編碼系統中規定的疾病、治療方法就有3萬多種,與癥狀、藥物、發病機制有關的知識點更多。怎樣界定成千上萬的知識點,以及如何建立它們之間的關系,是非常復雜的。
(2)精確度要求高。診療和藥物臨床試驗通常要求從病歷等數據中提取患者信息的精確度超過95%,而機器學習算法,包括深度神經網絡,由于標注語料等各方面的原因,無法達到精確度要求。例如,不能對成千上萬個知識點中的每個知識點標注數千個實例。
(3)較低的召回率。醫生在書寫病歷時,對于相同的事物(如疾病和癥狀描述),存在大量不同的自然語言表達。所以對于每個知識點,收集并標注足夠的語料,讓機器盡可能全面地理解醫療記錄中的不同表述,實際上是非常困難的,這就給召回率帶來了很大的挑戰。(作者系上海資智網絡科技有限公司總經理)
【責任編輯:譚嘯】
有沒有研究后結構化的朋友,一起探討技術
可以啊
微信wxid123765fg