來源:HIT專家網 作者:龔晨、朱小兵
三級醫院數據通常80%以上是非結構化數據,其中醫學影像數據占絕對比重。如何保證臨床醫生對高效高質閱片體驗的極致追求?醫學影像調閱場景日益增多,如何在控制成本的前提下實現“數據時刻在線”?如何避免傳統集中式存儲在橫向擴展上的性能瓶頸問題?如何破解海量影像數據的備份、遷移難題?
分布式存儲解決方案,憑借其獨特的橫向可擴展性以及經濟性,日益成為醫院信息部門應對上述挑戰時的重要技術方案選項。
醫學影像數據的存儲管理面臨新需求
迅速增長的醫學影像數據及日益普及的臨床應用需求,對存儲管理提出了新需求。
一是數據體量大且增長迅速。三甲醫院的醫學影像數據通常達到數百TB量級,部分大型三甲醫院已達PB級別。據上海交通大學醫學院附屬仁濟醫院(以下簡稱仁濟醫院)信息中心主任鄭濤介紹,近年來,仁濟醫院的影像數據存儲呈現出多院區集中化管理與跨院區一體化應用的特點,累計集中的影像數據總量已超2PB。
“面對未來數字化病理、區域醫療中心等建設,非結構化數增量只會越來越大?!睋?a>南昌大學第一附屬醫院信息處處長、江西省臨床醫學科學研究院醫療信息化研究所所長曹磊介紹,南昌大學第一附屬醫院的數據增長量約為300TB/年,大影像總數據量達到1.2PB。新型影像數據、組學數據等數據類型的增多,影像空間分辨率的增加,使得影像數據處于持續激增狀態。
二是文件總數量大,且以小文件為主。以多層螺旋CT等新型影像設備為例,其數據產生和處理方式導致了需要存儲的文件數量大規模增長,而影像數據的另一特點是小文件特別多,讀寫效率低,成為影像查詢與調閱的瓶頸。
三是數據存儲時間長。根據相關法規要求,醫學影像數據需要存儲15-30年,甚至可能需要永久存儲,這對存儲架構的延續性提出較大挑戰。
四是數據應用場景多樣。院內院外各類業務系統、區域影像平臺等都對影像數據有訪問需求,除支持臨床業務、科研外,還需面向患者端的云膠片,多院區、醫聯體內的遠程影像會診等新業態。這些多樣化的需求使得影像數據的訪問頻次加劇、訪問數據量增多,存儲端面臨高并發壓力。
五是調閱頻率不均。醫學影像數據有顯著的“冷熱之分”,隨著時間的推移,早期數據被訪問的概率逐漸降低,成為冷數據。對不同訪問頻率的數據采用相同的存儲技術,既不合理也難以持續,因此選擇存儲方案時需在調閱性能和存儲成本之間尋找平衡點。
“歸檔的歷史數據,調閱速度降下來之后,臨床反饋最強烈的部分就是影像數據?!编崫l現,如今臨床醫生對“歷史影像對比”的需求非常高,這也要求影像數據盡可能采取近線存儲方式。
六是數據備份、遷移難度大。PB級別的醫學影像數據遷移與備份,更是醫院信息部門的巨大挑戰。鄭濤給出一個數字:“大約花兩年才能遷移4年的數據?!?/p>
分布式存儲契合醫學影像數據存儲難點
鄭濤認為,由于醫學影像數據具有體量大、文件數量規模大、數據路徑復雜度高的特點,給數據存儲管理帶來不少痛點:例如集中存儲的空間需求高、核心網絡數據交互的負荷高、大量4K小文件與存儲條帶的優化難度高,以及數據備份的耗費高等。
仁濟醫院集中存放影像數據,所占機房機柜的比例可達20%甚至更高,且未來增長趨勢明顯可見。更多的集中式存儲也意味著需要更多網絡資源,以提供更多節點負載式地數據交互方式?!昂翢o疑問,這是醫院數據中心都在面臨的兩大痛點?!编崫f。
因此,越來越多的醫院CIO開始關注分布式存儲。
曹磊認為,分布式存儲的諸多技術特性,很好地契合了醫學影像數據的特殊需求。
首先,也是最重要的一點,分布式存儲具備獨特的橫向擴展能力——在增加存儲容量時,存儲性能隨之線性增長,達到容量和性能的平衡;而不會像傳統集中式存儲的縱向擴展架構一樣,在增加容量的同時性能不變甚至下降。
第二,分布式存儲采用多節點組成存儲集群,能夠把來自客戶端的訪問分布在不同節點上,提高訪問效率。
第三,較好的分布式存儲產品一般都具備完善的軟硬件生命周期管理能力,不同時期、不同型號的產品能夠跨多代整合到同一集群中,以避免大規模的數據遷移。目前南昌大學第一附屬醫院的分布式存儲集群橫跨了三代產品,時間跨度超過10年。
第四,大多數分布式存儲產品能支持一個大的統一目錄,減少造成數據分區的可能性,方便運維;主流的分布式存儲產品能支持多種訪問協議,較好地滿足不同業務的數據訪問需求。
深信服EDS針對醫學影像數據的“四重優化”
將存儲架構從集中式存儲轉向分布式存儲,深信服醫療事業部EDS運營專家張擁軍對此有一個比喻:從“綠皮火車”邁向“高鐵”,才能解決醫院集中式存儲面臨大容量帶來的性能瓶頸和可持續擴展的問題。深信服EDS,也即“企業級分布式存儲”(Enterprise Distributed Storage),誕生于2013年,早期作為超融合、桌面云的存儲底座使用。2017年,深信服正式將EDS作為一款高性能生產存儲產品獨立發布,使其從底座走向生產場景,截至目前已在多個行業交付超過200例PB級存儲項目。
為使EDS更好地適應醫療業務場景,深信服針對醫學影像數據進行了四重專項優化,推出“醫院分布式影像數據存儲解決方案”。
第一重優化:針對醫療非結構化數據的特點,采取有效措施提升存儲性能,保障閱片體驗,包括:
首先是自研巨量元數據,提高大規模醫學影像數據檢索效率,從根本上解決“檢索調取慢”難點。
由于在傳統文件系統,文件存放位置像是倒立的樹形結構視圖,應用讀取文件需要存儲系統層層檢索才能調??;升級為元數據庫后,簡單來說可視為“電子化的文件柜”,可以記錄電子文件的處所、更新狀態、操作記錄等數據集合,記錄更加精細。如果將海量影像數據比作圖書館,要想找到指定的書,傳統文件存儲的方式類似于管理員拿著目錄索引,在樓層和書架上層層搜索;而元數據則類似機器人取得一個指令后,經電腦高效運算獲得準確位置,由機器人直奔目的選取圖書,顯然更適合PACS批量小文件的高效處理。在元數據庫的基礎上,深信服持續優化和精簡數據庫事務邏輯。例如原來寫入一個文件,數據庫要執行兩個步驟,精簡后數據庫只需一個步驟即可完成,效率提升50%,時間縮短50%。
其次,通過網絡通道優化,緩解多客戶端并發能力,提升單客戶端批量影像調取效率,保證全院影像數據調閱的體驗。
為解決業務高峰期導致多個收圖前置服務器數據堆積,以及影像工作站并發多、調閱影像卡慢等問題,深信服采用基于目錄分片的分布式策略,實現多活元數據并發訪問,達到負載均衡的目的;同時優化文件存儲協議并發缺陷,解決單用戶動態多線程并發,提升每個用戶的批量調取效率。通過已交付的深信服EDS醫院案例數據顯示,FTP調閱CT517KB大小的文件速度可達552張/秒,S3對象調閱57KB速度可達1200張/秒。
第二重優化:基于冷熱數據分層,實現近線數據與在線數據的自動調度,讓數據永久在線。
深信服EDS基于“一套存儲,多池透明分層”,打造了包括在線影像SSD全閃池、近線影像混閃池和冷數據全HDD池在內的“介質分級存儲池”,通過智能算法和手動策略,數據可在各池之間相互流動,達到“數據永久在線、隨時可用”效果。實現方式是:系統自動識別在線存儲中超過一定時間(由醫院定義)未被調閱的文件,并將其歸檔至近線存儲里;當用戶調取一個近線文件,系統會把就近或同一批次的近線文件全部快速將其調度到在線存儲,在提升調閱性能的同時也能有效控制成本。
第三重優化:解決醫學影像數據遷移難、備份難問題。
深信服為醫療行業海量數據的遷移需求,專門研發了高效的智能數據遷移工具,可將任意存儲在無人值守的情況下,自動根據空閑時段限速或加速,通過多線程并發技術,將歷史數據遷移到EDS上。
此外,為應對海量數據備份難的問題,深信服EDS與專業備份軟件結合,通過API接口聯動即可比對變化數據,無需全盤掃描。相比傳統備份方案,深信服海量數據備份效率更快,備份窗口間隔時間更短,可實現小時級RPO,并且對業務性能無損耗。
第四重優化:軟硬件解耦、同架構多芯,實現存儲架構永存。
在生態方面,深信服EDS已與國內外90%主流PACS廠商實現兼容驗證。EDS采用深信服操作系統PlatOS,解耦底層硬件,針對不同硬件平臺深度優化,支持信創和非信創生態?!搬t學影像數據的保存周期長,設備更新迭代快速,擴容麻煩,遷移繁瑣。我們希望通過這種軟硬件解耦、同架構多芯的方式、平滑替換的手段,讓存儲架構永存,免除醫療機構的后顧之憂?!睆垞碥娬f。
據介紹,深信服EDS已服務超過800多家醫院,其中頭部三甲醫院超200家,PB級存儲醫院超過20家。
分布式存儲力爭從“近線”走向“在線”
目前,分布式存儲方案主要還是在醫院近線生產業務領域落地。
比如,仁濟醫院在影像災備系統建設中引入了分布式存儲,并將影像災備存儲面向近線業務開放,從而減輕生產系統的壓力?!拔覀儗?-6個月內的數據定為在線數據,更早的歸為近線數據?!编崫榻B,在實際使用中已感受到大規模分布式存儲方案在應對高數據量和高并發方面的優勢,特別是針對醫學影像數據的特點進行優化后的性能表現,較為突出。
分布式存儲,也有相應的技術環境和運維管理要求。
“分布式存儲對網絡通信的依賴性更高。在數據同步和復制過程中,多個節點同時訪問和修改數據,確保這些數據在不同節點上保持一致性,就變得至關重要?!编崫ㄗh,在日常運維中除了要確保分布式存儲自身的運行狀態外,也需確保各節點的網絡通信具備高性能、冗余性、高可用性。
曹磊建議,醫療機構在選擇分布式存儲時,重點考察分區文件的查詢效率問題、不同時效的數據分層問題、小文件的優化問題以及大集群的運維便捷性問題。當分布式存儲集群超過數十個節點時,運維管理難度大幅增加。如進行版本升級或打補丁時,需要對所有節點進行更新,此時更加考驗產品運維的便捷程度。
“高性能、高穩定性、后續擴展性,以及擁抱新技術的能力?!睆垞碥娊ㄗh醫療機構重點關注分布式存儲的上述能力。尤其在穩定性方面,要重點考察分布式存儲故障后的修復速度,包括SSD硬盤故障后的恢復速度、大容量機械盤的可靠性技術,以及節點修復速度。未來也可考慮醫院非結構化數據備份和壓縮,解決數據丟失或中毒風險。
張擁軍介紹,在擁抱新技術能力方面,深信服聯合GPU廠商,基于GDS協議,以100GB/秒的速度為前端GPU提供調取服務,減少醫療機構在大模型訓練、仿真等場景中的數據準備時間。同時,深信服開發了NFS+并行文件系統,為基因測序、新藥研發等醫院科研所需的高性能分布式計算提供存儲支持。
張擁軍認為,醫療機構從近線業務入手應用分布式存儲是務實之舉。他也信心滿滿地表示,在為醫學影像數據提供在線存儲服務方面,深信服已經做好了技術準備。
【醫療信息化企業資源對接意向調查】
HIT專家網堅持通過分享前瞻、實用的信息,努力搭建起醫療信息化用戶和企業之間的專業交流橋梁。
如您希望對HIT專家網報道的企業產品技術方案做進一步了解,或有重要的需求反饋,請花1分鐘填寫問卷,我們將盡可能轉達相關企業與您取得聯系。
【責任編輯:陳曦 版式:金家潘】
評論前必須登錄!
注冊