V3.0 公共衛生信息服務平臺建設解決方案
公共衛生信息服務平臺建設
解決方案
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
目 錄 1. 背景介紹 .................................................. 1 2. 產品愿景 .................................................. 6 3. 產品定位 .................................................. 7 3.1 解決的問題 ............................................. 7 3.2 達到的效果 ............................................. 8 4. 產品理念 ................................................... 9 5. 總體思路 .................................................. 10 5.1 對接數據源,獲取醫療衛生大數據 ........................ 11 5.2 對獲取的醫療衛生大數據預處理機制 ...................... 12 5.3 建立醫療衛生大數據的存儲機制 .......................... 12 5.4 醫療衛生大數據的處理和分析算法分類和形成 .............. 14 5.5 開發專題大數據分析,形成專題大數據應用 ................ 16 5.6 開發機構大數據分析,建立機構大數據應用 ................ 16 5.7 建立平臺應用實施推廣組織機制 .......................... 16 5.8 建立平臺產品優化升級服務組織機制 ...................... 16 6. 醫療衛生信息的大數據建模描述和分析 ........................ 17 6.1 我們給出的相關數據模型 ................................ 18 6.2 衛計委給出的相關數據模型 .............................. 19 6.3 相關數據特征對比分析 .................................. 23 7. 大數據分析應用平臺支持的業務主題場景 ...................... 25 7.1 醫療衛生服務機構應用 .................................. 27
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
7.1.1 各級醫院自身應用 .................................. 27 7.1.2 基層醫療機構自身應用 ............................. 32 7.1.3 區域衛生醫療聯合體應用 ........................... 33 7.1.4 醫療衛生機構的合規應用 ............................ 38 7.2 患者醫療治療應用 ...................................... 40 7.2.1 患者就醫過程提示服務 .............................. 40 7.2.2 患者服藥提示服務 .................................. 41 7.2.3 患者飲食、運動、習慣注意事項服務 .................. 41 7.2.4 患者體征和治療效果服務 ............................ 41 7.2.5 患者交流交往服務 .................................. 41 7.3 個性化醫療服務應用 .................................... 41 7.3.1 基因測序分析應用 .................................. 42 7.3.2 個性化藥物應用 .................................... 42 7.3.3 個人健康管理應用 .................................. 43 7.4 慢性病預防治療應用(疾控中心)
........................ 44 7.4.1 慢性病檢測、發現、預警服務 ........................ 45 7.4.2 慢性病診斷服務 .................................... 46 7.4.3 慢性病防控治療服務 ................................ 46 7.5 居民健康保健應用(疾控中心)
.......................... 47 7.5.1 居民自我健康保健應用 .............................. 48 7.5.2 政府衛生管理部門進行居民健康管理應用 .............. 48 7.5.3 政府醫療規劃結構進行居民健康保健決策應用 .......... 48
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
7.6 醫療衛生管理機構應用(衛生局)
........................ 49 7.7 醫療保險管理機構應用(醫保局)
........................ 49 7.7.1 基本醫療保險的決策支持分析 ........................ 52 7.7.2 基本醫療保險費用單據的智能化審核 .................. 53 7.7.3 基本醫療保險的有效支付和治理應用 .................. 53 7.7.4 基本醫療保險和服務監管應用 ........................ 53 7.7.5 降低看病率提升醫療效果應用 ........................ 54 7.8 醫藥監管機構應用(藥監局)
............................ 58 7.9 醫藥研發生產經營應用(醫藥企業)
...................... 58 7.9.1 醫藥研發企業應用 .................................. 59 7.9.2 醫藥生產企業應用 .................................. 59 7.9.3 醫藥流通企業應用 .................................. 60 7.9.4 醫藥零售企業應用 .................................. 63 7.10 醫療衛生資源配置管理規劃應用(政府主管部門)
......... 63 7.10.1 醫療衛生資源服務現狀分析 ........................ 63 7.10.2 醫療衛生資源財務供給能力分析 .................... 64 7.10.3 醫療衛生資源規劃指標對比 ........................ 64 7.10.4 醫療衛生資源政策建議 ............................ 65 7.11 商業醫療保險應用(保險公司)
......................... 65 7.11.1 獲得新客戶和保留已有客戶的分析應用 .............. 66 7.11.2 有效控制醫療費用的分析應用 ...................... 66 7.11.3 商業醫療保險的保障設計和精算定價 ................ 66
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
7.11.4 商業醫療保險的理賠運營管理應用 .................. 68 7.11.5 商業醫療保險的市場和銷售拓展應用 ................ 70 7.12 公共衛生服務應用(衛生防疫中心)
..................... 70 7.12.1 傳染病預警預報 .................................. 72 7.12.2 公共衛生輿情監測預警 ............................ 72 7.12.3 疾控和保健應用 .................................. 73 7.13 政府監管應用(政府主管部門)
......................... 74 7.13.1 醫藥監管應用 .................................... 74 7.13.2 醫療監管應用 .................................... 74 7.13.3 醫保監管應用 .................................... 76 7.13.4 醫療服務機構和醫生監管應用 ............... 77 7.14 新型醫療衛生服務應用(政府主管部門)
................. 77 7.14.1 遠程醫療 ........................................ 77 7.14.2 移動醫療 ........................................ 78 7.14.3 互聯網醫療 ...................................... 79 7.14.4 數字醫療 ........................................ 80 7.14.5 大數據醫療 ...................................... 80 7.14.6 智慧醫療 ........................................ 80 7.14.7 精準醫療 ........................................ 81 8. 大數據分析應用平臺支持的專題大數據應用 .................... 82 8.1 患者分析(基于電子病歷
EMR)
82 8.1.1 患者數據預處理 .................................... 82
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
8.1.2 患者個體(個性)分析 .............................. 83 8.1.3 患者群體(統計)分析 .............................. 83 8.2 疾病分析(基于電子病歷 EMR和電子健康檔案 EHR)
..... 84 8.2.1 常見疾病分析 ...................................... 84 8.2.2 慢性疾病分析 ...................................... 84 8.2.3 疾病誘因分析 ...................................... 84 8.2.4 疾病統計分析 ...................................... 84 8.2.5 臨床路徑分析 ...................................... 84 8.3 醫生及醫護人員分析(基于醫療衛生資源數據)
............ 84 8.3.1 醫生及醫護人員資歷資格分析 ........................ 84 8.3.2 醫生及醫護人員行醫記錄分析 ........................ 85 8.3.3 醫生及醫護人員培訓進修分析 ........................ 85 8.4 處方分析(基于電子病歷
EMR)
85 8.4.1 醫生用藥分析 ...................................... 85 8.4.2 患者用藥分析 ...................................... 86 8.4.3 處方用藥分析 ...................................... 86 8.4.4 醫院科室用藥分析 .......................... 86 8.4.5 安全用藥分析 ...................................... 86 8.4.6 處方符合性分析 ............................ 87 8.4.7 處方用藥 -診斷結論關聯分析 ................. 87 8.4.8 診斷結論 -處方總價聚類分析 ................. 87 8.4.9 患者特征 -診斷結論分類分析 ................. 88
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
8.4.10 患病時間 -診斷結論序列分析 ....................... 88 8.5 居民人口分析(基于電子健康檔案 EHR)
................... 88 8.5.1 居民個體健康分析 .................................. 88 8.5.2 人口群體健康分析 .................................. 88 8.5.3 人口亞健康相關因素關聯分析 ........................ 88 8.5.4 人口健康相關因素關聯分析 .......................... 88 8.5.5 人口健康時間空間分布分析 .......................... 89 8.5.6 人口健康預測分析 .................................. 89 8.6 藥品分析(基于醫藥產業鏈數據)
........................ 89 8.6.1 藥品種類分析 ...................................... 89 8.6.2 藥品研發分析 ...................................... 91 8.6.3 藥品生產分析 ...................................... 94 8.6.4 藥品銷售分析 ...................................... 94 8.6.5 藥品物流分析 ...................................... 95 8.6.6 藥品資金流分析 ............................ 95 8.6.7 藥品信息流分析 ............................ 95 8.6.8 藥品庫存分析 ...................................... 96 8.6.9 藥品質量偏差分析 ......................... 100 8.6.10 藥品不良反應&藥品群體不良事件分析 ............. 100 8.7 醫療健康檢驗檢測分析(基于電子健康檔案 EHR)
....... 101 8.7.1 生理信號檢測分析 ................................. 101 8.7.2 醫學影像圖像分析 ................................. 101
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
8.7.3 DNA檢測和 DNA 序列分析 ........................ 101 8.7.4 重要人體征數據分析 ............................... 101 8.7.5 遠程自助健康醫療檢測分析 ......................... 101 8.8 醫療安全風險分析(基于電子病歷 EMR)
................ 102 8.8.1 醫療安全分析 .................................... 102 8.8.2 醫療風險分析 .................................... 102 8.8.3 假藥、過期藥、成分異常藥的使用分析 ....... 102 8.8.4 醫療事故誘因分析 ......................... 102 8.8.5 醫療安全風險統計分析 ..................... 102 8.9 醫療衛生資源分析(基于政府的醫療衛生資源數據)
...... 102 8.9.1 醫生護理人員分析 ................................. 102 8.9.2 醫院床位分析 ................................... 102 8.9.3 醫療檢測檢驗能力分析 ............................. 103 8.9.4 醫療衛生資源需求分析 ............................. 103 8.9.5 醫療衛生資源匹配度分析 ........................... 103 8.9.6 醫療衛生資源對比分析 ............................. 103 8.10 醫療衛生效果分析(基于電子健康檔案
HER和醫療衛生資源數據)
.................................................. 103 8.10.1 醫療衛生滿意度分析 ............................ 103 8.10.2 醫療衛生問題誘因分析 .......................... 103 8.10.3 醫療衛生規劃符合度分析 ........................ 103 9. 關鍵核心技術和算法 ....................................... 104
互聯網 +健康醫療大數據應用平臺解決方案 V3.0
9.1 大數據分析能力 ....................................... 104 9.2 大數據分析技術 ....................................... 105 9.3 大數據存儲技術和系統 ................................. 106 9.4 大數據業務模型建模 ................................... 106 9.5 大數據的實時查詢 ..................................... 109 9.6 大數據的復雜分析 ..................................... 111 10. 用醫療衛生大數據為業務服務 ........................... 114 10.1 核心理念 ............................................ 115 10.2 管理閉環 ............................................ 116 11. 未來市場前景分析 ..................................... 119 12. 總結 ................................................. 121
V3.0 公共衛生信息服務平臺建設解決方案 第 1 頁
總體方案思路是:基于目前醫療服務機構及相關機構已有的 HLI、NHLI、HIS 等有關系統形成并積累的醫藥醫療健康大數據和信息,采 用最新的大數據技術、云計算技術、 BI 和數據挖掘技術,形成對醫
療行業具有新視角、全方位、智能性、預測性、可視性的深層次展示分析效果( Insight ),揭示醫療行業整體規律和內在發展趨勢,揭示患者個體的獨有特質并形成個性醫療, 將醫療行業的宏觀大勢與每個患者的微觀個體定性定量描述有機結合, 達到支撐和形成醫療行業新應用場景和新服務模式。
“醫藥醫療健康大數據”是具有更強的決策力、洞察發現力和流程優化能力的海量、 高增長率和多樣化的信息資產,但需要新計算處理模式。
1. 背景介紹
根據國際著名分析機構 Gartner 給出的定義:大數據就是那些具有規模大、速度快、種類多三大特征的數據資產。大數據分析從海量
數據中篩選出有用的信息,然后通過各種手段將信息轉化為洞察力,
從而做出正確決策,并最終推動業務發展。通過一系列分析處理,大
數據可以幫助企業制定明智且切實可行的戰略, 獲取前所未有的客戶洞察,支持客戶購買行為, 并構建新的業務模式, 進而贏得競爭優勢。
隨著人們的生活水平不斷提高,健康也越來越受到家庭的關注。
2009 年 2 月 27 日,我國衛生部公布的第四次國家衛生服務調查結
果顯示,截止至 2008 年,我國居民腦血栓,糖尿病,高血壓等慢性 病病例數達到 2.6 億,占全國總人數的 20%,其中高血壓病人對自身疾病的知曉率只有
30%,同時這些病人中的治療率只有 25%,控制率
第 2 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
僅為 6%,糖尿病病人中,能堅持做到規范治療的也只有 33%。由此我們可以看出,建立科學、規范、高質量的慢性病管理策略,實現對人
體慢性病的監護具有重大的意義。
通過慢性病的早期診斷和監護, 不僅能提前預防和控制各種疾病, 還能幫助他們合理用藥, 減少醫藥開支。另一方面, 我國公共醫療衛生資源緊缺,城鄉醫療衛生資源的差距比較大,城市人口平均擁有的醫療衛生資源是農村人口的
2.5 倍以 上,比如,占全國總人口近 70%的農村擁有全國醫療衛生資源的 30%,而占全國總人口 30%的城市卻占有全國醫療衛生資源的 70%,優質的醫療衛生資源集中分布在城市,尤其是大城市。因此,實現城鄉之間 的醫療衛生資源共享成為丞待解決的重要問題。
同時,隨著國家積極倡導“ 3521”醫療系統建設,我國醫療領域信息化程度得到了很大的提高, 預計在全國會出現上百個醫療數據中心,每個數據中心都將承載近 1000 萬人口的醫療數據,數量多、更新快且類型繁雜, 使醫院數據庫的信息容量不斷膨脹, 這就產生了醫療健康大數據。醫療健康大數據通常具有以下特征 : (1) 數據巨量化 : 區域醫療數據通常是來自于擁有上百萬人口
和上百家醫療機構的區域, 并且數據呈持續增長的趨勢。
依照醫療行業的相關規定,患者的數據通常至少需要保留 50 年。
(2) 服務實時性 : 醫療信息服務中會存在大量在線或實時數據
分析處理的需求。例如:
臨床中的診斷和用藥建議、 健康指標預警等。
(3) 存儲形式多樣化 : 醫療數據的存儲形式多種多樣, 例如各種結構化數據表、非 ( 半) 結構化文本文檔、醫療影像等。
第 3 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
(4) 高價值性 : 醫療數據對國家乃至全球的疾病防控、 新藥研發和頑疾攻克都有著巨大的作用。
因此,如何在海量的醫療健康大數據中提取信息的能力正快速成
為戰略性發展的方向, 通過大數據分析挖掘出有價值的信息, 將對疾病的管理、控制和醫療研究都有著非常高的價值。
目前,大數據、云計算是已經普及并成為 IT 行業的主流技術。
國內外都已經進入了大數據、云計算的研究熱潮,同時大數據、云計 算技術也逐漸成熟, 大規模區域醫療信息系統和大型數據中心的建立也在同時進行。而云計算是大數據成長的驅動力,與此同時,由于醫 藥醫療健康大數據越來越多, 對云計算的需求日益增長, 所以二者是相輔相成的。隨著醫療數據的急劇增長,如何充分利用這些數據,運 用大數據、云計算技術,搭建合理先進的數據云服務平臺,為廣大患 者、醫務人員、 科研人員提供服務和協助,必將成為未來信息化工作的重要方向。
“大數據時代”已經降臨, “大數據”正在對每個領域都造成影
響。在商業、經濟及其他領域中,決策行為將日益基于數據和分析的
結果,而非基于經驗和直覺;而在公共衛生、經濟發展和經濟預測等
領域中,“大數據”的預見能力也已經嶄露頭角。
2012 年 3 月,美國政府公布了“大數據研發計劃” (Big Data Researchand Development Initiative )。該計劃的目標是改進人們從現有的海量和復雜的數據
中獲取知識的能力。其中,與醫療衛生領域相關的有生物傳感 2.0 、虛擬實驗室環境( VLE)、癌癥基因組圖譜 (TCGA)、神經科學信息框架
第 4 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
(NIF) 、患者報告結果測量信息系統
(PROMIS) 等 10 余項。2014 年美國的公共數據開放項目 OpenFDA上線之后,先導項目開放了“ 300 萬份藥物不良反應報告”,這些數據是
2004 至 2013 年間被提交給 FDA 的藥物不良反應和醫療過失記錄。
對醫療機構來說, 不良反應和醫療過失記錄起到的是長遠的貢獻作用,能減少醫療悲劇的重現。
根據我國居民第三次死因調查報告顯示, 腦血管病已成為居民的
第一死因。腦卒中發病率正以每年 8.7%的速率上升,我國每年用于治療腦血管病的費用約在 100 億元以上。
2014 年, GE醫療中國聯合國家衛生計生委腦卒中防治工程委員會 ( 腦防委 ) 啟動了“腦卒中行動”合作戰略。
GE 醫療“腦卒中行動”的法寶之一就是大數據。尤其是
GE構建的三級篩查網絡,對雙側內膜增厚的高危人群檢出率提升了近 10%。GE搭建的腦卒中信息管理系統可以與醫院 Lis 和 His 系 統全面對接, 記錄患者的基本信息、 初篩信息、復篩信息、用藥信息、
實驗室檢查、 體格檢查信息及其隨訪信息等, 全面跟蹤患者的診治流程。還可以與 PACS系統對接,全面記錄患者的影像學信息,實現患者影像信息的共享。同時, 可對患者全流程疾病影像信息回顧,減少患者重復檢查的負擔,協助醫生對患者疾病信息的全面判斷。
在上述這些大背景下, 本公司提出并計劃研發 “醫療健康大數據分析應用平臺”(以下簡稱“方案”)產品,以期為我國醫療衛生實現數字醫療、智慧醫療、健康醫療發揮重要作用。從而達到:服務模式 (以患者為中心,形成居民健康全過程服務)
,從被動到主動;醫療
模式(以預防為主,人人享有基本醫療衛生服務,將醫療衛生工作重
第 5 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
點由后治前移到預防保?。?/p>
,從治病到防??;診療模式(避免各自為政,實行上下聯合,專業分工)
,從排斥到聯動;數據模式(從業務系統數據向整體數據轉變, 改變過去的數據不統一、 不互通、不共享), 從隔離到整體;技術模式(采用各種新技術手段,包括大數據、云計 算、物聯網、移動互聯等,形成技術合力)
,從簡單到綜合的轉變。
第 6 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
2. 方案愿景
形成充分發揮大數據技術的, 針對醫療醫藥行業的, 能充分適應醫療衛生信息特征的大數據分析應用支撐平臺, 通過大數據分析, 達到發現知識、發現規律、預測未來,將醫療衛生行業推進進入大數據
時代提供技術可行性。
第 7 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
3. 方案定位
方案以醫療衛生行業的整體數據架構(數據模型、數據構成、數
據關系)為基礎和標準,以對應的醫療衛生業務數據為輸入,通過大 數據技術, 形成針對醫療衛生行業中不同機構、 角色和業務活動的智能化應用, 因此方案不是代替已有醫療衛生信息化系統, 而是在多個方面強化已有醫療衛生信息化系統,包括任意查詢、即興分析、業務 增強、規則約束、預測未來、發現知識,并提供互動性、及時性、預 知性、洞察性,從而達到實現智慧醫療的目標。
3.1 解決的問題
當前醫療衛生信息化建設的主要問題是各個區域內不同醫療機構中患者的基礎信息和各種臨床信息資源分散、重復、孤立,導致有效信息閑置、信息重復或不一致,很難得到有效利用。
通過方案實現國家醫療衛生信息化規劃中“ 4631-2”的三大基礎數據庫, 即電子健康檔案數據庫、 電子病歷數據庫和全員人口個案數據庫的應用落地; 通過方案實現智慧醫療的核心部分, 即醫療衛生服務體系的智能
化,使醫療衛生的各種應用提升水平;
通過方案為“看病難、看病貴”的解決提供科學定量判斷依據、對比分析依據和方案效果評價依據;
第 8 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
3.2 達到的效果
方案預期部署到云平臺上運行,采用
SOA的理念進行架構開發, 通過分層將公共大數據算法模型封裝為服務,對業務應用提供服務,
同時平臺業務應用也是服務的形式存在, 即應用單位不再需要購買部署自己的服務器硬軟件環境, 只需要開通相應服務就可以了。
各個應用單位根據自己的業務需要定制服務,平臺支持“開通即用”服務模
式,為實現業務應用集成,方案將對外支持
WebService 方式的接口服務。
方案希望將醫療衛生的智慧功能應用普及到業務角色和過程的
方方面面,包括醫生(包括??漆t生、全科醫生、保健醫生等)
、患者(包括慢性病患者、潛在患者等)
、管理者(包括醫療管理者、醫療保險管理者、醫藥監管管理者、公共衛生管理者等)
、醫藥經營者 (藥品研發、藥品生產、藥品物流、藥品零售等)以及商業醫療保險經營者(健康險、大病險、醫療意外險等)
。
第 9 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
4. 方案理念
醫療衛生、 健康保健、 醫藥器械形成的海量數據就象一座待開發的金礦,利用大數據技術、 云計算技術、物聯網技術和便攜設備技術的最新成果, 將給醫療衛生事業帶來全新革命性的改變, 明顯解決看病難和看病貴的問題, 達到醫療衛生資源配置分布合理、 大病小病治療各司其職、疾病預防治療有機結合、公民健康保健全過程覆蓋。
第 10 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
5. 總體思路
通過建立醫療衛生大數據的統一標準和規范, 形成可被相關業務應用所利用的醫療衛生大數據源和交互機制, 在此基礎上, 首先形成專題大數據應用, 這些應用具有跨部門和組織機構的通用性, 并具有良好的穩定性, 因為這些應用是面向醫療衛生專題的; 基于專題大數據應用, 根據醫療衛生相關部門和組織機構的業務要求,
可開發形成各種業務大數據應用, 并且隨著平臺的推廣, 積累的醫療衛生業務大數據應用的實例將會越來越多,并最終形成不同方向的最佳應用樣 例。
醫療衛生大數據源 專題大數據應用 業務大數據應用
醫 診斷 處方 治療 生 醫療衛生服務
個 個人疾病全周期 個人健康全周期
人 個人生命全周期
藥 招投標 采購 物流 支付
品 醫藥供應鏈 患者分析
疾病分析用藥分析費用分析健康分析藥品分析 安全風險分析
資源分析效果分析 個人(患者、亞健康)
醫療衛生服務機構
醫藥生產經營企業
醫療衛生管理機構
醫療保險機構
公共衛生服務機構
醫藥監管機構
第 11 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
5.1 對接數據源,獲取醫療衛生大數據
醫療衛生大數據中心為方案進行醫療衛生大數據分析提供數據 源,但不在方案范圍內, 并平臺只是開發提供一套與該數據中心的數據讀取接口,并具有監控數據讀取情況匯總統計和異常提示功能。
該數據中心的定位:整合區域內不同醫療機構中患者
/ 健康人群的各種臨床診療數據、健康數據,在相對集中的邏輯
/ 物理環境中, 構建一個以存儲和處理患者 / 健康人群診療信息為核心, 覆蓋多學科、多專業的面向區域內主要衛生行政主管部門、 臨床醫療機構和社會公眾的醫學(醫藥、醫療、健康)信息資源共享機制 ------ 區域性醫學數 據中心。區域性醫學數據中心的建設以行政業務處理、醫療、預防、 保健、康復為服務主線,以健康人群和患者的醫療活動需求為基礎。
區域衛生數據中心通過制定標準的數據接口, 建立基于廣域網的信息交換、數據采集和傳輸機制,對區域內醫療衛生信息數據進行采集、 傳輸、清洗和匯總,將醫院、社區、醫藥企業以及公共衛生機構的各 類數據、系統有機地整合起來,生成區域的衛生大數據。
第 12 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
5.2 對獲取的醫療衛生大數據預處理機制
醫療衛生大數據預處理主要完成對已接收數據的辨析、 抽取、清洗等操作, 目的是將數據按統一的格式提取出來, 然后再轉化, 集成, 載入數據倉庫的工具 ( ETL)
包括:抽?。阂颢@取的數據可能具有多種結構和類型,
數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的;清洗:
對于大數據,并不全是有價值的, 有些數據并不是我們所關心的內容,
而另一些數據則是完全錯誤的干擾項。
因此要對數據通過過濾“去噪”從而提取出有效數據。
5.3 建立醫療衛生大數據的存儲機制
雖然關系型數據庫系統 (RDBMS在) 安裝和使用上仍然占有主要地
位,但毋庸置疑, 非關系型數據庫 NoSQL技術已經成為今天發展最快的數據庫技術。
NoSQL是對數據庫系統的總稱,在某種程度上,它的性能和用途可能完全不同。
目前除了關系型數據庫外, 還主要存在有以下四種 NoSQL數據管 理系統:
鍵值數據庫:
當數據以鍵的形式訪問時, 比如通過國際標準書號ISBN 找一本書,鍵值數據庫是最理想的。在這里, ISBN 是鍵,書籍的其他信息就是值。
必須知道鍵才能查詢, 不過值是一堆無意義的數據,讀取之后必須經過翻譯。
文檔數據庫:
該數據庫以文檔的形式管理和存儲數據。
有點類似
于鍵值數據庫, 但文檔數據庫中的數據有結構。
與鍵值數據庫中值是
第 13 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
一堆無意義的數據不同, 文檔數據庫中數據以文檔的結構被描述, 典
型的是 JavaScript Object Notation (JSON或) XML。文檔存儲數據庫中的
數據可以通過定義的任何模式進行查詢, 但鍵值數據庫只能通過它的鍵進行查詢。
列式數據庫:
也被稱為列式存儲或寬列存儲, 一改之前行式存儲
的方式,對數據進行列式存儲。在傳統關系型數據庫中,數據經常以行來訪問。以列式管理記錄的
NoSQL 數據庫可以管理大規模的動態列。因為沒有固定的模式, 所以列名和鍵可以變換。列式數據庫適用于不經常寫的情況,要滿足 ACID(原子性、一致性、隔離性和持久性)的要求并不難,而且模式是變化的。
圖型數據庫:
圖型數據庫關注值與值之間的關系, 用圖型的數學
概念存儲數據。
圖型數據庫用帶有點、 邊緣和屬性的圖的結構表示和存儲數據。
在圖型數據庫中, 每一個元素都包含一個直接的指向它毗鄰元素的點,所以也就不需要索引查找。
每個種類的 NoSQL數據庫都有適用的不同類型的應用程序和用 例,這就涉及到一個 NoSQL社區常用的一個話題,即多樣持久性,或者說根據數據庫處理應用程序需求的不同,使用不同的數據庫系統, 用于不同的應用程序和用例。
第 14 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
5.4 醫療衛生大數據的處理和分析算法分類和形成
技術分類方法
根據挖掘任務:分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等; 根據挖掘對象:
可分為關系數據庫、 面向對象數據庫、 空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、
遺產數據庫以及環球網 Web; 根據挖掘方法:可分為 :機器學習方法、統計方法、神經網絡方法和數據庫方法。
主要處理和分析技術
預言處理:用歷史預測未來;
挖掘規律處理:了解數據中潛在的規律;
關聯分析:
查找存在于項目集合或對象集合之間的頻繁模式、 關聯、相關性、或因果結構; 序列模式處理:
給定一個由不同序列組成的集合,其中, 每個序列由不同的元素按順序有序排列,每個元素由不同項目組成, 同時給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現頻率不低于用戶指定的最小支持度閾值; 分類(預言)分析:預測分類標號(或離散值)
,根據訓練數據集和類標號屬性,構建模型來分類現有數據,并用來分類新數
第 15 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
據。建立連續函數值模型,比如預測空缺值;
聚類分析:聚類是一種無監督分類法 : 沒有預先指定的類別。在同一個類中,對象之間具有相似性;不同類的對象之間是相異
度分析;把一個給定的數據對象集合分成不同的簇。將物理或
抽象對象的集合分組成為由類似的對象組成的多個類;聚類在
不同的應用領域,用作描述數據,衡量不同數據源間的相似性, 以及把數據源分類到不同的簇中;聚類是將數據分類到不同的
類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相
似性,而不同簇間的對象有很大的相異性;聚類與分類不同,
聚類所要求劃分的類是未知的; 異常檢測分析:異常檢測是數據挖掘中一個重要方面, 用來發現” 小的模式” (相對于聚類 ),即數據集中間顯著不同于其它數據的對象; 可視化分析。
數據可視化可以讓數據自己說話, 讓用戶直觀的感受到結果; 數據挖掘算法。
分割、集群、孤立點分析還有各種算法讓我們精煉數據,挖掘價值。這些算法要能夠應付大數據的量,同時還 具有很高的處理速度; 語義引擎。人工智能從數據中主動地提取信息。包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等; 數據質量和數據管理。
透過標準化流程和機器對數據進行處理可以確保獲得一個預設質量的分析結果。
第 16 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
5.5 開發專題大數據分析,形成專題大數據應用
面向醫療衛生專業所特有的專題, 開發形成一系列的專題大數據 應用。在充分調研和分析醫療衛生行業的業務特性基礎上, 研發形成具有我國醫療衛生行業特征的分類專題大數據分析, 并根據專題組成和業務功能要求形成滿足該業務專題的大數據應用, 如心臟病專題的大數據應用, 包括其成因的大數據分析、 其日常行為對病情影響的大數據分析等, 為有關機構進行心臟病的有關活動 (預測、預防、治療、恢復)提供支撐。
5.6 開發機構大數據分析,建立機構大數據應用
面向不同的醫療衛生機構和部門及其相關企業機構, 開發形成針對不同機構和部門業務的機構大數據應用, 如醫療衛生機構應用、 醫療衛生管理機構應用等。
在上述專題大數據應用基礎上, 結合所承擔的相關醫療衛生及其相關機構項目,進行機構大數據應用定制開發。
5.7 建立平臺應用實施推廣組織機制
在方案開發和部署基礎上, 逐步形成基于方案開發應用項目的實施推廣組織機制, 包括市場宣傳、 營銷推廣、實施維護和售后服務等。
5.8 建立平臺產品優化升級服務組織機制
方案作為公司的主打產品系列, 要建立嚴格的版本控制, 并根據市場反饋和內部技術發展, 進行有計劃的平臺版本升級, 并將新版本升級信息和文檔,按規定通知已有用戶,并及時進行升級維護服務。
第 17 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
6. 醫療衛生信息的大數據建模描述和分析
伴隨著中國醫療衛生服務的信息化進程推進,將產生大量的數
據。這些數據主要來源于醫療業務活動、健康體檢、公共衛生等 9 項醫療衛生服務。
數據內容包括來自醫院的大量電子病歷、 區域衛生信息平臺采集的居民健康檔案等。其中大量充斥著非結構化
/ 半結構化的數據,包括圖像, office 文檔,以及 XML結構文檔等。醫療健康大數據的應用, 關鍵是整合所有可能得到的這些數據, 為機構和政策制定者來找到如何刺激經濟并降低共享數據的技術門檻。
第 18 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
6.1 我們給出的相關數據模型 我國醫療衛生行業涉及的數據實體對象種類非常眾多, 包括醫療 機構-科室-醫生(門診、住院)
、大眾群體-患者、醫療管理部門 -衛生局-疾控中心-醫保中心-發改委-中醫藥管理局、 醫藥管理 部門-藥監局、 醫藥研發-醫藥生產-醫藥經營-藥品 (處方藥、ODC 藥)、醫療器械研發-醫療器械生產-醫療器械經營-醫療器械、商 業醫療保險公司、體檢中心-體檢醫生、 APP服務等。
如下圖所示。
衛生局 醫院 藥品招采 醫生 藥監局 疾控中心 藥品運輸 與庫存 處方 P 檢查結果 醫藥生產 銷售零售企業 藥品 患者 醫療器械 醫療器械 生產銷售企業 醫保中心 醫療保險 體檢結果 大眾群體 商業保險 體檢醫生 保險公司 體征數據 體檢報告 健康報告 APP服務 體檢中心
第 19 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
6.2 衛計委給出的相關數據模型
2010 年底,原衛生部完成了“十二五”衛生信息化建設工程規
劃編制工作,初步確定了我國衛生信息化建設路線圖,簡稱“ 3521-2
工程”,即建設國家級、省級和地市級 3 級衛生信息平臺,加強公共衛生、醫療服務、新農合、基本藥物制度、 綜合管理等 5 項業務應用, 建設健康檔案和電子病歷 2 個基礎數據庫和 1 個專用網絡建設,進 行醫療衛生信息標準化體系和安全保障體系 2 個體系建設。
2013 年 11 月,衛生部和計生委合并后,信息化建設工程規劃的頂層設計規劃又調整為“ 4631-2 工程”,其中,“ 4”代表 4 級衛生信息平臺,分別是:國家級人口健康管理平臺, 省級人口健康信息平臺、地市級人口健康區域信息平臺及區縣級人口健康區域信息平臺 ;“6” 代表 6 項業務應用,分別是:公共衛生、醫療服務、醫療保障、藥品管理、計劃生育、綜合管理 ;“3”代表 3 個基礎數據庫,分別是:電子健康檔案數據庫、電子病歷數據庫和全員人口個案數據庫 ;“ 1”代表 1 個融合網絡,即人口健康統一網絡 ;最后一個“ 2”是人口健康信息標準體系和信息安全防護體系。依托中西醫協同公共衛生信息系 統、基層醫療衛生管理信息系統、 醫療健康公共服務系統打造全方位、
立體化的國家衛生計生資源體系。
衛計委規劃的三大基礎數據庫相互關系和包括的主要數據如下圖所示。
第 20 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
?。?、病歷概要:
包括患者基本信息等四項內容。
2、門(急)診診療記錄:
包括門(急)診病歷、處方等六項內容。
3、住院診療記錄 :包括住院病案首頁、住院志等九項內容。
4、健康體檢記錄:
一般常規健康體檢記錄。
5、轉診(院)記錄:
患者轉診的主要工作記錄。
6、法定醫學證明及報告:
包括出生醫學證明等。
7、醫療機構信息:
醫療機構法人信息。
電子病歷數據庫
1、個人基本信息:
包括人口學信息、社會經濟學信息、親屬信息、社會保障信息、基本健康信息 、建檔信息。
2、主要衛生服務記錄:
包括兒童保健信息、婦女保健信息、疾病預防信息、疾病管理:高血壓、 糖尿病、腫瘤、重癥精神疾病等病例管理信息,老 年人健康管理信息、醫療服務信息等。
電子健康檔案數據庫 1、個人基本信息 :包括 姓名、性別、照片、英文名 、曾用名、身份證號碼、年齡、證件類型、證件號碼、籍貫、國籍、戶籍類型、戶籍地址、政治面貌、健康狀況、婚姻狀況、宗教信仰、兵役狀況、文化程度、專業、學位 、職稱、從業狀態、工作單位、工作單位通訊地址、社保號、民政撫助對象類型、聯系電話、手機號碼、電子郵件 、現居住地址、居住類型、死亡標識 信息等。
2、個人擴展信息:
包括工作、教育、家庭、住房、社保、公積金、計劃生育、衛生健康、犯罪記 錄、死亡信息等。
全員人口個案數據庫
電子健康檔案的數據架構是以人的健康為中心, 以生命階段、 健康和疾病問題、衛生服務活動(或干預措施)作為三個緯度構建的一
個邏輯架構,用于全面、有效、多視角地描述健康檔案的組成結構以
及復雜信息間的內在聯系。通過一定的時序性、層次性和邏輯性,將
人一生中面臨的健康和疾病問題、 針對性的衛生服務活動 (或干預措施)以及所記錄的相關信息有機地關聯起來, 并對所記錄的海量信息進行科學分類和抽象描述,使之系統化、條理化和結構化。
第 21 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
個人健康檔案的三維概念模型,
可以清晰地反映出每個個人不同生命階段、 主要疾病和健康問題、 主要衛生服務活動三者之間的相互聯系。同時,坐標軸上的三維坐標連線交叉所圈定的空間位置(域)
, 表示了人在特定生命時期、
因特定健康問題而發生的特定衛生服務活動所需記錄的特定記錄項集。
由于三維空間中的任意一個空間位置都對應著某個特定的健康記錄, 從而構成了一個完整、 立體的健康記錄, 這些健康記錄全面地反映了個人健康檔案內容的全貌。
第一維( X 軸):生命階段
按照不同生理年齡可將人的整個生命進程劃分為連續的若干生
命階段,如:嬰兒期( 0~ 1 歲)、幼兒期( 1~ 3 歲)、學齡前期( 3~ 6 歲)、學齡期( 6~ 12 歲)、青春期( 12~ 20 歲)、青年期( 21~45 歲)、中年期( 46~60 歲)、老年期( 60 歲以上)等八個生命階段。
第 22 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
也可以根據基層實際工作的需要,將人群化分為:兒童、青少年、育齡婦女、中年和老年人。
第二維( Y 軸):健康和疾病問題
每一個人在不同生命階段所面臨的健康和疾病問題不盡相同。
確定不同生命階段的主要健康和疾病問題及其優先領域, 是客觀反映居民衛生服務需求、進行健康管理的重要環節。
第三維( Z 軸):衛生服務活動(或干預措施)
針對特定的健康和疾病問題, 醫療衛生機構開展一系列預防、 醫療、保健、康復、健康教育等衛生服務活動(或干預措施)
,這些活動反映了居民健康需求的滿足程度和衛生服務利用情況。
個人健康檔案( EHR)基本結構
第 23 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
6.3 相關數據特征對比分析
從醫藥醫療健康大數據分析應用角度, 方案需要一個盡可能全和細的數據集合, 所以理想狀態是結合上兩部分數據內容形成的超集集合,甚至包括一些非醫療健康數據, 如考察研究某種藥對某種疾病的醫療效果時, 如果能獲得當地的氣象天氣信息, 可能分析出的結果將明顯不同。
另外可以看出目前所給數據都是結構化數據, 如果從大數據分析應用角度,理想的數據還應該包括圖像、圖形、文本等半結構 和非結構數據,以及非關系數據(多維數據)
,才能構成滿足醫藥醫療健康大數據分析應用的需求。
2000 年以來,我國的醫療數據的生成和采集主要局限于各大醫
院。近幾年,隨著社區系統、新農合系統、村衛生室系統等基層醫療
衛生信息系統逐步上線, 醫療衛生數據源頭也越來越多, 數據量越來越大。從衛生服務的類型看,區域衛生信息的類型主要有:醫療服務
類、公共衛生服務類、社區衛生服務類、衛生業務類、衛生管理服務
類數據。根據估算,中國一個中等城市( 1 千萬人口規模)
50 年所積累的醫療衛生數據量就會達到 10PB級。隨著各地區域衛生信息平臺的建設,存儲于各醫療衛生機構的數據將逐步通過各種方式實現整
合與共享。
多維數據由于醫療數據是多種數據源數據的匯總, 數據之間的關系非常復雜。
如下圖所示:
以患者為中心的服務需要把一個患者的全周期數據按照時間軸排列,并分析診斷、用藥和患者生命體征、檢驗 檢測值之間的關聯; 以醫生為中心的服務又需要把與醫生相關的患者
第 24 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
數據挑揀出來, 并進行分類; 以科室為中心的服務可能需要既從科室所屬醫生的角度, 又要從在該科室就診患者的角度進行分析; 針對社區的服務可能需要統計整個社區居民某項指標(比如血壓、血糖)的
達標率。醫療數據的多維度、多粒度為各種信息服務的多角度、多層
次分析提供了可能, 但同時也為大數據分析帶來了挑戰。
因為不可能為每一種信息服務存儲一份特定的優化模式的數據, 況且也無法枚舉出所有可能的信息服務需求。
這就需要醫療數據的存儲模型能夠適應靈活多變的多維統計分析需求。
第 25 頁 互聯網 +健康醫療大數據應用平臺解決方案 V3.0
7. 大數據分析應用平臺支持的業務主題場景
方案支持的業務主題應用場景將盡量以國務院發布的 《全國醫療衛生服務體系規劃綱要 (2015~2020年)》內容和目標為依據, 即“優化醫療衛生資源配置, 構建與國民經濟和社會發展水平相適應、 與居民健康需求相匹配、體系完整、分工明確、功能互補、密切協作的整
合型醫療衛生服務體系,為實現 2020 年基本建立覆蓋城鄉居民的基本醫療衛生制度和人民健康水平持續提升奠定堅實的醫療衛生資源 基礎。”最終形成我國醫療衛生服務體系的總體布局,如下圖。
方案將以患者個人生命全周期、 個人疾病全周期、醫療衛生服務、醫藥供應鏈所產生的大數據源為主, 以支持個人、醫療衛生服務機構、醫藥生產經營企業、醫療衛生管理機構、醫療保險機構、公共衛生服
務機構、醫藥監管機構等的業務大數據應用為主要應用場景。
第 26 頁 互聯網 +健...