作為醫學和人工智能的交叉學科,智能診斷技術無論在學術界還是產業界都得到廣泛關注。與基于標準化西醫的智能診斷有所不同,以辨證論治為原則的中醫個性化診療理念不同于西醫,使得中醫智能診斷面臨有效訓練樣本缺失和機器學習模型失真等問題。本文提出了一種基于主動集成學習的中醫智能診斷模型及其構建方法,該模型既可通過主動學習機制得到具有因人而異的個性分析能力的診斷分類器,也將多個不同機器學習的模型進行集成訓練,獲得更為準確的中醫知識學習模型。首先將不同來源的中醫病歷進行大規模數據提取和組織,形成統一視圖下的結構化中醫數據庫。然后以兒科常見病肺炎喘嗽為例,驗證了基于主動集成學習的中醫智能診斷模型的準確率明顯高于機器學習方法,是一種新型、有效的中醫診療機器學習模型。
引用本文: 任雪, 郭艷. 基于主動集成學習的中醫智能診斷模型及構建方法. 中國循證醫學雜志, 2019, 19(9): 1118-1123. doi: 10.7507/1672-2531.201904028 復制
人工智能技術運用到醫療領域中,能夠更加準確、科學地識別診斷方案,為患者提供更佳的治療,能為我國醫療事業的發展提供重要的推動力量。隨著深度學習等人工智能技術的引入,智能診斷已進入快速發展時期。作為醫學和人工智能的交叉學科,智能診斷技術在學術界得到廣泛關注,為人們健康服務智能發展提供了重要動力,正在改變醫療健康領域的診療方式和行業模式[1, 2]。
當前人工智能在西醫學的應用正在快速發展,尤其在基于機器學習的醫學影像分析方面取得了突出的成果,如肺癌肺結節檢測[3]、病理片檢測[4, 5]、皮膚癌檢測[6]、視網膜病變檢測[7, 8]等。Gurovich 等[9]開發了一種深度神經網絡,可基于單導程 ECG 信號分類 10 種心率不齊及竇性心律和噪音,性能與高年資心臟病醫生診療結果相近,其平均陽性預測值準確率和敏感度查全率的調和平均值(F1 分數)為 0.837,超過了心臟病專家的平均值(0.780)。美國數字醫療公司 FDNA 的研究人員提出了一種深度學習應用 Face2Gene,采用面部圖像分析框架 DeepGestalt,利用計算機視覺和深度學習算法量化了數百種綜合征的相似性,可通過識別綜合征遺傳病患者的面部特征,幫助醫生識別罕見基因遺傳疾病,其試驗中準確率達到了 91%,超越了臨床醫師[9]。
中醫學(traditional Chinese medicine,TCM)有獨特的理論體系和實踐經驗,在中國數千年的歷史中為民眾的健康保駕護航,至今仍發揮著舉足輕重的作用。但中醫診斷標準化、療效評價的科學性是中醫現代化和全球化的瓶頸問題[10, 11]。中醫大數據挖掘可以客觀分析現實世界的海量醫療數據,真實反映中醫治療受體的情況和態度,能為中醫循證醫學探索一個可能的新思路[12, 13]。而基于大數據的中醫人工智能診斷,將為中醫在信息時代的發展開辟重要研究方法和途徑。國家對中醫信息化建設的重視程度逐步提高,《中醫藥信息化建設“十一五”規劃綱要》與《中醫藥信息化建設“十二五”規劃綱要》明確提出了未來中醫信息化建設的發展方向,中醫藥信息化的黃金時代已然到來[14]。
但是,我們在醫療大數據分析過程中發現,與基于標準化西醫的智能診斷有所不同,中醫智能診斷面臨不少亟待解決的理論問題:① 有效訓練樣本缺失:中醫雖然有幾千年的經驗積累,但是“師帶徒”方式傳承下來的醫書和病案存在不規范、不完整等現狀,尤其是缺少可供模型訓練的結構化數據樣本;② 機器學習模型失真:中醫診病治病的特點,如中醫“同病異治,異病同治”模式,是一種個性分析,這使得大數據和人工智能的共性規律挖掘技術在中醫診療環境中出現失真現象。我們認為,這也是當前許多中醫智能診斷系統效果不佳的重要原因。
針對上述中醫智能醫療研究中亟待解決的理論問題,我們提出并設計了一種基于主動集成學習的中醫智能診斷模型,并結合中醫資源大數據開展了試驗分析。
1 統一視圖的中醫數據提取與組織方法
從現代信息技術角度來看,中醫醫療領域的數據資源豐富,但中醫文獻及各類醫書病案都缺少統一的結構數據,因此可用數據資源匱乏。采用怎樣的數據組織體系才能夠實現統一視圖上快速準確的數據分析,是中醫智能診療研究的前提和基礎。
在相關課題支持下,我們獲取了如下數據資源:① 網絡空間數據:使用微博的 Public Timeline API 進行數據采集,最終獲取了 1 千萬用戶發布的 microblogs 共計 14 億條,以及對應的 1 千萬用戶的個人自我描述。此外,我們將中國尋醫問藥、好大夫、丁香醫生、百度醫療 4 個大型醫療網站作為考察網絡中醫大數據的另一研究對象,獲取了 100 萬患者與 2 萬醫生,超過 300 萬條醫患交流數據;② 臨床數據:獲取了某大型中醫院的覆蓋中國 34 個省級行政單位與 20 余個地區的共計 1 300 萬人次就醫記錄,包含門診、住院全部醫療數據;③ 醫療文獻數據:對 PubMed、EMbase 數據庫中近 5 年的中醫文獻進行提取和集成。
針對中醫數據的特征,我們采用了“面向屬性的中醫病歷結構自動提取方法”,通過數據的結構提取和集成,將海量非結構化的中醫數據生成統一的結構化數據庫。系統通過主動學習機制選取中醫文獻、互聯網醫院和電子病歷的屬性進行學習,自主構建特征庫并實現實時、準確的結構提取。
從互聯網文本中自動提取結構化中醫病歷的例子見圖 1。從該文本中,系統自動發現了“性別”、“年齡”、“所在地區”、“病癥”、“處方”等屬性結構。

我們設計了統一視圖的中醫數據提取與組織方法,包括面向屬性的結構自動提取、面向主題的分類和集成模式計算模型等技術,將網絡空間數據、臨床病歷數據、醫療文獻數據集成到一個統一的大數據管理和分析平臺中,構建了統一視圖下的結構化中醫數據庫(TCM-BIGDATA)。
2 基于主動集成學習的中醫智能診斷模型構建方法
智能診斷是當前醫學和人工智能交叉學科研究的熱點問題。但與基于標準化西醫的智能診斷不同,中醫智能診斷面臨不少亟待解決的理論問題。大數據和人工智能的機器學習算法,是在大規模數據中發現共性規律,而中醫以“同病異治,異病同治”為診療原則,是一種典型的個性分析。因此,需要研究支持中醫特性的人工智能模型。
在統一視圖下的 TCM-BIGDATA 建設的基礎上,本文提出并設計了一種基于主動集成學習的中醫智能診斷模型。該流程的核心是面向智能診斷的主動學習、集成學習以及無縫融合的主動集成學習機制,其流程見圖 2。

智能診斷模型的主要算法是自動分類,我們使用一些傳統的監督學習方法做分類的時候,往往是訓練樣本規模越大,分類的效果就越好。但是在現實中醫數據場景中,已標注樣本的獲取比較困難,這需要中醫專家來進行人工標注,所花費的時間成本和經濟成本過大。如何使用較少的訓練樣本來標注從而獲得性能較好的分類器呢?我們設計的主動學習可獲取中醫專家標注的小樣本、高質量數據,并得到具有因人而異的個性分析能力的診斷分類器[15, 16]。
集成學習是通過一定的規則生成多個學習器(即“弱學習器”),再采用集成策略對多個學習器進行組合,形成精度更好的“強學習器”,最后綜合判斷輸出最終結果。主動學習探測器能夠從 TCM-BIGDATA 中捕捉外界變化,選擇性地獲取知識,為動態修改集成學習提供判定依據。
“異病同治”則要求機器學習具有高度的異構模型匯總能力。我們的集成學習機制則通過將多個不同機器學習的模型進行集成訓練,獲得更為準確的學習模型[17]。在經過主動學習獲取了高質量樣本后,系統將高質量樣本送入集成學習的第一層,即由卷積神經網絡、決策樹、貝葉斯等算法產生第一層的模型,并將其作為第二次的輸入。第二層的強學習器則根據首層的輸入模型再做第二次集成訓練,從而得到更為準確的學習模型。
主動集成學習反饋器與主動學習探測器之間的互動形成了無縫融合的主動集成學習機制。具體來說,傳統的集成學習是人工選取適當的模型集合作為集成學習的第一層算法輸入,而我們提出的主動集成學習是分析外界目標的模式變化,當差異性達到閾值時,主動重構第一層算法。這使得集成模型伴隨外界變化,始終處于自適應狀態中。
在主動學習探測器中,針對中醫病歷數據中的“同病異治”現象,我們設計了面向中醫病歷的多標簽分類主動學習算法。多標簽分類即同一類型的病歷,可能根據少許屬性的不同,分類到不同的類別中。其算法描述見框 1。

該算法為未標注中醫數據集中的每個實例計算一個 Training_Value,并選取最大 Training_Value 的實例構建新的集合 Su*,經過 ActiveTest 過程增益價值大于閾值,則加入訓練集合中并重構分類器。
3 多標簽主動學習應用于中醫兒科常見病肺炎喘嗽的診斷
我們以中醫兒科常見病肺炎喘嗽為例,說明多標簽主動學習的作用。“熱、咳、痰、喘”是肺炎喘嗽的典型癥狀,但同為肺炎喘嗽病,治法方藥又因癥型不同而不同,即“同病異治”。肺炎喘嗽最基本的分型是風寒閉肺型和風熱閉肺型,見表 1。

風寒閉肺型和風熱閉肺型是兩種不同的肺炎喘嗽癥型,中醫辨證會根據不同的臨床癥狀,給予患者不同的治療藥物。但已有的機器學習過程卻無法辨識這種差別。根據上述文本,經過實體提取和分析后,只能生成無差別的肺炎喘嗽知識圖譜(圖 3a),無法實現同病異治診療。而我們的多標簽主動學習機制,則可以分別構建出風寒閉肺型和風熱閉肺型兩個不同的知識圖譜(圖 3b 和 3c)。圖中不同顏色記錄了該實體的不同狀態。例如:綠色和紅色分別記錄無汗和有汗、無口渴和有口渴、無痰和有痰這兩種不同狀態。即將我們提出的觀點感知的知識圖譜構建方法[16]應用于中醫主動學習過程,構建癥候感知的知識圖譜,有效支持了中醫異病同治診療原則。

a:無差別的知識圖譜;b:風寒閉肺型的知識圖譜;c:風熱閉肺型的知識圖譜。
4 中醫智能診斷模型的試驗分析
為分析和驗證本文提出的基于主動集成學習的中醫智能診斷模型及其構建方法的有效性,我們在 TCM-BIGDATA 上開展了多項試驗。
以臨床中醫師診斷結果為標準,同時在 TCM-BIGDATA 數據集上,將集成學習與當前主流的機器學習方法作對比分析。集成學習與邏輯回歸、支持向量機分類、樸素貝葉斯和深度學習 LSTM 在幾類常見病上的對比分析結果見圖 4。

上述分析可以看出,隨著數據集規模的不斷變化,集成學習對不同疾病的診斷準確度明顯高于傳統的機器學習方法,也高于當前主流的深度學習方法。
5 結論
智能診斷應用于中醫診療體系時,常面臨有效訓練樣本缺失、機器學習模型失真等問題。本文提出了一種基于主動集成學習的中醫智能診斷模型及其構建方法:設計了統一視圖的中醫數據提取與組織方法,提出了基于主動集成學習的中醫智能診斷模型,可通過主動學習機制得到具有因人而異的個性分析能力的診斷分類器,也將多個不同機器學習的模型進行集成訓練,獲得更為準確的學習模型。通過以肺炎喘嗽為例的基于大規模數據的試驗分析,驗證了基于主動集成學習的中醫智能診斷模型有效性,將有助于中醫個性化智能診療的推廣。
聲明:本文無任何利益沖突。
人工智能技術運用到醫療領域中,能夠更加準確、科學地識別診斷方案,為患者提供更佳的治療,能為我國醫療事業的發展提供重要的推動力量。隨著深度學習等人工智能技術的引入,智能診斷已進入快速發展時期。作為醫學和人工智能的交叉學科,智能診斷技術在學術界得到廣泛關注,為人們健康服務智能發展提供了重要動力,正在改變醫療健康領域的診療方式和行業模式[1, 2]。
當前人工智能在西醫學的應用正在快速發展,尤其在基于機器學習的醫學影像分析方面取得了突出的成果,如肺癌肺結節檢測[3]、病理片檢測[4, 5]、皮膚癌檢測[6]、視網膜病變檢測[7, 8]等。Gurovich 等[9]開發了一種深度神經網絡,可基于單導程 ECG 信號分類 10 種心率不齊及竇性心律和噪音,性能與高年資心臟病醫生診療結果相近,其平均陽性預測值準確率和敏感度查全率的調和平均值(F1 分數)為 0.837,超過了心臟病專家的平均值(0.780)。美國數字醫療公司 FDNA 的研究人員提出了一種深度學習應用 Face2Gene,采用面部圖像分析框架 DeepGestalt,利用計算機視覺和深度學習算法量化了數百種綜合征的相似性,可通過識別綜合征遺傳病患者的面部特征,幫助醫生識別罕見基因遺傳疾病,其試驗中準確率達到了 91%,超越了臨床醫師[9]。
中醫學(traditional Chinese medicine,TCM)有獨特的理論體系和實踐經驗,在中國數千年的歷史中為民眾的健康保駕護航,至今仍發揮著舉足輕重的作用。但中醫診斷標準化、療效評價的科學性是中醫現代化和全球化的瓶頸問題[10, 11]。中醫大數據挖掘可以客觀分析現實世界的海量醫療數據,真實反映中醫治療受體的情況和態度,能為中醫循證醫學探索一個可能的新思路[12, 13]。而基于大數據的中醫人工智能診斷,將為中醫在信息時代的發展開辟重要研究方法和途徑。國家對中醫信息化建設的重視程度逐步提高,《中醫藥信息化建設“十一五”規劃綱要》與《中醫藥信息化建設“十二五”規劃綱要》明確提出了未來中醫信息化建設的發展方向,中醫藥信息化的黃金時代已然到來[14]。
但是,我們在醫療大數據分析過程中發現,與基于標準化西醫的智能診斷有所不同,中醫智能診斷面臨不少亟待解決的理論問題:① 有效訓練樣本缺失:中醫雖然有幾千年的經驗積累,但是“師帶徒”方式傳承下來的醫書和病案存在不規范、不完整等現狀,尤其是缺少可供模型訓練的結構化數據樣本;② 機器學習模型失真:中醫診病治病的特點,如中醫“同病異治,異病同治”模式,是一種個性分析,這使得大數據和人工智能的共性規律挖掘技術在中醫診療環境中出現失真現象。我們認為,這也是當前許多中醫智能診斷系統效果不佳的重要原因。
針對上述中醫智能醫療研究中亟待解決的理論問題,我們提出并設計了一種基于主動集成學習的中醫智能診斷模型,并結合中醫資源大數據開展了試驗分析。
1 統一視圖的中醫數據提取與組織方法
從現代信息技術角度來看,中醫醫療領域的數據資源豐富,但中醫文獻及各類醫書病案都缺少統一的結構數據,因此可用數據資源匱乏。采用怎樣的數據組織體系才能夠實現統一視圖上快速準確的數據分析,是中醫智能診療研究的前提和基礎。
在相關課題支持下,我們獲取了如下數據資源:① 網絡空間數據:使用微博的 Public Timeline API 進行數據采集,最終獲取了 1 千萬用戶發布的 microblogs 共計 14 億條,以及對應的 1 千萬用戶的個人自我描述。此外,我們將中國尋醫問藥、好大夫、丁香醫生、百度醫療 4 個大型醫療網站作為考察網絡中醫大數據的另一研究對象,獲取了 100 萬患者與 2 萬醫生,超過 300 萬條醫患交流數據;② 臨床數據:獲取了某大型中醫院的覆蓋中國 34 個省級行政單位與 20 余個地區的共計 1 300 萬人次就醫記錄,包含門診、住院全部醫療數據;③ 醫療文獻數據:對 PubMed、EMbase 數據庫中近 5 年的中醫文獻進行提取和集成。
針對中醫數據的特征,我們采用了“面向屬性的中醫病歷結構自動提取方法”,通過數據的結構提取和集成,將海量非結構化的中醫數據生成統一的結構化數據庫。系統通過主動學習機制選取中醫文獻、互聯網醫院和電子病歷的屬性進行學習,自主構建特征庫并實現實時、準確的結構提取。
從互聯網文本中自動提取結構化中醫病歷的例子見圖 1。從該文本中,系統自動發現了“性別”、“年齡”、“所在地區”、“病癥”、“處方”等屬性結構。

我們設計了統一視圖的中醫數據提取與組織方法,包括面向屬性的結構自動提取、面向主題的分類和集成模式計算模型等技術,將網絡空間數據、臨床病歷數據、醫療文獻數據集成到一個統一的大數據管理和分析平臺中,構建了統一視圖下的結構化中醫數據庫(TCM-BIGDATA)。
2 基于主動集成學習的中醫智能診斷模型構建方法
智能診斷是當前醫學和人工智能交叉學科研究的熱點問題。但與基于標準化西醫的智能診斷不同,中醫智能診斷面臨不少亟待解決的理論問題。大數據和人工智能的機器學習算法,是在大規模數據中發現共性規律,而中醫以“同病異治,異病同治”為診療原則,是一種典型的個性分析。因此,需要研究支持中醫特性的人工智能模型。
在統一視圖下的 TCM-BIGDATA 建設的基礎上,本文提出并設計了一種基于主動集成學習的中醫智能診斷模型。該流程的核心是面向智能診斷的主動學習、集成學習以及無縫融合的主動集成學習機制,其流程見圖 2。

智能診斷模型的主要算法是自動分類,我們使用一些傳統的監督學習方法做分類的時候,往往是訓練樣本規模越大,分類的效果就越好。但是在現實中醫數據場景中,已標注樣本的獲取比較困難,這需要中醫專家來進行人工標注,所花費的時間成本和經濟成本過大。如何使用較少的訓練樣本來標注從而獲得性能較好的分類器呢?我們設計的主動學習可獲取中醫專家標注的小樣本、高質量數據,并得到具有因人而異的個性分析能力的診斷分類器[15, 16]。
集成學習是通過一定的規則生成多個學習器(即“弱學習器”),再采用集成策略對多個學習器進行組合,形成精度更好的“強學習器”,最后綜合判斷輸出最終結果。主動學習探測器能夠從 TCM-BIGDATA 中捕捉外界變化,選擇性地獲取知識,為動態修改集成學習提供判定依據。
“異病同治”則要求機器學習具有高度的異構模型匯總能力。我們的集成學習機制則通過將多個不同機器學習的模型進行集成訓練,獲得更為準確的學習模型[17]。在經過主動學習獲取了高質量樣本后,系統將高質量樣本送入集成學習的第一層,即由卷積神經網絡、決策樹、貝葉斯等算法產生第一層的模型,并將其作為第二次的輸入。第二層的強學習器則根據首層的輸入模型再做第二次集成訓練,從而得到更為準確的學習模型。
主動集成學習反饋器與主動學習探測器之間的互動形成了無縫融合的主動集成學習機制。具體來說,傳統的集成學習是人工選取適當的模型集合作為集成學習的第一層算法輸入,而我們提出的主動集成學習是分析外界目標的模式變化,當差異性達到閾值時,主動重構第一層算法。這使得集成模型伴隨外界變化,始終處于自適應狀態中。
在主動學習探測器中,針對中醫病歷數據中的“同病異治”現象,我們設計了面向中醫病歷的多標簽分類主動學習算法。多標簽分類即同一類型的病歷,可能根據少許屬性的不同,分類到不同的類別中。其算法描述見框 1。

該算法為未標注中醫數據集中的每個實例計算一個 Training_Value,并選取最大 Training_Value 的實例構建新的集合 Su*,經過 ActiveTest 過程增益價值大于閾值,則加入訓練集合中并重構分類器。
3 多標簽主動學習應用于中醫兒科常見病肺炎喘嗽的診斷
我們以中醫兒科常見病肺炎喘嗽為例,說明多標簽主動學習的作用。“熱、咳、痰、喘”是肺炎喘嗽的典型癥狀,但同為肺炎喘嗽病,治法方藥又因癥型不同而不同,即“同病異治”。肺炎喘嗽最基本的分型是風寒閉肺型和風熱閉肺型,見表 1。

風寒閉肺型和風熱閉肺型是兩種不同的肺炎喘嗽癥型,中醫辨證會根據不同的臨床癥狀,給予患者不同的治療藥物。但已有的機器學習過程卻無法辨識這種差別。根據上述文本,經過實體提取和分析后,只能生成無差別的肺炎喘嗽知識圖譜(圖 3a),無法實現同病異治診療。而我們的多標簽主動學習機制,則可以分別構建出風寒閉肺型和風熱閉肺型兩個不同的知識圖譜(圖 3b 和 3c)。圖中不同顏色記錄了該實體的不同狀態。例如:綠色和紅色分別記錄無汗和有汗、無口渴和有口渴、無痰和有痰這兩種不同狀態。即將我們提出的觀點感知的知識圖譜構建方法[16]應用于中醫主動學習過程,構建癥候感知的知識圖譜,有效支持了中醫異病同治診療原則。

a:無差別的知識圖譜;b:風寒閉肺型的知識圖譜;c:風熱閉肺型的知識圖譜。
4 中醫智能診斷模型的試驗分析
為分析和驗證本文提出的基于主動集成學習的中醫智能診斷模型及其構建方法的有效性,我們在 TCM-BIGDATA 上開展了多項試驗。
以臨床中醫師診斷結果為標準,同時在 TCM-BIGDATA 數據集上,將集成學習與當前主流的機器學習方法作對比分析。集成學習與邏輯回歸、支持向量機分類、樸素貝葉斯和深度學習 LSTM 在幾類常見病上的對比分析結果見圖 4。

上述分析可以看出,隨著數據集規模的不斷變化,集成學習對不同疾病的診斷準確度明顯高于傳統的機器學習方法,也高于當前主流的深度學習方法。
5 結論
智能診斷應用于中醫診療體系時,常面臨有效訓練樣本缺失、機器學習模型失真等問題。本文提出了一種基于主動集成學習的中醫智能診斷模型及其構建方法:設計了統一視圖的中醫數據提取與組織方法,提出了基于主動集成學習的中醫智能診斷模型,可通過主動學習機制得到具有因人而異的個性分析能力的診斷分類器,也將多個不同機器學習的模型進行集成訓練,獲得更為準確的學習模型。通過以肺炎喘嗽為例的基于大規模數據的試驗分析,驗證了基于主動集成學習的中醫智能診斷模型有效性,將有助于中醫個性化智能診療的推廣。
聲明:本文無任何利益沖突。