2月11日,,國(guó)際頂級(jí)醫(yī)學(xué)科研期刊《Nature Medicine》在線(xiàn)發(fā)布了題為“evaluation and accurate diagnoses of pediatric diseases using artificial intelligence”(《使用人工智能評(píng)估和準(zhǔn)確診斷兒科疾病》)的文章。該文章由廣州市婦女兒童醫(yī)療中心與依圖醫(yī)療等企業(yè)和科研機(jī)構(gòu)共同完成,,基于機(jī)器學(xué)習(xí)的自然語(yǔ)言處理(NLP)技術(shù)實(shí)現(xiàn)不輸人類(lèi)醫(yī)生的強(qiáng)大診斷能力,,并具備多場(chǎng)景的應(yīng)用能力。這是全球首次在頂級(jí)醫(yī)學(xué)雜志發(fā)表有關(guān)自然語(yǔ)言處理(NLP)技術(shù)基于電子健康記錄(EHR)做臨床智能診斷的研究成果,,也是利用人工智能技術(shù)診斷兒科疾病的重磅科研成果,。
業(yè)界公認(rèn),人工智能是醫(yī)療行業(yè)革新的核心動(dòng)力,。然而,,盡管機(jī)器學(xué)習(xí)在影像診斷方面表現(xiàn)強(qiáng)勢(shì),但在數(shù)量巨大,、多樣的電子病歷數(shù)據(jù)分析方面,,仍面臨巨大挑戰(zhàn)。電子病歷的數(shù)據(jù)信息之廣,、數(shù)據(jù)類(lèi)型之多,,以及某些方面的數(shù)據(jù)貧乏及可能出現(xiàn)的特殊案例等,都導(dǎo)致機(jī)器學(xué)習(xí)難以進(jìn)行精確的數(shù)據(jù)分析,,并進(jìn)而形成預(yù)測(cè)臨床檢測(cè)的數(shù)據(jù)模型,。
依圖提出并測(cè)試了一個(gè)專(zhuān)門(mén)對(duì)電子醫(yī)學(xué)病例進(jìn)行數(shù)據(jù)挖掘的系統(tǒng)框架,將醫(yī)學(xué)知識(shí)和數(shù)據(jù)驅(qū)動(dòng)模型結(jié)合在一起。該模型先通過(guò)NLP對(duì)電子病例進(jìn)行標(biāo)注,,利用邏輯回歸來(lái)建立層次診斷,,在常見(jiàn)兒童疾病方面的綜合診斷準(zhǔn)確率優(yōu)于相對(duì)低年資兒科醫(yī)生(3年+8年臨床經(jīng)驗(yàn))。
從數(shù)據(jù)來(lái)看,,以呼吸系統(tǒng)疾病為例,,對(duì)上呼吸道疾病和下呼吸道疾病的診斷準(zhǔn)確率分別為89%和87%,而在上呼吸道疾病診斷中,,急性喉炎和鼻竇炎的準(zhǔn)確率分別高達(dá)86%和96%,,對(duì)不同類(lèi)型哮喘的診斷準(zhǔn)確率從83%到97%。同時(shí)對(duì)普通系統(tǒng)性疾病以及危險(xiǎn)程度更高的疾病也有很高的診斷準(zhǔn)確率,,例如傳染性單核細(xì)胞增多癥(90%),、水痘(93%)、玫瑰疹(93%),、流感(94%),、手足口病(97%)和細(xì)菌性腦膜炎(93%)。也就是說(shuō),,該系統(tǒng)可以根據(jù)NLP系統(tǒng)注釋的臨床數(shù)據(jù)信息對(duì)兒科疾病做出準(zhǔn)確的判斷,。
“此次成果的核心技術(shù)部分,實(shí)際上是通過(guò)深度學(xué)習(xí)技術(shù)與醫(yī)學(xué)知識(shí)圖譜,,對(duì)EHR數(shù)據(jù)進(jìn)行解構(gòu),,從而構(gòu)建了高質(zhì)量的智能病種庫(kù)。使得后續(xù)可以較容易地利用智能病種庫(kù)建立各種診斷模型,。而診斷模型證明了基于AI的系統(tǒng)可以幫助醫(yī)生處理大型數(shù)據(jù)和輔助診斷,,同時(shí)在診斷的不確定性和復(fù)雜性上給予臨床支持”,依圖醫(yī)療總裁倪浩表示,,“兒科疾病癥狀多種多樣,,臨床醫(yī)生同樣難以區(qū)分,診斷流程費(fèi)時(shí)費(fèi)力,,但明確診斷非常重要,。擁有可與經(jīng)驗(yàn)豐富的兒科醫(yī)生相媲美的助手進(jìn)行輔助診斷,能夠讓醫(yī)生有效地降低診斷時(shí)間,,顯著優(yōu)化診斷流程?!?/span>
依圖與廣州市婦女兒童醫(yī)療中心進(jìn)行合作,,收集了該中心在2016年1月至2017年7月間的567,498個(gè)門(mén)診病人的1,362,559次問(wèn)診電子病歷,抽取到覆蓋初始診斷包括兒科55種病例學(xué)中常見(jiàn)疾病的1.016億個(gè)數(shù)據(jù)點(diǎn),,并將這些信息用于訓(xùn)練和驗(yàn)證系統(tǒng)框架,。相比以往模型,此次研究使用了超過(guò)140萬(wàn)的龐大數(shù)據(jù),以完善診斷系統(tǒng),,此外,,此次研究中使用數(shù)據(jù)在表達(dá)和描述上的一致性,極大的提高了數(shù)據(jù)質(zhì)量,。
不僅如此,,此次研究還基于NLP實(shí)現(xiàn)了病歷的重新格式化。首先,,有超過(guò)25年臨床實(shí)踐經(jīng)驗(yàn)的資深主治醫(yī)師手動(dòng)注釋了6,183個(gè)圖表,,然后用3,564張人工標(biāo)注的圖表對(duì)NLP信息提取模型進(jìn)行訓(xùn)練,并用剩下的2,619張圖表對(duì)模型進(jìn)行驗(yàn)證,。該NLP模型總結(jié)了代表臨床數(shù)據(jù)的關(guān)鍵概念類(lèi)別,,利用深度學(xué)習(xí)技術(shù)自動(dòng)將EHR注釋到標(biāo)準(zhǔn)化詞匯和臨床特征中,從而允許對(duì)診斷分類(lèi)進(jìn)行進(jìn)一步處理,。
廣州市婦女兒童醫(yī)療中心夏慧敏教授表示,,“這篇文章的啟示意義在于,通過(guò)系統(tǒng)學(xué)習(xí)文本病歷,,人工智能或?qū)⒖梢栽\斷更多疾病,。但須要清醒認(rèn)識(shí)到,我們?nèi)杂泻芏嗷A(chǔ)性工作要做扎實(shí),,比如高質(zhì)量數(shù)據(jù)的集成便是一個(gè)長(zhǎng)期的過(guò)程,,因?yàn)榇髷?shù)據(jù)的收集和分析需要算法工程師、臨床醫(yī)生,、流行病學(xué)專(zhuān)家等在內(nèi)的多專(zhuān)家的通力合作,。此外,人工智能學(xué)習(xí)了海量數(shù)據(jù)后,,其診斷結(jié)果的準(zhǔn)確性仍然需要更大范圍的數(shù)據(jù)對(duì)其進(jìn)行驗(yàn)證和比對(duì),。”
此次研究得到Nature Medicine雜志的高度認(rèn)可,,其原因還在于其具備極強(qiáng)的多場(chǎng)景應(yīng)用能力,。例如在分診環(huán)節(jié),通過(guò)記錄基礎(chǔ)數(shù)據(jù)讓模型產(chǎn)生預(yù)測(cè)診療結(jié)果,,并通過(guò)這個(gè)結(jié)果評(píng)估病人的優(yōu)先級(jí),,以確保醫(yī)生可以按需就診。此外,,基于AI的診斷模型還可以幫助醫(yī)生診斷復(fù)雜或罕見(jiàn)病癥,,提示可能情況,避免由于醫(yī)生受限于自身專(zhuān)業(yè)或經(jīng)驗(yàn),,在復(fù)雜病癥出現(xiàn)時(shí)出現(xiàn)誤診,。此外,,基于EHR 構(gòu)建的高質(zhì)量智能病種庫(kù),還可打破原有信息化系統(tǒng)的界限,,便于更多的科研項(xiàng)目和業(yè)務(wù)領(lǐng)域高效地使用,,優(yōu)化臨床數(shù)據(jù)的獲取鏈路,以及打造更具價(jià)值的診斷系統(tǒng),,大大提升臨床診療的效率,。可以預(yù)見(jiàn)的是,,這個(gè)模型不僅能在醫(yī)療資源短缺或不均的地區(qū)發(fā)揮巨大作用,,也將為全世界帶來(lái)重要的普適進(jìn)步意義。
作為Nature雜志專(zhuān)注于生物醫(yī)學(xué)領(lǐng)域的專(zhuān)業(yè)子刊,,Nature Medicine注重基礎(chǔ)研究和涵蓋醫(yī)學(xué)各方面的早期臨床研究,,高度關(guān)注人工智能技術(shù)對(duì)醫(yī)療行業(yè)帶來(lái)的巨大革新作用。在2019年1月刊中,,Nature Medicine曾發(fā)表9篇論文聚焦AI醫(yī)療,,此次文章,在說(shuō)明這一研究的學(xué)術(shù)領(lǐng)先性與應(yīng)用拓展性的同時(shí),,也標(biāo)志著人工智能在醫(yī)療行業(yè)的深度落地,,及驅(qū)動(dòng)醫(yī)療行業(yè)深層革新的巨大作用。