meta-分析的緣起
meta-分析,,簡單來說,,就是將來自于已經(jīng)發(fā)表的臨床試驗數(shù)據(jù),通過一定的規(guī)范化處理后,,合并到一起,,然后看看這合并后的結果,與原來的單個研究有什么不同或者相同之處,。
既然可以做臨床試驗,,為什么還需要meta-分析?作為從循證醫(yī)學進入中國之初就開始進行meta-分析研究的醫(yī)生和科學家,,我們認為以下幾個理由是主要的:
●大多數(shù)臨床試驗的樣本量不夠大,。樣本量小了,其對假說的驗證能力就低了,,但是大樣本臨床試驗成本很高,。把來自于很多個研究者的臨床試驗通過meta-分析合并在一起,可以在不增加成本的情況,,很快地增加樣本量,,從而減少達到有效樣本量所需結論的成本。
●即使近年來單個試驗樣本量越來越大,,但是越大樣本的大型研究,,其受到研究者和資助者主客觀因素的影響也很多,,設計可能未必很合理,得到的結論往往是良莠不齊,。嚴格遵循國際標準的meta-分析,,會全面地梳理這些因素,從而為一些爭論不休的問題理清思路,,這一意義上,,meta-分析具有某種臨床試驗裁判官的位置。
●既然很多臨床試驗研究的對象具有某種相似性,,為什么不把這些看起來相似的試驗的數(shù)據(jù)合并在一起呢,?
對于上世紀后半葉的臨床研究者來說,這些理由是強有力的,。因此,,meta-分析發(fā)展并大大興旺起來。meta-分析興起之初,,對于若干重要臨床爭論的解決提供了很好的路徑,,成為劃時代的臨床科學研究工具。
meta-分析在方法學上的先天不足
但是,,meta-分析是具有先天缺陷的,。這就是所謂的“異質(zhì)性”(heterogeneity)。那么,,什么是異質(zhì)性呢,?這個詞對于統(tǒng)計專業(yè)之外的讀者有點拗口,不過把它的反義詞拿出來,,就有助于理解了,,那就是“一致性”(homogeneity),可以直觀地理解為臨床試驗之間所具有的相似性,??陀^現(xiàn)實是:即使臨床試驗是針對同一類疾病、同種治療手段而開展的,,由于人和人之間具有的差異性,,由于試驗設計以及試驗環(huán)境的差異性,我們不可能找到絕對相同的兩個研究,。但研究間可以存在大小不等的相似性,。當在不同時間、地點或由不同研究者所進行的試驗具有相當?shù)南嗨菩詴r,,合并它們就是合理的,。為達此目的,就必須確定一種分類界限:即從大量研究中找出一些具相似研究,,并確認它們本質(zhì)上的相似性,,將它們和別的,、本質(zhì)上完全不同(差異過大)的研究區(qū)分開來。異質(zhì)性指的就是這種存在于研究之間的,、根本上的差異性,。本質(zhì)上不同的研究不應當合并,不解決異質(zhì)性問題而進行的任何meta-分析,,是不科學的。
經(jīng)典異質(zhì)性檢驗:理論與統(tǒng)計學上的缺陷
meta-分析的先驅(qū)者們深知異質(zhì)性問題的關鍵性,,從很早的時候起,,他們就努力尋找測度異質(zhì)性的方法。最終發(fā)展定量化評估方法,,此即目前流行的以Q和I?為代表的所謂“異質(zhì)性檢驗”,。然而,我們剛剛發(fā)表的一個研究從數(shù)學上證明:這些經(jīng)典的,,已經(jīng)襲用十余年的“異質(zhì)性檢驗”方法學是有缺陷的,。換句話說,過去十幾年來的循證醫(yī)學,,其貌似強大的地基,,實是建立于沙灘之上的。
meta-分析的不可靠性:數(shù)學證明
科克倫教授(Cochran)及其同事們在創(chuàng)立meta-分析時就發(fā)現(xiàn),,不同的臨床試驗在數(shù)據(jù)采集,、樣本的具體情況方面所具有的差異屬性實在是太多了,要證明能夠?qū)碜圆煌芯康臄?shù)據(jù)合并在一起分析在數(shù)學上是可接受的(legitimate),,并不是那么容易,。定義異質(zhì)性并加以定量評價,一直是循證醫(yī)學發(fā)展過程中在其方法學領域最為重要的問題之一,。
Q統(tǒng)計量是用來評價meta-分析研究間的差異總和的一種統(tǒng)計量,。Q值越大,說明所納入的研究之間存在越大的異質(zhì)性,;反之,,Q值越小,則說明所納入的研究之間的差異性越小,。但Q的計算方法中隱含了對研究數(shù)目的依賴,。當納入研究的數(shù)量逐漸增大時,Q值將發(fā)生“過度膨脹”,,從而造成假陽性檢驗結果(即不論研究是否真的來自于相似的抽樣總體,,只要研究數(shù)增加,Q值都會將最終結果判定為“來自于不同總體”),。為解決Q對研究數(shù)量不當依賴問題,,英國循證醫(yī)學專家希金斯(Higgins J)提出通過Q的計算公式中減去樣本數(shù)的修正思路,,他們將這一修正方法稱之為“I?檢驗”,并認為I?因而比Q更為合理,。希金斯將這一方法寫成研究論文,,發(fā)表于2003年的《不列顛醫(yī)學雜志》(British Medical Journal,BMJ),。此后,,I?迅速被業(yè)界接受為異質(zhì)性度量的標準,被寫入了包括Cochrane系統(tǒng)評價手冊在內(nèi)的幾乎所有循證醫(yī)學教科書,,是如今幾乎每一篇meta-分析都會用到的方法,。
但是,由四川省人民醫(yī)院聯(lián)合國內(nèi)多家知名研究單位的多學科專家共同完成的這項研究,,從數(shù)學上證明了上述經(jīng)典方法是不可靠的,。我們通過數(shù)值仿真證明:當樣本數(shù)逐漸增大的時候,I?值將隨著之而增加,,其上升趨勢單調(diào)不降(見下圖),。這意味著只要研究樣本量足夠大,哪怕是根本不可能存在異質(zhì)性的,、來自同一總體的抽樣,,仍然會被I2檢驗判定為存在有異質(zhì)性。這一研究也證明Q同樣依賴于樣本量的大小,。
(I?值隨樣本量增加而線性增加)
異質(zhì)性檢驗本質(zhì)上是為保障meta-分析的可靠性,,使其能夠?qū)碜远鄠€臨床試驗的數(shù)據(jù)進行合并,擴大樣本量從而實現(xiàn)檢驗假設所必須的效應量,。然而,,我們證明,隨著研究數(shù)量的增加,,合并了臨床試驗并使得樣本量增加的meta-分析,,其異質(zhì)性檢驗的結果完全不可靠。具有諷刺意味的是,,現(xiàn)代臨床試驗在面對各種矛盾和似是而非的結論的時候往往乞靈于“更大樣本的試驗”,。這兩方面不可調(diào)和的矛盾說明了meta-分析在邏輯上不能自洽,方法學基礎存在重大缺陷,。
反思建立在meta-分析基礎之上的循證醫(yī)學
循證醫(yī)學的創(chuàng)始人之一薩基特教授(David Sacket)在其名著《循證醫(yī)學的教學與實踐》(Evidence-based Medicine:How to Practice and Teach EBM)中曾經(jīng)指出,,慎重、準確和明智地應用當前所能獲得的最好的研究依據(jù),,同時結合醫(yī)生的個人專業(yè)技能和多年臨床經(jīng)驗,,考慮病人的價值和愿望,將三者完美地結合制定出病人的治療措施方可稱為循證醫(yī)學,。然而,,在循證醫(yī)學向的發(fā)展進程中,,由于制定證據(jù)分級體系時,過分強調(diào)meta-分析和大樣本RCT的作用,,使得在實踐中,,臨床研究者和廣大的醫(yī)務人員逐漸把最佳證據(jù)理解為:大樣本RCT以及基于這類研究的meta分析。隨著時間的推移,,越來越多的RCT和meta-分析已經(jīng)顯示出各種自相矛盾性,,使得臨床醫(yī)師無所適從。
如今我們已經(jīng)認識到,,任何RCT都將面對如下的,、無法回避的挑戰(zhàn):對最終考察目標的可造成實質(zhì)性影響的因素遠遠多于人們最初的預想。隨機化試圖控制的是存在于患者個體間的差異,。本質(zhì)上,,個體差異反映的是從基因組到宏觀表型的差異,。隨著對基因組認識的深化,,我們認識到,,影響特定臨床表型(如血壓,、血糖水平,、腫瘤類型)的基因數(shù)量十分眾多,。例如,,與創(chuàng)傷后創(chuàng)面愈合功能密切相關的基因就有651個,。這還僅僅是從基因組的角度來考慮,。進一步考慮在轉(zhuǎn)錄、表達水平的影響因素,,那么可影響臨床結局的分子因素將以數(shù)量級增加,。
假設這些影響因素在人群中的分布都是隨機的,即正態(tài)分布,,存在于個體間的,、數(shù)以萬千計的影響因素在數(shù)學上其實已經(jīng)構成了有著數(shù)以萬記維度的超高維空間。現(xiàn)實中的RCT,,能納入成千個樣本的,,已經(jīng)是相當難得的大型研究了。面對上述本質(zhì)上分布于超高維空間中的個體差異,,即使有數(shù)以千計的研究對象,,也幾乎完全不可能是做到真正隨機。此種情形下,,對一個RCT中發(fā)現(xiàn)的存在于組間的臨床結局的“顯著性”差異,,其真實原因有很大可能是由完全不可控的偏倚所造成的。
所以,,應該認識到,,RCT這一誕生于半個世紀之前的研究范式,,其方法學基礎是虛幻的:隨機化可平衡個體變異,能夠保證的僅僅是每個參加實驗的對象均有“同等機會”被分配到試驗組和對照組當中,,但不能保證每個影響實驗結局的因素都有“均等機會”被分配到兩組當中,。
引入新方法,建立新一代循證醫(yī)學的研究范式
歸根結底,,RCT,、隊列研究以及病例-對照研究,其哲學本體其實并沒有太大差別:此即觀察和收集數(shù)據(jù),。神秘化,、毫無節(jié)制地崇拜大樣本、前瞻性臨床試驗以及基于這些試驗的meta-分析,,實在是一種迷信,。面對復雜的疾病生物現(xiàn)象,應該承認:第一代循證醫(yī)學及其背后的,、基于18-19世紀古典統(tǒng)計學思想的研究范式,,到了應該被揚棄的時候。
實事求是的觀點應該是:臨床數(shù)據(jù),,不論是來前瞻性試驗的,,還是來自于臨床日常工作中的,在經(jīng)過適當?shù)慕y(tǒng)一化和清理之后,,是具有同等應用地位的,。理想的新一代循證醫(yī)學方法,應當建立在廣泛性的原始數(shù)據(jù)開源基礎上,。
我們也深知,,大范圍的數(shù)據(jù)開源,還需等待一個較長的過程,。在逐步轉(zhuǎn)變的過程中,,對于經(jīng)過研究者整理的數(shù)據(jù),依然有很大的進行“二次研究”的需求和必要性,。在這過渡時期,,各學科應該加強對數(shù)據(jù)報告規(guī)范性的要求,引入并開發(fā)一些適合于這些數(shù)據(jù)的模型,。我們最近進行的一項對危重病患者最佳能量攝入?yún)^(qū)間的研究中,,就已經(jīng)發(fā)現(xiàn),與經(jīng)典的,、基于“專家經(jīng)驗”的meta-分析比較,,基于無偏倚聚類的機器學習是更為合理的對研究間相似性和異質(zhì)性進行判斷的方法。新一代醫(yī)學統(tǒng)計思路,應該基于謹慎細致的評估數(shù)據(jù)類型,,選擇最適合于數(shù)據(jù)的模型,。此即:“數(shù)據(jù)驅(qū)動,模型適應之”,,而非“模型驅(qū)動,,數(shù)據(jù)適應之”。
針對有關統(tǒng)計學數(shù)據(jù)報告的規(guī)范性和研究重現(xiàn)性問題,,我國知名統(tǒng)計學家謝益輝教授發(fā)布了基于R語言的一個工具包(package),。并倡導利用該工具包來撰寫動態(tài)的統(tǒng)計報告。這一研究范式,,可以很好的增加研究結果的可信性,,從而避免些統(tǒng)計方法的使用錯誤,有利于后來的研究者對已發(fā)表研究的數(shù)據(jù)進行深入利用和挖掘,。
因之,,必須將臨床數(shù)據(jù)與基礎研究的數(shù)據(jù)相互結合,使機制性解釋和臨床宏觀表型之間形成結合,,使臨床研究擺脫久已受人詬病的“黑箱模式”:其起點,,是細致的描述從分子機制到臨床過程的各種尺度上的復雜性。不再寄希望于僅僅使用“病死率”,、“并發(fā)癥率”、“住院時間”,、“靈敏度”,、“特異度”等很少一些指標來衡量臨床干預或診斷措施的成敗。一旦機理性和機制性過程能夠與臨床表型相結合,,我們就能發(fā)展出真正精準,、個體化的臨床評估體系。
需要強調(diào)指出,,循證醫(yī)學先驅(qū)們所開創(chuàng)的臨床研究哲學:以證據(jù)為基礎,,結合患者需求以及考慮衛(wèi)生經(jīng)濟的可持續(xù)發(fā)展,依然是強有力的,。新一代的醫(yī)生和科學家,,應當勇敢的接過前輩遞給我們的接力棒,直面挑戰(zhàn),,努力學習,,毫不猶豫地跨過學科之間的界限與鴻溝,發(fā)展出全新一代的循證醫(yī)學研究范式,。我們深信,,臨床醫(yī)學徹底的革命,或?qū)⒁晕覀冸y以預計的速度到來。解決世界性醫(yī)療資源緊缺難題的鑰匙,,也正蘊含于其中,。
(本文作者江華、楊浩,、彭謹,,單位均為四川省人民醫(yī)院。另北京協(xié)和醫(yī)院陳偉,,四川省人民醫(yī)院Charles Damien Lu對本文亦有貢獻,。)