如果在統(tǒng)計學上X事件變量與Y事件變量存在相關性,那么很多人會想當然的認為X事件造成或引起了Y事件,,但是事實并非如此,。來自Medscape的一篇報道著重分析了5種可能造成這種“似是而非”現(xiàn)象的原因。
1.反向因果關系
事實上,,當統(tǒng)計結果顯示X事件變量與Y事件變量存在相關性時,,“因X而出現(xiàn)Y”與“因Y而出現(xiàn)X”是在假設效力上是等價的。多數(shù)情況,,人們可以一眼看出兩者關系,,比如吸煙與冠心病之間的相關性問題上,,肯定是吸煙可能加劇冠心病,,反向關系幾乎不可能。
但是,,確實存在一些X與Y因果關系不明確的情況,,例如,NEJM雜志曾經(jīng)有一個研究關注糖尿病與胰腺癌的關系,,乍一看應該是糖尿病促進了癌癥進展,,但實際情況是糖尿病后于癌癥——胰腺癌破壞了大量胰島細胞,造成了糖尿病,。
反向因果關系涉及到流行病學研究中一個普通存在的問題——偏倚,,具體來說,這種因果關系倒置是一種特發(fā)性偏倚(protopathic bias),。例如,,探索母乳喂養(yǎng)和發(fā)育不良關系時,研究者發(fā)現(xiàn)越是虛弱的嬰兒,,其需要哺乳時間越長,,因此發(fā)育不良導致母乳攝入量增加。
類似的還有口服雌激素與子宮內(nèi)膜癌關系研究,,先入為主的觀念告訴我們前者是因,,實際情況是患者因子宮出血而服用口服激素,而出血可能由未被診斷出的子宮內(nèi)膜癌引起,。這也就解釋了當癌癥確診時,,給人的錯覺是雌激素口服在先。
2.隨機因素
每當一個研究指出X與Y相關性時,,有可能是隨機因素造成了這種相關性,。
很多人習慣采用P值檢測法來判斷相關性是否因隨機因素引起,但是研究指出,在許多情況下,,P值檢測法并不適用(參考文獻A Dirty Dozen: Twelve P-Value Misconceptions),。
我們以ISIS-2研究為例,該研究顯示心梗后服用阿司匹林可以減低患者死亡率,。但是一些亞組患者卻沒有收益——雙子座和天秤座患者,,P小于0.0001。我們可以一眼看出這是由于隨機因素導致的錯誤結果,。
另一個同樣有趣的試驗中,,研究者使用3個不同顏色的骰子來模擬臨床試驗或meta分析結果。在試驗中,,研究者一次投出兩個同色骰子,,若點數(shù)相加為6,則定義患者死亡,,否則生存,。研究結果顯示綠色骰子組與白色骰子組風險率顯著降低(P=0.02),而這明顯是因隨機因素造成的,。
換句話說,,隨機因素可以造成假陽性結果。多數(shù)研究者將其1型容錯率設置在5%,,但是如果研究涉及到多個亞組分析,,隨機因素的作用就被大大放大,例如,,同時開展2個亞組分析,,至少一個研究受隨機因素影響的概率為9.75%,而5個亞組時概率高達22.62%,。
如果我們進行10次統(tǒng)計,,按照上述P值標準,即使10個相關性都是假命題,,但是實際統(tǒng)計中,,研究者仍有40.13%的可能性得到一個虛假相關性。而多數(shù)研究包含多個亞組分析及不同的終點事件指標,,那么隨機因素造成虛假相關性的可能性顯著升高,。
可悲的是,一旦這種虛假相關性發(fā)表后,,那么其他陰性研究結果很難再有出頭之日,。消除這種隨機因素的方法很簡單——重復試驗、驗證結果,。相關統(tǒng)計結果顯示,,相當一部分研究的結果不是經(jīng)不起重復驗證,,就是無法重復。
我們可以試著估計一下發(fā)表文獻中假陽性的概率,。我們假設所有命題中有10%是真命題,,然后假定多數(shù)研究1型錯誤容錯率α為5%,2型錯誤β為20%,。通過簡單的2X2表格分析,,我們就能發(fā)現(xiàn)如果有125個陽性結果試驗,只有64個研究結果可信,。
換句話說,,約有三分之一陽性結果實際是假陽性,而且前提還是不存在偏移(下文述及)
3.偏倚
當變量X與變量Y不存在相關性時,,存在的偏移或改變最終的結果,,而我們開展研究的方法往往是造成偏移的原因之一。偏倚大致可分為選擇偏倚與信息偏倚,。
選擇偏倚的經(jīng)典例子莫如1981年NEJM發(fā)表的一篇關于咖啡與胰腺癌的研究,。該研究在入組對照組時產(chǎn)生了選擇偏倚——對照組患者有較高的消化道潰瘍發(fā)病率,為了避免加劇其癥狀,,該組患者幾乎不喝咖啡,,因此,該研究對照組無法代表一般人群的咖啡攝入水平,。
信息偏倚來自研究數(shù)據(jù)收集及分析中產(chǎn)生的系統(tǒng)誤差,而對于預后或暴露因素的不充分測量易產(chǎn)生錯分偏倚,。比如吸煙者聲稱自己不吸煙,,入組患者錯報自己體重情況。
回憶偏倚是一種特殊類型的偏倚,,指的是罹患某病的患者比對照組患者更容易回憶起暴露因素,。例如INTERPONE研究在觀察手機使用與腦部腫瘤時就發(fā)現(xiàn),無論是對照組還是實驗組,,患者都高估了自己已往手機使用情況,。
生態(tài)謬誤是另一個有趣的偏倚類型,指的是人們錯誤的認為人群水平的因素暴露情況適用于個體患者風險評估,。例子就是NEJM發(fā)表的一篇關于巧克力與諾貝爾獎的研究,,研究指出人們吃巧克力從而更可能得諾獎,實際情況應反過來——這些諾獎得主在吃巧克力,。
還有一種生態(tài)謬誤是關于身高與壽命——越矮的人,,活的越久。但是研究者僅從國家水平的數(shù)據(jù)去分析,,忽視了個體水平的分析,,所以得出了這種荒謬的結論,。
4.混雜因素
不同于偏倚,混雜因素存在于兩變量具有相關性的時候,,且可以改變兩者相關性強度,。另一方面,偏倚是“人造物”,,而混雜因素是“自然的禮物”,。
例如,由于糖尿病可以引起腎衰與心臟病,,所以其混雜了腎衰與心臟病的關系,。當研究者評估兩者相關性時,如果不考慮糖尿病的固有風險,,其相關性將被大大高估,。
混雜因素是所有研究與生俱來的,很難完全清除,。我們可以通過統(tǒng)計學調(diào)整規(guī)避這種影響,,但是不必要變量的過度調(diào)整會再造成偏倚。
這時候我們需要通過隨機化來消除混雜因素,。當每組元素都是在完全隨機的條件下分配入組的,,那么其混雜因素也是均勻分布的。前提是研究接受隨機化處理是合理有效的,。
5.風險夸大
現(xiàn)在,,讓我們做個假設——如果我們順利的闖過了前四關,最大的危險依然存在,,使我們曲解研究數(shù)據(jù),。曾有研究指出黑人接受血管造影的可能性比白人低40%,引起軒然大波,,但實際上如果該研究用風險比代替比值比,,數(shù)據(jù)急降至7%。
上述問題說明最后關頭,,選擇正確的統(tǒng)計工具十分重要,。就比值比問題而言,早在20年前就有研究者呼吁“放棄比值比”,,但是這么多年過去了,,人們還在使用這個指標。
“相對風險VS絕對風險”是風險夸大另一個原因,,雖然絕對風險更為實用,,但是有研究顯示大多數(shù)研究不使用該指標。另一方面,,對于相對風險的過度依賴造成了數(shù)據(jù)誤讀,。
例如,,有研究指出喝一杯咖啡后一小時內(nèi)心梗相對風險為1.5(風險升高50%),而有讀者尖銳評判了該研究的統(tǒng)計方式——如果將1.5相對風險換算為絕對風險,,等效于喝兩百萬杯咖啡引起一次心梗,。這也告訴我們有統(tǒng)計學意義的結果不一定有臨床意義。
結語
上述這些因素確實會造成研究出現(xiàn)偏差,,因此我們一方面在以后的研究中盡力消除這些負面影響,,一方面也早保持一種懷疑態(tài)度,證實這種質(zhì)疑促進了科學的進步,。正如BMJ雜志說的那樣“雖然循證醫(yī)學存在缺陷,,但這是我們現(xiàn)在擁有的最好的研究體系?!?/p>