據中國報告大廳了解,數十年來,有關政治決策應該依靠科學的要求早已成為老生常談。但是,在從能源到健康再到環境等諸多領域中,將科學應用於政治決斷的過程依然存在一系列問題。
英國劍橋大學動物系保護生物學教授William J. Sutherland、數學科學中心的David Spiegelhalter,以及澳大利亞墨爾本大學的Mark Burgman如今提出了應該成為公務員、政治家、政治諮詢顧問和記者教育一部分的20條概念。
「當然,其他人也許會有不同的列表。我們認為,一旦能夠充分理解這20個概念,社會將向前邁出一大步。」他們在《自然》雜誌上撰文指出。
差異和偶發原因變化。現實世界的變化難以預測。科學在很大程度上是要尋找究竟是什麼引發了人們看到的模式,為何這個十年比過去更熱以及為何一個地區的鳥類比其他地區更多。此類趨勢有許多解釋,因此研究的主要挑戰是梳理出有趣過程的重要方面,例如,氣候變化對鳥類種群的影響。而重要方面往往隱含了其他的許多變化原因,例如農業集約化、入侵物種,以及影響出生和死亡的偶發事件等。
沒有測量是準確的。實際上,所有的測量值都存在某些錯誤。如果測量過程被重複,人們可能會記錄到不同的結果。在某些情況下,測量誤差可能比實際偏差要大。如果你被告知上月的經濟增長了0.13%,那麼也有可能實際經濟在收縮。
偏見很普遍。實驗設計或測量工具可能產生一個給定方向的非典型結果。例如,在街上、家裡或通過網絡調查詢問人們的投票行為,涉及的樣本可能是不同的人群,他們會有不同的回答。另外,研究還可能因期望值而出現偏差:參與療法實驗的人可能假設自己會有不同的經歷,因此出現行為偏差。
更大樣本量通常更好。從大量觀察中提取的平均結果與從少量觀察中獲得的結果相比通常更具信息量。換言之,當我們在積累證據時,我們的知識量在提高。當研究被大量自然變異和測量錯誤環繞時,這尤為重要。例如,一個藥物試驗的參與者多達數萬人時,其結論的有效性要比僅有數百人參加的類似實驗更高。
相關性不蘊含因果聯繫。假設一個事件引起另一個事件,十分吸引人,但是,相關性可能純屬巧合,或者可能是由第三個事件引起的兩個事件的共同結果—— 一個「混合」或「潛伏」變量。例如,生態學家曾認為有毒藻類會殺死河裡的魚,但實際藻類並沒有引起魚的死亡。
回歸意味著能夠誤導。至少在某種程度上,數據的極端模式很可能是由偶然或錯誤引起的異常現象。接下來的數據可能沒有那麼極端。例如,測速相機被放置在交通事故頻發地段,但是事故率的減少並不是因為這架相機,無論如何發生率都可能降低。
數據外的推斷都有風險。在一個給定範圍內發現的模式未必適用於其他範圍。例如,當變化速率比現有物種的進化史更快,或極端氣候可能完全是新型的時候,預測生態系統對氣候變化的應答將非常困難。
注意基礎機率謬誤。用一個不完美的測試來確定一種狀態的能力,取決於該狀態發生的可能性(基準利率)。例如,一個進行血液測試的人,有99%的準確率患有一種稀有疾病且測驗呈陽性,但是他們也可能不會患這種病。如果10001個人進行測試,其中只有1人有病,那個人幾乎可以肯定有一個陽性結果,但也可以說有100個人(1%)會患病,即使他們沒患病。
對照是重要的。除了特定療法沒有施用外,一個對照組的處理方法與實驗組是完全一樣的。沒有對照組就很難確定一個給定療法是否有效。對照可以幫助研究人員確信沒有混雜變量影響結果。
隨機化避免偏見。只要有可能,實驗應該隨機分配個人或團體。對照兒童的教育成就時,採用健康計劃的父母與未採取的父母可能會出現偏斜,例如,受教育越好的家庭越傾向於參與該項目。一個精心設計的項目應隨機選擇接受項目的人。
尋求複製而非偽重複。能夠被獨立研究小組重複的研究結果可能更可靠。幾個這樣的實驗結果可能合併成系統回顧和薈萃分析,從而提供該主題的總體觀點,這比任何獨立的研究更具統計功效。
科學家是人。科學家在推動自己的工作方面有既得利益,通常出於身份和進一步研究,儘管有時也因為直接的經濟收益。這可能導致有選擇地報告結果和偶爾誇大其詞。同行評議並不絕對可靠:報紙編輯更喜歡正面結果和新聞價值。多樣化、事件的獨立信源和複製更能令人信服。
意義是重大的。用P表示的統計顯著性表示一個結果發生的偶然性。P=0.01意味著一個治療的效果發生的機率是1%,但實際上可能並沒有效果。
從無意義中分離不出影響。統計上的顯著結果的缺失,並不意味著沒有潛在影響:它意味著沒有發現影響。一項小型研究可能沒有能力發現一個真正的區別。
效應量很重要。小規模應答不太可能被發現。一個重複多次的研究可能導致具有統計顯著性的結果,但只是有一個較小的效應量。不過,一個效應量的影響因素是生物學、物理學或社會學問題,而不是統計學問題。上世紀90年代,《流行病學》期刊要求作者在遞交的手稿中不要使用統計顯著性,因為作者通常會曲解顯著性實驗的意義,從而為公共健康政策提供無效或誤導的建議。
研究相關性會限制概括。從動物到實驗室試驗再到人類的概括過程存在限制。
感覺影響風險感知。概括地講,風險可以被認為是某段時間裡一個事件發生的可能性,乘以該事件可能出現的結果。人們的風險感知受到許多東西的不成比例的影響,其中包括事件的稀有度、他們認為能在多大程度上控制,以及風險自發與否等。例如,美國人將家裡擁有手槍的風險低估了100倍,卻把住宅附近有核反應堆的風險擴大了10倍。
依賴關係改變風險。計算極端潮汐、暴雨等單個事件的風險存在可能性。但是,如果是相互關聯的事件(例如風暴引起潮汐或大雨阻止工人進入某地),那麼它們同時發生的機率比預想中的高。信用評級機構斷言,次級抵押貸款集團有一個非常低的違約風險,是2008年信貸市場崩潰的重要因素。
挖掘或遴選數據。人們能夠對事件進行安排,以便支持某個觀點。要解釋孕婦食用酸奶和後代出現哮喘兩者之間的關係,一個是需要了解作者是否著手測驗這個單獨的假設,或者利用巨大數據集得出結論。相比之下,希格斯玻色子的證據與研究人員多麼努力地尋找它有關。
極端測量可能產生誤導。任何測量(例如給定學校的效益)將顯示天賦能力(教師能力)差異產生的可變性,加上樣本(孩子),加上偏見和測量誤差(不同學校的產出結果可能採用不同的測量方法)。但是,由此產生的變化通常只解釋天生能力的差異,但忽略了其他因素。這變成不確定的陳述描繪一個極端產出(及格率翻倍),或者用平均值比照極端量級(學校X的及格率是國家平均值的3倍)或範圍(最高或最低的學校之間的差異為 x倍 )。