在线亚洲AV日韩AV综合AV,国产订精品电影,久久国产精品蜜

      <thead id="u9ncv"><del id="u9ncv"><rp id="u9ncv"></rp></del></thead>

        <thead id="u9ncv"></thead>

        <thead id="u9ncv"><s id="u9ncv"></s></thead>

          <strike id="u9ncv"></strike>
          <table id="u9ncv"><form id="u9ncv"></form></table>
        1. <strike id="u9ncv"></strike>
        2. 使用幫助 | 聯系電話:400-880-0256 0769-23037585 21686281

          當統計學遇上大數據——P值消亡

          作者:admin 發表于:2014-08-07 點擊:1063  保護視力色:

          ???有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子里,

          ? ? ? ??“P值為零”,

          ? ? ? ??一個聲音傳來,

          ? ? ? ??“但你已經不能再拒絕,因為,P值已經死了”

          ? ? ? ??從此,這個世界上充斥著謊言。

          一、一個悲傷的故事:破滅的年少成名之夢

          ? ? ? ??首先跟大家說一個悲傷的故事,該故事來源于nature最近發布的一篇文章“statistical errors”,我把這個故事叫做“破滅的年少成名之夢”

          ? ? ? ??話說,弗吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。

          ? ? ? ??他做了一項關于關于政治極端分子的行為研究,樣本大約有2000個人群,結果發現,相比較政治極端分子,政治溫和派似乎更能辨別不同色度的灰色。

          ? ? ? ??莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果“非常顯著”。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。

          ? ? ? ??由于擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重復實驗,但是,在添加了新的數據之后,P值變成了0.59,這連0.05的顯著性水平都沒有達到!

          ? ? ? ??傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。

          ? ? ? ??實際上,問題并不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,“P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用?!?/p>

          ? ? ? ??為什么呢?為什么P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,并從中尋找答案吧。

          二、P值和假設檢驗的歷史

          1. 拉普拉斯

          ? ? ? ??P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對于這個無法解釋的“超越”,他計算了一個叫做“P值”的東西,以確定這個“超越”是真實的(Stigler 1986, P.134)。

          2. KarlPearson

          ? ? ? ? 很多統計學家誤以為關于P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關于卡方檢驗的文章當時被發表在《哲學雜志》上,文章中一同被介紹的,還有一個被叫做“P值”的東東,見史料。

          3. Fisher

          ? ? ? ??P值能風靡學術界這么多年,費雪是第一推手,被他推動的除了P值,還有被稱為“費雪學派”(Fisherian)的假設檢驗思想。簡單介紹下他的思想:

          ? ? ? ??如果我們想要檢驗一個樣本是否來自某個分布已知的總體,首先要建立一個“原假設”(null hypothesis),比如,下圖的例子我們假設該樣本來自正態總體N(m0,σ),那么原假設為:

          H0:m=m0

          ? ? ? ??但實際上我們得到的樣本均值不是m0,而是,那么Fisher他老人家當時的想法是:在一個樣本均值為m0的正態總體中,抽樣得到這個均值為的樣本的幾率會有多大?我要是能計算出這個概率,就知道“這個樣本來自該總體”這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那么就可以認定這個假設是錯的。這就是假設檢驗里的“小概率事件原理”,這個概率就是后來風靡學術界的“P值”,一般認為概率小于5%,就是不靠譜的事情,則需要拒絕原假設。

          ? ? ? ??到此為止,Fisher大神只字未提“備擇假設”,也從沒說任何關于“接受”某個假設的事情,在Fisher的檢驗哲學里,

          • 檢驗是基于無限總體中抽出的一個(注意是一個)樣本;
          • 顯著性檢驗的基礎是基于原假設而得出的假想概率,這些檢驗不能導出任何關于真實世界的概率論斷。

          ? ? ? ??因此,費雪以及他的P值檢驗思想,從來沒有涉及到“備擇假設”的概念,沒有被認為可以用來證明某個假設是對的。

          4. Neyman-Pearson

          ? ? ? ??后來流行的“備擇假設”的概念是在另一個重要的檢驗思想里提出的,即Neyman-Pearson(以下簡稱N-P)檢驗思想。N-P學派發源于費雪的思想,但卻與之不太一樣,他們兩派相互爭論了很多年。相比較于Fisher學派,Neyman他們主要有三個不同:

          (1) 引入備擇假設

          ? ? ? ??Neyman本人曾說,“接受一個假設H,僅僅意味著采用決策A要比決策B好,并不能說明我們必須要相信假設H就是對的?!?/p>

          (2) 引入兩種錯誤:第一類錯誤和第二類錯誤

          ? ? ? ??第一類錯誤是指拒絕了一個正確的原假設(α),第二類錯誤是指接受了一個錯誤的原假設(β);

          ? ? ? ??Power=1-β,被稱為檢驗效力,它代表著拒絕一個錯誤假設的概率;

          ? ? ? ??N-P的檢驗思想是,控制第一類錯誤(一般事先給定),使得第二類錯誤的值越小越好,即power越大越好。

          (3) 使用拒絕域來進行檢驗

          ? ? ? ??在N-P的思想框中,完全沒有提到P值,他們使用拒絕域來對假設進行判別,具體檢驗思想見下圖:

          (4) 錯誤的混合

          ? ? ? ??比較以上兩個檢驗我們發現,Fisherian和N-P的檢驗思想完全不同,

          • 費雪學派的P值檢驗思想,沒有涉及備擇假設,也從來沒有被嚴格證明可以用來證明某個假設是對的。實際上,當我們抽取的樣本變化時,得到的P值也會變化,結論也會隨之變化。
          • N-P學派使用備擇假設,在判定是接受還是拒絕某個假設的時,同時會給出兩類錯誤以及power作為輔助參考,但是該學派(包括Neyman本人)從來不承認“P值”這個東西。雖然樣本不同,他們的結論也會不同,但是N-P方法會在每個結論的后面給出相應的power,說明該結論的靠譜程度,相對于P值檢驗,這個方法更加規則嚴密。
          • Fisher和Neyman兩人知道對方的觀點,但是彼此都不能相容,Neyman批評Fisher的某些工作從數學上講比“毫無用處”還糟,Fisher對Neyman方法給出的評價是“無比幼稚”、“在西方學界中簡直駭人聽聞”(Nuzzo,2014)。

          ? ? ? ??然而后世的許多統計學家錯誤的將兩個方法進行了混合,衍生出這樣的判別標準,即:

          ? ? ? ??用p<α作為判斷標準,以決定接受原假設還是備擇假設

          ? ? ? ??如Gibbons(1986,p.367)說:“P值與古典方法(即Neyman-Pearson)的關系是,如果p<=α,我們就要拒絕H0,如果p>α,我們就要接受H0?!?/p>

          三、悲劇的結論

          ? ? ? ??梳理完P值和假設檢驗的歷史,你應該知道為什么羅斯福大學的經濟學家史蒂芬說,“P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用?!绷?,因為P值從來沒有被證明可以用來接受某個假設,即使是拒絕假設,也是基于某個樣本得出的結論,當樣本變動時,結論很可能也會變動。

          ? ? ? ??P值檢驗會如此不靠譜?其實,Fisher本人對統計檢驗的觀點更加悲觀,他認為,統計學的功能僅僅在于歸納推論(inductive inference),而不是歸納行動(inductive behavior);統計檢驗應該止于歸納結論,而不涉足于行動判斷(Lv,2012)。

          ? ? ? ??這是一個悲劇的結論,不僅對夢碎的莫德爾老兄,也對所有運用統計學的研究者。

          四、解決之道

          ? ? ? ??面對“P值至上”的種種惡果,統計學家們給出了其他的解決方法,

          • 避免使用“顯著”或“不顯著”來進行判斷。如心理學家Cumming建議,研究者應當給出置信區間和power,以讓讀者明白研究結果的靠譜程度。
          • 使用貝葉斯等決策方法。下圖是貝葉斯的判斷準則,沒有P值的參與。
          • 對同一個數據使用多種方法進行分析。結果越是不同,就越有可能出現重大的發現。

          ? ? ? ??數說君曰:P值死了,這是統計學的重生.

          在线亚洲AV日韩AV综合AV,国产订精品电影,久久国产精品蜜