貝葉斯統計的教學研究
來源:用戶上傳
作者:
【摘 要】目前貝葉斯思想還未真正融入大學課堂,實際教學中弱化了貝葉斯統計的思想和應用。貝葉斯統計在處理極端問題時往往比極大似然更符合人們的理念,更顯著反映數據的指向性。近年來貝葉斯統計為牽引的隨機模擬技術的蓬勃發展,使得大量的驗證性試驗可以通過計算機模擬完成,更加拓展了應用范圍。文中就貝葉斯統計闡述了教學過程中的一點思考和研究。
【關鍵詞】貝葉斯統計;極大似然;隨機模擬
中圖分類號: O212.8-4 文獻標識碼: A 文章編號: 2095-2457(2019)11-0249-002
DOI:10.19694/j.cnki.issn2095-2457.2019.11.119
【Abstract】At present, Bayesian thought has not really been integrated into the university classroom, which weakens the thought and application of Bayesian statistics in practical teaching. Bayesian statistics tend to be more consistent with people’s ideas than extreme likelihood when dealing with extreme problems, and more significantly reflect the directionality of data. In recent years, the rapid development of the random simulation technology of Bayesian statistics as traction has enabled a large number of validation tests to be completed by computer simulation, which has further expanded the scope of application. This paper expounds a little thinking and research on Bayesian statistics in the teaching process.
【Key words】Bayesian statistics; Great likelihood; Random simulation
頻率學派,也稱經典學派,使用了兩種信息[1]:總體信息和樣本信息,例如極大似然估計(Maximum Likelihood Estimate,MLE),完全依賴已知的模型和樣本數據,即利用了總體信息和樣本信息,思想是找到使得樣本發生概率達到最大的量作為參數估計。貝葉斯統計在重視使用總體信息和樣本信息的同時,還注意先驗信息的收集、挖掘和加工,使它數量化,形成先驗分布,參與到統計推斷中來,以提高統計推斷的質量。貝葉斯估計最基本的觀點是將任一未知量都看作隨機變量,根據以往的認知,給予其分布,稱為先驗分布,而后利用貝葉斯定理,綜合考慮未知量的先驗信息、模型信息和樣本信息,得到未知量的后驗概率分布,一般以后驗期望作為估計值。
目前課程中的貝葉斯統計的思想體現還不夠。非數學專業的課本中僅有貝葉斯公式,且帶有概率計算的色彩,遠遠沒有展示貝葉斯統計本來的技術性特點,而其被弱化現象的背后是當前教學和實際運用脫節的反映。事實上,近三十年來,以貝葉斯統計為牽引的隨機模擬技術得到蓬勃發展,使得大量的驗證性試驗可以通過計算機模擬完成。然而當下的教學中,隨機模擬的色彩不濃,面向實際的模擬設計有待加強。下面我就貝葉斯統計的教學研究談一些想法。
1 貝葉斯統計與極大似然
貝葉斯統計[1]匯集了先驗和似然的信息,將傳統意義上的參數θ也視為隨機變量,根據經驗信息得到其先驗分布π(θ)。在取得樣本數據之后,參數的信息集中于其后驗分布π(θ|x),其密度函數的表達,分為以下幾個步驟:
(1)總體依賴于參數θ的概率密度在貝葉斯統計中記為p(x|θ),表示隨機變量θ取某個給定值時總體的條件概率密度。
?。?)根據參數θ的先驗信息確定隨機變量θ的先驗分布π(θ)。
?。?)樣本X=(x1,x2,…,xn)的聯合條件概率為p(X|θ)=p(x1,x2,…,xn|θ),綜合了總體信息和樣本信息,與極大似然估計中的似然函數沒有什么不同。
(4)由于參數θ被看做是一個隨機變量,其取值可能性也有考慮進去,寫出樣本X和參數θ的聯合分布g(X,θ)=p(X|θ)π(θ),將總體信息、樣本信息和先驗信息都納入進來。
?。?)目標是未知參數θ。在無樣本信息時,只能根據先驗信息對θ做出推斷。在有了樣本信息后,可以根據上述聯合分布對參數θ做出推斷,分解為
稱為參數θ的后驗分布。它集中了總體、樣本和先驗中有關θ的一切信息,相當于用總體和樣本信息對先驗分布π(θ)做出調整得到其新的分布,他要比π(θ)更接近現實情況。根據后驗分布密度函數,取其函數最大值點或者期望作為參數θ的點估計。
這個步驟在講授當中應詳細說明,尤其要闡述清楚貝葉斯學派的三種信息如何體現在具體操作中,舉例說明貝葉斯估計的實現過程,理論與實踐相結合,而對于先驗如何選取要在后面的課程中單獨說明。不僅如此,為了更好地體會貝葉斯估計的自然合理性,應舉例與極大似然估計相比較。例如在產品檢驗中,只區分合格品(記為1)和不合格品(記為0),則隨機變量X服從兩點分布g(x|θ)=θx(1-θ)1-x,x=0,1,參數θ未知。若給定觀測樣本x=1,或者多次觀測全為1時,經典的極大似然估計為1,若給定觀測樣本x=0,或者多次觀測全為0,經典的極大似然估計為0。顯然這與人們的認知不符。而貝葉斯觀點,將參數θ看做一個隨機變量,先驗分布為π(θ),不妨假設為均勻分布。根據公式(1)可得參數θ的后驗分布 π(θ|x)=2θx(1-θ)1-x,θ∈(0,1)。
當觀測樣本x=1時,則
π(θ|1)=2θ,E(θ|1)=2/3,
若兩次觀測值均為1,則
π(θ|(1,1))=3θ2,E(θ|(1,1))=3/4,
依次下去,可得當抽取10個全為正品時的貝葉斯估計為11/12。這說明抽檢1個是合格品,和抽檢10個是合格品,在人們心目中留下的印象是不同的,后者要比前者更信得過,但是極大似然估計并反映出來(均為1)。
當觀測數據為0時,參數θ的后驗分布
π(θ|0)=2(1-θ),E(θ|1)=1/3,
當兩次觀測數據均為0時,參數θ的后驗分布
π(θ|(0,0))=2(1-θ)2,E(θ|1)=1/6。
依次下去,具體如下表1所示。
表1 極端樣本數據下的貝葉斯估計值
顯然貝葉斯估計具有明顯的數據指向性。在抽樣數據極端情況下,貝葉斯估計比極大似然估計更符合人們對事物的認知。通過這樣的例題可以更直觀地感受貝葉斯估計運用先驗信息的優勢所在,推斷更加全面,應該在教學中被充分體現。
2 貝葉斯統計與隨機模擬
貝葉斯估計的目標是的后驗分布,因此考慮的重心是后驗分布的模擬,這樣就淡化了似然函數計算的瓶頸。因為實際應用中,若數據模型的似然函數過于復雜就無法使用經典方法估計其中參數;若數據來源于隨機過程模型時,可能無法寫出觀測的似然函數,進而無法利用經典統計方法估計其中參數。對于貝葉斯估計來說,雖然無法完整的計算出后驗分布,但仍可借助MCMC抽樣[2]得到來自后驗分布的隨機樣本,從而得到后驗分布的密度函數,得到θ的貝葉斯估計。近些年來近似貝葉斯計算(ABC)[3]的出現更是緩解了后驗分布樣本抽取困難的問題。
參數的推斷問題實際上是隨機模擬技術的應用問題。針對模型的不同,后驗分布形式的不同,學習相應的隨機模擬技術是現今課堂上所欠缺的。有必要將這些內容融入到統計課堂教學中,如講解完常見分布之后增加相應的模擬方法;在講述大數定律時,給出隨機模擬在計算積分中的作用,例如LOOKUP離散模擬,接受拒絕抽樣法;講述極大似然估計時,針對含有潛在變量模型的極大似然估計給出EM算法;在貝葉斯理論中增加MCMC和ABC思想,增強課程的實踐性,真正實現學以致用,知行合一。
3 結語
大數據時代的到來,引起了包括統計學在內的各種技術革命。貝葉斯理論作為其中重要的一部分,席卷了概率論,并將應用延伸到各個問題領域,所有需要作出概率預測的地方都可以見到貝葉斯方法的影子。作為教師,只有密切跟蹤統計學理論和方法的發展前沿,才能將知識更好的傳授給學生,讓受教育者切實體會到貝葉斯統計的魅力所在,更進一步理解統計的意義,掌握統計學技術。課堂教學中和經典統計對比,首先指出經典統計在處理實際問題中的局限,然后給出貝葉斯統計的理論框架和處理思路,再探討貝葉斯統計實施的關鍵問題和處理技術,最后借助案例演示貝葉斯統計的優勢。
【參考文獻】
[1]茆詩松,王靜龍,濮曉龍.高等數理統計[M].高等教育出版社,2016.
[2]Beaumont M A, Zhang W, Balding D J. Approximate Bayesian Computation in Population Genetic[J].Genetics, 2002,162, 2025-2035.
[3]D. J.Wilkinson. Stochastic Modelling for Systems Biology[M].Taylor & Francis Group, LLC, 2012.
轉載注明來源:http://www.hailuomaifang.com/8/view-14839741.htm