改進的二項分布模型及其參數估計
來源:用戶上傳
作者:
摘要:二項分布b(n,p)是一種應用較為廣泛的離散型分布.在實際應用中,常常需要對參數p進行估計;但當總體參數p較小時,樣本中目標事件出現的頻率為0,此時對參數p采用傳統的矩估計具有一定的局限性,使其估計結果出現=0.針對這種局限性,本文提出一種基于二項分布的改進模型,該模型及其估計方法在一定程度上能克服傳統矩估計方法在處理參數p較小時的不足.
關鍵詞:二項分布;改進模型;參數估計
中圖分類號:O212 文獻標識碼:A 文章編號:1673-260X(2019)06-0009-02
1 引言
對于二項分布b(n,p)中抽取的樣本,若p較小,樣本中目標事件出現的頻率極低,甚至為0;此時該如何對總體參數p進行估計?利用傳統的矩估計和極大似然估計,得到的=0,該結果幾乎沒有意義,因為可能根據對事件的認知發現概率不可能為0;國內外已有對二項分布中比例參數估計改進的相關研究,張學新[1]針對p值接近于0或1的極端情形下對17種置信區間的選擇方法進行比較.Alan Agresti[2]等人對分類數據分析中參數的最優置信區間進行了探討.徐鵬鵬[3]針對二項分布應用的局限性,通過構造矩方程和極大似然方程可求出估計參數.
2 二項分布的簡介
隨機試驗中僅有兩個結果A與A,且A發生的概率P(A)=p;對于該隨機試驗獨立重復進行n次,則稱為n重伯努利試驗.若以隨機變量X表示n重伯努利試驗事件發生的次數,則在n重伯努利試驗中事件A發生k次的概率
P(X=k)=Cnkpk(1-p)n-k k=0,1…n
上式稱為二項分布[4],記為X~b(n,p).
對該模型中參數p進行估計,若采用傳統的矩估計和極大似然估計方法得出=(k表示樣本中目標事件發生的次數).
由于二項分布中概率計算的復雜和煩瑣性,尤其當參數n較大時.針對二項分布在一些特殊情形下,有不同的近似計算方法.比如利用泊松定理、棣莫弗-拉普拉斯中心極限定理分別給出了二項分布的泊松近似、正態近似[1].
3 基于二項分布改進的模型
3.1 模型的構建
在實際實驗中,由于試驗場地、人員、設備等條件的影響,試驗單元的個數受到了限制;假設一次試驗中有n個試驗單元;若這n個試驗單元中目標事件發生的次數獨立的服從b(n,p),上述試驗可以看作一次n伯努利試驗.若研究的目標事件發生概率極小,則在一次n重伯努利試驗中該事件未發生,此時若對參數p進行估計得到=0;根據對事件的認知,該事件發生的概率肯定不為0,可以得出該估計顯然不合理;例如,國外有一項研究在車險定價中需估計汽車保險杠在一次碰撞中脫落的概率,該事件發生的概率較小;若采用重復試驗的方式進行研究,重復試驗的次數會受到場地和設備的限制,會出現試驗已全部進行完目標事件仍未發生.
針對上述問題,本文構建如下模型:
第1次n重伯努利試驗,若事件A發生的頻率為0;則進行第2次n重伯努利試驗,若事件A發生的為頻率0;則繼續進行第3次n重伯努利試驗……直到出現事件A發生的頻率不為0為止,記發生在第K次n重伯努利試驗.以隨機變量Y表示事件A在第K次n重伯努利試驗中發生的次數.
假設事件發生的概率為p,各試驗單元之間是相關獨立的.離散型隨機變量Y的分布列可表示如下.
4 結語
二項分布是現實生活中常見的一種分布,應用范圍較廣;實際應用中涉及參數p的估計問題,傳統的矩估計和極大似然估計方法適用的范圍是參數p不宜過小.對于一些小概率事件傳統的矩估計和極大似然估計極易出現估計值為0,導致與現實不符.本文提出了一種基于二項分布的改進模型,在一定程度能克服傳統估計方法的不足.
參考文獻:
〔1〕張學新.極端頻率情形下二項分布比例置信區間的比較[J].重慶師范大學學報(自然科學版),2016,33(3):91-97.
〔2〕Agresti A,Coull B. Approximate better than‘exact’for Cls for binomial parameters[J].American Statistician,2008,52:119-126.
〔3〕徐鵬鵬,蘇本躍.改進二項分布的性質及其應用[J].安慶師范學院學報(自然科學版),2016,22(4):11-13.
〔4〕盛驟,謝式千,潘承毅.概率論與數理統計[M].北京:高等教育出版社,2009.
〔5〕張艷.談二項分布的近似計算及其在保險問題中的應用[J].雞西大學學報,2012(1):45-46.
轉載注明來源:http://www.hailuomaifang.com/1/view-14920256.htm