10 विफलताओं तक नमूने द्वारा बर्नौली प्रक्रिया में संभावना का अनुमान लगाना: क्या यह पक्षपातपूर्ण है?


15

मान लीजिए कि हमारे पास विफलता की संभावना q (जो कि छोटी, कहते हैं, q 0.01 ) के साथ एक बर्नौली प्रक्रिया है जिसमें से हम 10 विफलताओं का सामना करने तक नमूना लेते हैं । हम इस तरह के रूप में विफलता की संभावना का अनुमान क्ष : = 10 / एन जहां एन नमूनों की संख्या है।qq0.0110q^:=10/NN

प्रश्न : क्या क्ष एक पक्षपाती अनुमान के क्ष ? और, यदि हां, तो क्या इसे ठीक करने का कोई तरीका है?q^q

मुझे चिंता है कि पिछले नमूने पर जोर देने से अनुमान विफल हो जाता है।


5
वर्तमान उत्तर न्यूनतम विचरण निष्पक्ष अनुमानक प्रदान करने से कम रोकते हैं । नकारात्मक द्विपद वितरण पर विकिपीडिया लेख का नमूना और बिंदु अनुमान अनुभाग देखें । (101)/(N1)
ए। वेब

जवाबों:


10

यह सच है कि है क्ष का एक पक्षपाती अनुमान है क्ष इस अर्थ में कि ( क्ष ) क्ष , लेकिन आप जरूरी यह आप रोकते नहीं करना चाहिए। इस सटीक परिदृश्य का उपयोग इस विचार के खिलाफ आलोचना के रूप में किया जा सकता है कि हमें हमेशा निष्पक्ष अनुमानकर्ताओं का उपयोग करना चाहिए, क्योंकि यहां पूर्वाग्रह उस विशेष प्रयोग की एक कलाकृतियों से अधिक है जो हम करते हैं। डेटा बिल्कुल वैसा ही दिखता है, जैसा कि हमने पहले ही नमूनों की संख्या को चुन लिया था, इसलिए हमारे इंफ़ॉर्मेंस में बदलाव क्यों होना चाहिए?q^qE(q^)q

दिलचस्प बात यह है कि अगर आप इस तरह से डेटा एकत्र करते हैं और फिर दोनों द्विपद (निश्चित नमूना आकार) और नकारात्मक द्विपद मॉडल के तहत संभावना समारोह लिखते हैं, तो आप पाएंगे कि दोनों एक दूसरे के लिए आनुपातिक हैं। इसका मतलब है कि क्ष नकारात्मक द्विपद मॉडल है, जो निश्चित रूप से एक पूरी तरह से उचित अनुमान है के तहत सिर्फ साधारण अधिकतम संभावना सुविधा है।q^


महान! ऐसा लगता है कि (मेरे उद्देश्यों के लिए) यह पूर्वाग्रह कोई मुद्दा नहीं है।
बेकी

9

यह जोर नहीं दे रहा है कि अंतिम नमूना एक असफल है जो अनुमान को पूर्वाग्रह करता है, यह एन का पारस्परिक ले रहा हैN

तो आपके उदाहरण में q लेकिन E[10E[N10]=1q। यह अंकगणितीय माध्य को हार्मोनिक माध्य से तुलना करने के करीब हैE[10N]q

बुरी खबर यह है कि पूर्वाग्रह बढ़ सकता है क्योंकि छोटा हो जाता है, हालांकि बहुत अधिक नहीं है क्यू कि पहले से ही छोटा है। अच्छी खबर यह है कि पूर्वाग्रह कम हो जाते हैं क्योंकि विफलताओं की आवश्यक संख्या बढ़ जाती है। ऐसा लगता है कि यदि आपको f विफलताओं की आवश्यकता है , तो पूर्वाग्रह f के गुणक कारक द्वारा ऊपर से घिरा हुआ हैqqf छोटीक्यू केलिए 1 ; जब आप पहली असफलता के बाद रुक जाते हैं तो आप यह दृष्टिकोण नहीं चाहते हैं ff1q

विफलताओं के बाद रोकना , क्यू = 0.01 के साथ आपको [ एन10q=0.01लेकिन [10E[N10]=100, जबकिq=0.001 के साथआपकोE[NमिलेगाE[10N]0.011097q=0.001लेकिन [10E[N10]=1000। लगभग10का एक पूर्वाग्रहE[10N]0.001111 गुणक कारक 109


7

q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

E[q^]0.022q^

q_hat का हिस्टोग्राम


1
यह वास्तव में सहायक है। उस स्तर पर, यह मेरे बारे में चिंता करने लायक नहीं है।
बेकी

2
आप इस अनुकार को और अधिक संक्षेप में लिख सकते हैं10+rnbinom(10000,10,0.02)
ए। वेब

@ A.Webb धन्यवाद, यह एक अच्छी बात है। मैं वास्तव में पहिया को मजबूत कर रहा था। मुझे पढ़ने की जरूरत है? Rnbinom और फिर मैं अपनी पोस्ट संपादित करूंगा
एड्रियन

1
वह होगा 10/(10+rnbinom(10000,10,0.02))। पैरामीटराइजेशन ट्रायल की कुल संख्या के बजाय सफलताओं / असफलताओं की संख्या के संदर्भ में है, इसलिए आपको k = 10 वापस जोड़ना होगा। ध्यान दें कि निष्पक्ष अनुमानक 9/(9+rnbinom(10000,10,0.02)), अंश और हर में कम होगा ।
ए। वेब
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.