एक ही आबादी के कई नमूने से चौराहे की संभावना


10

यहाँ एक उदाहरण मामला है:

  • मेरी आबादी 10,000 वस्तुओं की है। प्रत्येक आइटम की एक विशिष्ट आईडी होती है।
  • मैं बेतरतीब ढंग से 100 आइटम उठाता हूं और आईडी रिकॉर्ड करता हूं
  • मैंने १०० वस्तुओं को वापस आबादी में डाल दिया
  • मैं बेतरतीब ढंग से 100 आइटम फिर से चुनता हूं, आईडी नीचे दर्ज करता हूं और प्रतिस्थापित करता हूं।
  • कुल में, मैं इस यादृच्छिक नमूने को 5 बार दोहराता हूं

क्या संभावना है कि X सभी 5 यादृच्छिक नमूनों में कितने आइटम दिखाई देते हैं?

मैं आंकड़ों में बहुत अच्छी तरह से वाकिफ नहीं हूं। क्या यह सही होगाX=10?

  • प्रत्येक नमूने के लिए, 10,000 से 100 वस्तुओं के संभावित संयोजनों की संख्या है binom(10000,100)
  • 100 वस्तुओं के सभी संभावित संयोजनों में से, binom(9990,90)binom(100,10) संयोजनों में 10 विशिष्ट आइटम होते हैं
  • 10 विशिष्ट वस्तुओं के होने की संभावना है (binom(9990,90)binom(100,10))/binom(10000,100)
  • 5 की शक्ति के लिए परिकलित संभावना 5 अनिर्दिष्ट नमूने का प्रतिनिधित्व करेगी।

तो अनिवार्य रूप से हम केवल 5 स्वतंत्र हाइपरजोमेट्रिक संभावनाओं की गणना कर रहे हैं और फिर उन्हें एक साथ गुणा कर रहे हैं? मुझे ऐसा लग रहा है कि मुझे कहीं एक कदम याद आ रहा है।


3
यदि आप एक बार कुछ दोहराते हैं, तो इसका मतलब है कि आप इसे दो बार करते हैं। 5 बार दोहराए जाने का मतलब यह नहीं है कि आप इसे 6 बार करते हैं?
Glen_b -Reinstate मोनिका

जवाबों:


3

पुनरावर्ती अवसरों की गणना करें।

चलो ps(x) संभावना है कि वास्तव में हो x मूल्यों, 0xk, सभी में चुने गए हैं s1 के स्वतंत्र ड्रा k की आबादी से आइटम (प्रतिस्थापन के बिना) nk>0सदस्य हैं। (चलोn तथा k विश्लेषण की अवधि के लिए तय किया गया है ताकि वे स्पष्ट रूप से उल्लेख नहीं किया जा सके।)

चलो ps(xy) संभावना है कि अगर बिल्कुल y मूल्यों को पहले में चुना गया है s1 फिर खींचता है xyउनमें से अंतिम ड्रा में चुने गए हैं। फिर क्योंकि उन तत्वों के तत्वों के उप-समूह हैं, और शेष तत्वों के सबसेट को अलग से आबादी के अन्य सदस्यों में से चुना जाता है ,(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

कुल संभावना का कानून जोर देता है

ps(x)=y=xkps(xy)ps1(y).

के लिए , यह एक निश्चित है कि है इस शुरू करने वितरण है:।s=1x=k

पुनरावृत्तियों के माध्यम से पूर्ण वितरण प्राप्त करने के लिए आवश्यक कुल गणना । इतना ही नहीं यह काफी जल्दी है, एल्गोरिथ्म आसान है। अलिखित प्रोग्रामर की प्रतीक्षा में एक नुकसान यह है कि ये संभावनाएं बहुत छोटी हो सकती हैं और फ्लोटिंग-पॉइंट गणनाओं को कम कर सकती हैं। निम्नलिखित कार्यान्वयन कॉलम के सरणी के के मानों की गणना करके इससे बचता है ।sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

प्रश्न का उत्तर , और देकर दिया जाता है । s=5, n=10000=104k=100=102 आउटपुट सरणी है, लेकिन अधिकांश संख्याएं इतनी छोटी हैं कि हम बहुत छोटे पर ध्यान केंद्रित कर सकते हैं । यहाँ अनुरूप पहली चार पंक्तियाँ हैं :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

आउटपुट है

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

के मान पंक्तियों लेबल, जबकि के मूल्यों कॉलम लेबल। कॉलम 5 मौका दिखाता है कि सभी पाँच नमूनों में एक तत्व शून्य से (लगभग एक मिलियन में) दिखाई देता है और अनिवार्य रूप से कोई मौका नहीं है कि सभी पाँच नमूनों में दो या अधिक तत्व दिखाई दें।xs

यदि आप यह देखना चाहते हैं कि ये संभावनाएं कितनी छोटी हैं, तो उनके लघुगणकों को देखें। बेस 10 सुविधाजनक है और हमें कई अंकों की आवश्यकता नहीं है:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

आउटपुट हमें बताता है कि दशमलव बिंदु के बाद कितने शून्य हैं:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

शीर्ष पंक्ति में संख्याएँ मान हैं । उदाहरण के लिए, सभी पाँच नमूनों में ठीक तीन मान दिखाने का मौका कंप्यूटिंग द्वारा पाया जाता है , जो और वास्तव में इससे पहले शून्य हैं पहला महत्वपूर्ण अंक। एक जांच के रूप में, अंतिम मान का पूर्ण बनाया गया संस्करण है । (जो अगले चार नमूनों में पहले नमूने के फिर से प्रकट होने की संभावना को गिनता है) बराबर होता हैxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

मैं बस एक ऐसी ही समस्या में भाग गया और, हालांकि मुझे यह भी नहीं पता कि क्या यह सही समाधान है, इस तरह से संपर्क किया:

आप की घटना में रुचि रखने वाले कर रहे हैं एक 5 नमूनों में आइटम के आइटम आइटम कुल। आप सफेद गेंदों और काली गेंदों के साथ कलश के बारे में सोच सकते हैं । गेंदें निकाल ली जाती हैं और संभावना है कि आपके सेट में सभी सफेद गेंदें हैं। यदि आप ऐसा बार (स्वतंत्र रूप से) करते हैं, तो मैं इसे गुणा करूंगा: ।X10010,000X10,000X100phX5p=ph5

मैं एक कदम भी आगे के बारे में सोच सकता था और इसे द्विपद वितरण के चारों ओर लपेट सकता था: यदि आपके पास एक सिक्का है जो प्रायिकता साथ आता है (संभावना है कि आपके सेट में सभी आइटम हैं) और आप इसे बार टॉस करते हैं , क्या है सिर पाने की संभावना ? ।ph55p=(55)ph5(1ph)55=ph5


0

क्या संभावना है कि सभी 5 यादृच्छिक नमूनों में संख्या दिखाई देती है?X

क्या हंस ने कहा कि पर बिल्डिंग, तो आप हमेशा एक ही प्राप्त करना चाहते हैं 100 और 100- से प्रत्येक नमूने में आईडी शेष 10000- के बीच में से आईडी । किसी दिए गए नमूने के लिए ऐसा करने की संभावना संभावित सफलता राज्यों के साथ 10000 की आबादी से 100 की एक ड्रा में सफलताओं के लिए हाइपरोमेट्रिक फ़ंक्शन द्वारा दी गई है: । 5 नमूनों के लिए, आप लेंगे ।XXXXXP=(XX)(10000X100X)(10000100)P5

हालाँकि, हम साझा किए गए आईडी को जानते हैं, और उन आईडी का चयन करने के लिए तरीके चुनते हैं । तो आपका अंतिम उत्तर ।X(10000X)X(10000X)P5


" " क्या है ? इस उत्तर को समझना असंभव है, बहुत कम इसकी जाँच करें, जब तक कि आप इसे प्रकट न करें! x
whuber

मुझे याद नहीं है, क्योंकि यह 3 साल पहले था, लेकिन संभवतः उसी एक्स जैसा सवाल है?
हाओ ये

ठीक। लेकिन आपके सूत्र का क्या औचित्य है? साधारण जांच, जैसे कि केस (जिसके लिए आपका सूत्र हमें संभावना बताता है , जिससे पूरी तरह से किसी भी अन्य संभावनाओं पर शासन किया जा सकता है!), यह गलत है। X=01
व्हिबर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.