मी लोगों की सूची से y लोगों की सूची से x लोगों के यादृच्छिक चयन में n लोगों की क्या संभावना है?


10

अगर मैं प्रतिस्थापन के बिना 363 लोगों के एक पूल से 232 लोगों का चयन कर रहा हूं, तो उस चयन में 12 विशिष्ट लोगों की सूची में से 2 की संभावना क्या है?

यह एक अल्ट्रा रेस के लिए एक यादृच्छिक ड्रॉ है जहां 232 स्थानों के लिए 363 प्रवेश द्वार थे। इस बारे में एक तर्क है कि क्या चयन 12 लोगों के एक निश्चित समूह के खिलाफ पक्षपातपूर्ण था।

यह गणना करने में मेरा प्रारंभिक प्रयास यह था कि 363 संभावित चयनों में से 232 का चयन करना था। बारह की सूची में से किसी एक व्यक्ति के संयोजन की संख्या 1 है 12 + 2 चुनें 12 + ... + 11 चुनें 12 + 12 चुनें 12. इस प्रकार 1 1 चुनें 12 + 2 चुनें 12 .... / 232 चुनें 363 । जो बहुत कम संख्या में समाप्त होता है जो स्पष्ट रूप से बहुत कम है।

मैं इसकी गणना कैसे करूं?


1
दो तकनीकी बिंदु। पहले, आप अब संभावना के बजाय संभावना के साथ काम कर रहे हैं क्योंकि परिणाम ज्ञात है। दूसरा, इससे कोई फर्क नहीं पड़ता कि सैद्धांतिक संभावना क्या है, यह देखते हुए कि आपके पास एक परिणाम है। मुझे लगता है कि चयन के लिए उपयोग की जाने वाली विधि से संपर्क करना बेहतर होगा: चयन कैसे चुने गए? आपको विधि की शुद्धता साबित करने की आवश्यकता है, न कि परिणाम की शुद्धता।
मिशेल

1
चयन संभावनाओं का आकलन करने के उद्देश्य से, मिशेल, एक संभावना के रूप में इसे देखेंगे। यहाँ ऐसा नहीं है।
whuber

हाइपरजोमेट्रिक आरवी की सरल गणना का उपयोग करने में आपको सावधानी बरतने की आवश्यकता है, क्योंकि शिकायत करने वाले 12 लोग यादृच्छिक रूप से चयनित नहीं हैं। वे चयनित नहीं होने के कारण शिकायत कर रहे हैं ।
गाय

जवाबों:


10

मैं इस तरह के प्रश्न की व्याख्या करता हूं: मान लीजिए कि नमूना कथित रूप से बाहर किया गया था जैसे कि सफेद कागज के टिकट एक जार में रखे गए थे, प्रत्येक को एक व्यक्ति के नाम के साथ लेबल किया गया था, और जार की सामग्री को अच्छी तरह से सरगर्मी करने के बाद 232 को बेतरतीब ढंग से निकाल लिया गया था। पहले से, 12 टिकटों का रंग लाल था। संभावना है कि क्या है वास्तव में चयनित टिकटों की दो लाल कर रहे हैं? मौका क्या है कि टिकट के अधिकांश दो लाल हैं?36323212

एक सटीक सूत्र प्राप्त किया जा सकता है, लेकिन हमें उतना सैद्धांतिक काम करने की आवश्यकता नहीं है। इसके बजाय, हम सिर्फ मौके को ट्रैक करते हैं क्योंकि टिकट जार से खींचे जाते हैं। समय के साथ उनमें से वापस ले लिया गया है, चलो मौका है कि वास्तव में मैं लाल टिकट देखा गया है p ( i , m ) लिखा है । आरंभ करने के लिए, ध्यान दें कि p ( i , 0 ) = 0 यदि i > 0 (आपके प्रारंभ होने से पहले आपके पास कोई लाल टिकट नहीं हो सकता है) और p ( 0 , 0 ) = 1mip(i,m)p(i,0)=0i>0p(0,0)=1(यह निश्चित है कि आपके पास शुरू में कोई लाल टिकट नहीं है)। अब, सबसे हाल के ड्रा पर, या तो टिकट लाल था या यह नहीं था। पहले मामले में, हमारे पास पहले एक मौका था, बिल्कुल i - 1 लाल टिकट देखने का। हमने तब शेष 363 - m + 1 टिकटों में से एक लाल को खींचने के लिए ऐसा किया , जिससे मैं अब तक बिल्कुल लाल टिकट बना रहा था । क्योंकि हम मानते हैं कि सभी टिकटों में हर चरण में समान संभावनाएं हैं, इसलिए इस तरह से लाल रंग में ड्राइंग करने का हमारा मौका था ( 12 - i + 1)p(i1,m1)i1363m+1i । दूसरे मामले में, हमारे पासपिछले मी - 1 ड्रॉमेंबिल्कुल i रेड टिकटप्राप्त करनेका एक मौका p ( i , m - 1 ) था, औरअगले ड्रॉ पर नमूने में एक और लाल टिकटजोड़नेका मौकाथा ( 363) - m + 1 - 12 + i ) / ( 363 - m + 1 )(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1)। संभावना के मूल स्वयंसिद्धों का उपयोग करते हुए, (बुद्धि के लिए, दो परस्पर अनन्य मामलों की संभावनाएं और सशर्त संभावनाएं गुणा करती हैं),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

डबल-चेक के रूप में, मैंने 1,000,000 बार कंप्यूटर के साथ यह अभ्यास किया। इन प्रयोगों के 932 = 0.000932 में, 2 या उससे कम लाल टिकट देखे गए थे। यह गणना परिणाम के बेहद करीब है, क्योंकि 934.3 के अपेक्षित मूल्य में नमूना उतार-चढ़ाव लगभग 30 (ऊपर या नीचे) है। यहाँ R में सिमुलेशन कैसे किया जाता है:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

इस बार, क्योंकि प्रयोग यादृच्छिक हैं, परिणामों में थोड़ा बदलाव आया: मिलियन परीक्षणों में से 948 में दो या उससे कम लाल टिकट देखे गए। वह अभी भी सैद्धांतिक परिणाम के अनुरूप है।)

निष्कर्ष यह है कि यह बहुत कम संभावना है कि 232 टिकटों में से दो या कम लाल होंगे। यदि आपके पास वास्तव में 363 लोगों में से 232 का एक नमूना है, तो यह परिणाम एक मजबूत संकेत है कि टिकट-इन-द-जार मॉडल का सही विवरण नहीं है कि नमूना कैसे प्राप्त किया गया था। वैकल्पिक स्पष्टीकरण में शामिल हैं (ए) लाल टिकट को जार से लेने के लिए और अधिक कठिन बना दिया गया था (उनके खिलाफ एक "पूर्वाग्रह") साथ ही (बी) नमूना देखे जाने के बाद टिकट रंगीन थे ( पोस्ट-हॉक डेटा स्नूपिंग, जो करता है) किसी पूर्वाग्रह का संकेत नहीं )।

स्पष्टीकरण का एक उदाहरण (बी) कार्रवाई में एक कुख्यात हत्या के परीक्षण के लिए एक जूरी पूल होगा। मान लीजिए इसमें 363 लोग शामिल थे। उस पूल में से, अदालत ने उनमें से 232 का साक्षात्कार लिया। एक महत्वाकांक्षी समाचार पत्र के रिपोर्टर ने पूल और नोटिस में सभी के वीट की समीक्षा की है कि 363 में से 12 गोल्डफिश के प्रशंसक थे, लेकिन उनमें से केवल दो का साक्षात्कार हुआ था। क्या अदालत सुनहरी धर्मांधता के खिलाफ पक्षपाती है? शायद ऩही।


एनबी सिमुलेशन में, यह कोई फर्क नहीं पड़ता कि यह बहुत पहले 12 "टिकट" हैं जो चिह्नित हैं, क्योंकि सभी नमूने प्रतिस्थापन (बिना sample) के बिना यादृच्छिक रूप से किए जाते हैं । वास्तव में, प्रत्येक पुनरावृत्ति में sampleप्रत्येक बार टिकटों को अच्छी तरह से मिलाया जाता है, जो इसे 232 में से वापस लेने से पहले कहा जाता है।
whuber

2
अच्छाई - जो वास्तव में अपेक्षित परिणाम नहीं था। आपके संपूर्ण कार्य और अच्छी व्याख्या के लिए धन्यवाद। (उत्सुकता से, मैंने वास्तव में ऑकलैंड विश्वविद्यालय में कुछ आँकड़े प्रशिक्षण किया था जहां आर को पहली बार विकसित किया गया था)
सर्ज

10

@whuber ने एक संपूर्ण विवरण दिया, मैं केवल यह बताना चाहता हूं कि इस परिदृश्य के अनुरूप एक मानक सांख्यिकीय वितरण है: हाइपरजोमेट्रिक वितरण। तो आप इस तरह की किसी भी संभावना को सीधे प्राप्त कर सकते हैं, कहते हैं, आर:

चयनित 12 में से 2 की संभावना:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

चयनित 12 में से 2 या उससे कम की संभावना:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 धन्यवाद। मुझे इस संबंध का उल्लेख करना चाहिए था। हाइपरजोमेट्रिक डिस्ट्रीब्यूशन सैंपलिंग-रीसम्पलिंग एक्सपेरिमेंट्स में क्लासिकल रूप से दिखाई देता है। 12 विशिष्ट लोग (मेरे "लाल टिकट") मछली की तरह हैं जिन्हें पकड़ा गया है, चिह्नित किया गया है, और वापस पूल में फेंक दिया गया है; 232 का नमूना मछली के सेट जैसा है जिसे बाद में पकड़ा गया। हाइपरजोमेट्रिक वितरण पुनरावर्ती मछली की आवृत्तियों का वर्णन करता है।
whuber

0

सरल हाइपरजोमेट्रिक वितरण के साथ बाधाओं की तुलना में बहुत अधिक है, क्योंकि समूह को यादृच्छिक रूप से नहीं चुना जाता है ( "ड्रॉ ​​से पहले 12 मछलियों को लाल रंग से चित्रित किया जाता है" )।

प्रश्न के विवरण से, हम ड्रा में धोखाधड़ी के लिए परीक्षण कर रहे हैं। 12 लोगों के एक विशिष्ट समूह ने शिकायत की कि उनमें से केवल 2 का चयन किया गया था, जबकि अपेक्षित संख्या 232/363 ~ 2/3 = 8 थी।

हमें वास्तव में गणना करने की आवश्यकता है कि वे कौन सी बाधाएं हैं जो " आकार 12 के किसी समूह में केवल 2 सदस्य चयनित नहीं होंगे"। कम से कम एक समूह में कम से कम 2 समूह होंगे (इसलिए ड्रा की निष्पक्षता के खिलाफ शिकायत करेंगे) बहुत अधिक हैं।

जब मैं इस सिमुलेशन को चलाता हूं, और जांचता हूं कि 30 (= 360/12) समूहों में से कितने परीक्षणों में से 2 या उससे कम चयन नहीं थे, तो मुझे लगभग 2.3% बार मिलता है। 1:42 कम है लेकिन असंभव नहीं है।

आपको अभी भी ड्रा की प्रक्रिया की जांच करनी चाहिए क्योंकि यह लोगों के एक विशिष्ट समूह के खिलाफ पक्षपाती हो सकता है। वे एक साथ आ सकते हैं और कम संभावना (पहले या अंतिम नंबर, उदाहरण के लिए), या ड्रॉ की प्रक्रिया पर जो कुछ भी आश्रित है, के साथ ड्रा की एक सीमा प्राप्त करते हैं। लेकिन अगर आपको प्रक्रिया में कोई दोष नहीं लगता है, तो आप 1:42 बाधाओं पर वापस आ सकते हैं कि यह समूह के लिए दुर्भाग्य है।


एक अच्छा बिंदु, BUT (ए) निश्चित रूप से 12 के हर संभावित समूह में पदार्थ के लिए पर्याप्त समानता नहीं है, और (बी) सभी समूहों के पास जो मामले के लिए पर्याप्त समानता है, बिल्कुल 12 सदस्य नहीं हैं।
zbicyclist

@zbicyclist, मैं यह दावा नहीं करता कि गणना सटीक है। मैं एक उचित संदेह देना चाहता था (जैसा कि हम धोखाधड़ी का पता लगाने के साथ कानून के दायरे में हैं), कि ड्रॉ दोषी नहीं है।
गाइ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.