मैं इस तरह के प्रश्न की व्याख्या करता हूं: मान लीजिए कि नमूना कथित रूप से बाहर किया गया था जैसे कि सफेद कागज के टिकट एक जार में रखे गए थे, प्रत्येक को एक व्यक्ति के नाम के साथ लेबल किया गया था, और जार की सामग्री को अच्छी तरह से सरगर्मी करने के बाद 232 को बेतरतीब ढंग से निकाल लिया गया था। पहले से, 12 टिकटों का रंग लाल था। संभावना है कि क्या है वास्तव में चयनित टिकटों की दो लाल कर रहे हैं? मौका क्या है कि टिकट के अधिकांश दो लाल हैं?36323212
एक सटीक सूत्र प्राप्त किया जा सकता है, लेकिन हमें उतना सैद्धांतिक काम करने की आवश्यकता नहीं है। इसके बजाय, हम सिर्फ मौके को ट्रैक करते हैं क्योंकि टिकट जार से खींचे जाते हैं। समय के साथ उनमें से वापस ले लिया गया है, चलो मौका है कि वास्तव में मैं लाल टिकट देखा गया है p ( i , m ) लिखा है । आरंभ करने के लिए, ध्यान दें कि p ( i , 0 ) = 0 यदि i > 0 (आपके प्रारंभ होने से पहले आपके पास कोई लाल टिकट नहीं हो सकता है) और p ( 0 , 0 ) = 1ममैंपी ( मैं , एम )p ( i , 0 ) = 0मैं > 0p ( 0 , 0 ) = 1(यह निश्चित है कि आपके पास शुरू में कोई लाल टिकट नहीं है)। अब, सबसे हाल के ड्रा पर, या तो टिकट लाल था या यह नहीं था। पहले मामले में, हमारे पास पहले एक मौका था, बिल्कुल i - 1 लाल टिकट देखने का। हमने तब शेष 363 - m + 1 टिकटों में से एक लाल को खींचने के लिए ऐसा किया , जिससे मैं अब तक बिल्कुल लाल टिकट बना रहा था । क्योंकि हम मानते हैं कि सभी टिकटों में हर चरण में समान संभावनाएं हैं, इसलिए इस तरह से लाल रंग में ड्राइंग करने का हमारा मौका था ( 12 - i + 1)p ( i - 1 , m - 1 )i−1363−m+1i । दूसरे मामले में, हमारे पासपिछले मी - 1 ड्रॉमेंबिल्कुल i रेड टिकटप्राप्त करनेका एक मौका p ( i , m - 1 ) था, औरअगले ड्रॉ पर नमूने में एक और लाल टिकटनजोड़नेका मौकाथा ( 363) - m + 1 - 12 + i ) / ( 363 - m + 1 )(12−i+1)/(363−m+1)p(i,m−1)im−1(363−m+1−12+i)/(363−m+1)। संभावना के मूल स्वयंसिद्धों का उपयोग करते हुए, (बुद्धि के लिए, दो परस्पर अनन्य मामलों की संभावनाएं और सशर्त संभावनाएं गुणा करती हैं),
p(i,m)=p(i−1,m−1)(12−i+1)+p(i,m−1)(363−m+1−12+i)363−m+1.
p(i,m)0≤i≤120≤m≤232p(2,232)≈0.000849884p(0,232)+p(1,232)+p(2,232)≈0.000934314
डबल-चेक के रूप में, मैंने 1,000,000 बार कंप्यूटर के साथ यह अभ्यास किया। इन प्रयोगों के 932 = 0.000932 में, 2 या उससे कम लाल टिकट देखे गए थे। यह गणना परिणाम के बेहद करीब है, क्योंकि 934.3 के अपेक्षित मूल्य में नमूना उतार-चढ़ाव लगभग 30 (ऊपर या नीचे) है। यहाँ R में सिमुलेशन कैसे किया जाता है:
> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6,
sum(sample(population, 232))) # Count the reds in 10^6 trials
> sum(results <= 2) # How many trials had 2 or fewer reds?
[1] 948
इस बार, क्योंकि प्रयोग यादृच्छिक हैं, परिणामों में थोड़ा बदलाव आया: मिलियन परीक्षणों में से 948 में दो या उससे कम लाल टिकट देखे गए। वह अभी भी सैद्धांतिक परिणाम के अनुरूप है।)
निष्कर्ष यह है कि यह बहुत कम संभावना है कि 232 टिकटों में से दो या कम लाल होंगे। यदि आपके पास वास्तव में 363 लोगों में से 232 का एक नमूना है, तो यह परिणाम एक मजबूत संकेत है कि टिकट-इन-द-जार मॉडल का सही विवरण नहीं है कि नमूना कैसे प्राप्त किया गया था। वैकल्पिक स्पष्टीकरण में शामिल हैं (ए) लाल टिकट को जार से लेने के लिए और अधिक कठिन बना दिया गया था (उनके खिलाफ एक "पूर्वाग्रह") साथ ही (बी) नमूना देखे जाने के बाद टिकट रंगीन थे ( पोस्ट-हॉक डेटा स्नूपिंग, जो करता है) किसी पूर्वाग्रह का संकेत नहीं )।
स्पष्टीकरण का एक उदाहरण (बी) कार्रवाई में एक कुख्यात हत्या के परीक्षण के लिए एक जूरी पूल होगा। मान लीजिए इसमें 363 लोग शामिल थे। उस पूल में से, अदालत ने उनमें से 232 का साक्षात्कार लिया। एक महत्वाकांक्षी समाचार पत्र के रिपोर्टर ने पूल और नोटिस में सभी के वीट की समीक्षा की है कि 363 में से 12 गोल्डफिश के प्रशंसक थे, लेकिन उनमें से केवल दो का साक्षात्कार हुआ था। क्या अदालत सुनहरी धर्मांधता के खिलाफ पक्षपाती है? शायद ऩही।