1000 में से 600 क्यों 10 में से 6 से अधिक कायल है?


41

स्टेला कॉटरेल, पेज 1 द्वारा "द स्टडी स्किल्स हैंडबुक", पालग्रेव, 2012 के इस अंश को देखें।

प्रतिशत दिए जाने पर नोटिस।
इसके बजाय, ऊपर दिए गए कथन को पढ़ें:

60% लोगों ने संतरे को प्राथमिकता दी; 40% ने कहा कि वे सेब पसंद करते हैं।

यह पुख्ता लगता है: न्यूमेरिकल मात्रा दी गई है। लेकिन क्या 60% और 40% के बीच अंतर महत्वपूर्ण है ? यहां हमें यह जानना होगा कि कितने लोगों से पूछा गया था। अगर 1000 लोगों से पूछा जाए कि 600 में से किसने संतरे को पसंद किया है, तो संख्या प्रेरक होगी। हालांकि, अगर केवल 10 लोगों से पूछा गया था, तो 60% का मतलब है कि 6 लोग संतरे पसंद करते हैं। "60%" इस तरह से आश्वस्त लगता है कि "10 में से 6" नहीं है। एक महत्वपूर्ण पाठक के रूप में, अपर्याप्त डेटा को प्रभावशाली बनाने के लिए आपको प्रतिशत का उपयोग करने की आवश्यकता है।

इस विशेषता को आंकड़ों में क्या कहा जाता है? मैं इसके बारे में अधिक पढ़ना चाहूंगा।


38
नमूना आकार मायने रखता है
अक्कल २

36
मैं दो लोगों को यादृच्छिक रूप से चुनता हूं, वे दोनों पुरुष हैं, और इसलिए मैं यह निष्कर्ष निकालता हूं कि 100% अमेरिकी पुरुष हैं। यह समझाते हुए कि?
केसी

2
यह "संतरे के साथ सेब की तुलना न करें" सिद्धांत है
भेड़ियों का

2
एक अलग कोण से उस प्रश्न का दृष्टिकोण करने के लिए आप फ्रेमिंग प्रभाव के साहित्य को खोदने पर विचार कर सकते हैं। हालांकि, यह संज्ञानात्मक पूर्वाग्रह का एक उदाहरण है और एक मनोवैज्ञानिक विषय है, न कि सांख्यिकीय।
लार्क्स

2
आप अनुमान लगा सकते हैं कि यह अनुमानित मात्रा को कितना प्रभावित करेगा। /१०६/१०६०० की तुलना में ६/१० की तुलना में ६००/१०० से relatively/१० अधिक अपेक्षाकृत अधिक है।
गणितज्ञ जूल

जवाबों:


54

मैं एक और सहज उदाहरण को सूचीबद्ध करना चाहूंगा।

मान लीजिए कि मैं आपको बताता हूं कि मैं किसी भी सिक्के के फ्लिप के परिणाम की भविष्यवाणी कर सकता हूं। आप विश्वास नहीं करते और मेरी क्षमता का परीक्षण करना चाहते हैं।

0.550.03

1000.51000


सांख्यिकीय अवधारणा को विकिपीडिया से सांख्यिकीय शक्ति कहा जाता है

एक द्विआधारी परिकल्पना परीक्षण की शक्ति संभावना है कि परीक्षण वैकल्पिक परिकल्पना (H1) सही होने पर अशक्त परिकल्पना (H0) को सही ढंग से अस्वीकार करता है।

सिक्का फ्लिप उदाहरण पर सुपर पावर पर वापस, अनिवार्य रूप से आप एक परिकल्पना परीक्षण चलाना चाहते हैं।

  • अशक्त परिकल्पना (H0): मेरे पास सुपर पावर नहीं है
  • वैकल्पिक परिकल्पना (H1): मेरे पास सुपर पावर है

अब जैसा कि आप संख्यात्मक उदाहरण में देख सकते हैं (मुझे 5 बार बनाम परीक्षण करें मुझे 100 बार परीक्षण करें), सांख्यिकीय शक्ति नमूना आकार से प्रभावित हुई है।

यहाँ पढ़ने के लिए और अधिक । (अधिक तकनीकी और टी-टेस्ट पर आधारित)।

सांख्यिकीय शक्ति को समझने के लिए एक संवादात्मक उपकरण यहां पाया जा सकता है । ध्यान दें, नमूना आकार के साथ सांख्यिकीय शक्ति बदल जाती है!

यहाँ छवि विवरण दर्ज करें


24
अनिवार्य xkcd
Shufflepants

5
यह वास्तव में सवाल का जवाब नहीं देता है। प्रश्न के दो भाग हैं: "क्यों [यह] अधिक ठोस है ..." और "यह विशेषता आँकड़ों में क्या है?" आपने एक उदाहरण प्रदान किया है जो पाठक से पूछता है कि क्या वे उदाहरण से अधिक आश्वस्त हैं, लेकिन आपने घटना की व्याख्या नहीं की है, और न ही यह पता लगाने का प्रयास किया है कि यह अधिक ठोस क्यों है (सिर्फ एक उदाहरण पर पाठक के सहज तर्क पर भरोसा करना)। इसके अलावा, आपने दूसरे प्रश्न को नहीं छुआ है: यदि आपको लगता है कि इस घटना का कोई नाम नहीं है, तो स्पष्ट रूप से बताएं।
मकेन

1
@Mayken यह स्पष्ट रूप से एक उत्तर देने का प्रयास है। यह सबसे बड़ा उत्तर नहीं है और यह एक पूर्ण उत्तर नहीं है, लेकिन आंशिक या सामाजिक उत्तर यह दावा करने के लिए आधार नहीं हैं कि यह एक उत्तर नहीं है। प्रश्नों को एक प्रश्न पूछना चाहिए और यदि वे प्रश्नों की एक श्रृंखला पूछते हैं, तो मुझे लगता है कि यह पूरी तरह से उचित है (यदि आदर्श से कम) केवल उनमें से कुछ को संबोधित करना है। यदि आपको लगता है कि यह एक खराब जवाब है, तो आप निश्चित रूप से उन समस्याओं के समाधान के लिए स्वतंत्र हैं जिन्हें आप समस्याओं के रूप में देखते हैं। [उस बात के लिए मुझे नहीं लगता कि मैंने दूसरे प्रश्न का उत्तर दिया है; मैंने केवल प्रभाव पर चर्चा की; हर घटना का स्पष्ट नाम नहीं होगा]
Glen_b

1
मैं मदद नहीं कर सकता लेकिन ऐसा महसूस करता हूं कि 100% एक विशेष मामला है और यह जवाब वास्तव में मेरे अंतर्ज्ञान का समर्थन नहीं करता है कि 600/1000 6/10 से अधिक कायल है। यहां तक ​​कि अगर हम इसे एक विशेष मामला नहीं होने के लिए लेते हैं, तो यह अनिवार्य रूप से समस्या को एक अलग प्रतिशत के साथ बहाल कर रहा है।
NotThatGuy

2
@Juya यह एक वेब आधारित उपकरण है जिसे किसी ने बनाया है। आप इसे यहाँ
Haitao Du


17

यह अवधारणा बड़ी संख्या के कानून का परिणाम है । से विकिपीडिया ,

कानून के अनुसार, बड़ी संख्या में परीक्षणों से प्राप्त परिणामों का औसत अपेक्षित मूल्य के करीब होना चाहिए, और अधिक परीक्षण किए जाने के करीब हो जाएंगे।

एक छोटे नमूने से परिणाम एक बड़े नमूने से अपेक्षित मूल्य से अधिक दूर हो सकते हैं। और इसलिए, जैसा कि सवाल में कहा गया है, किसी को छोटे नमूनों से गणना किए गए परिणामों से सावधान रहना चाहिए। इस YouTube वीडियो में विचार को भी अच्छी तरह से समझाया गया है ।


5
आंकड़ों में कई प्रसिद्ध प्रमेयों को "बड़ी संख्या के कानूनों" के रूप में जाना जाता है, लेकिन उनमें से कोई भी ऐसे बयान नहीं देता है जो प्रश्न में एक जैसा दिखता है। फिर, आप कनेक्शन कैसे स्थापित करते हैं?
whuber

3
विकिपीडिया en.wikipedia.org/wiki/Law_of_large_numbers से , "कानून के अनुसार, बड़ी संख्या में परीक्षणों से प्राप्त परिणामों का औसत अपेक्षित मूल्य के करीब होना चाहिए, और अधिक परीक्षणों के प्रदर्शन के करीब हो जाएगा" । एक छोटे नमूने से परिणाम एक बड़े नमूने से अपेक्षित मूल्य से अधिक दूर हो सकते हैं। और इसलिए, जैसा कि सवाल में कहा गया है, किसी को छोटे नमूनों से गणना किए गए परिणामों से सावधान रहना चाहिए।
इवान फीब्स जुब

6
यह एक अच्छी व्याख्या है, धन्यवाद। यद्यपि आप यह लिखने के लिए सही हैं कि किसी को इस बारे में सतर्क रहना चाहिए कि कानून पर भरोसा करने के लिए "परीक्षणों की एक बड़ी संख्या" कितनी होनी चाहिए, आवेदन सहज रूप से ध्वनि है। मैं सुझाव देना चाहूंगा कि आपका स्पष्टीकरण आपके उत्तर में है, जहां यह अधिक व्यापक रूप से पढ़ा जाएगा और सराहना की जाएगी, बजाय एक टिप्पणी में दफन किए। लिंक-केवल उत्तर (जैसे आपके लिंक Youtube पर) बिना स्पष्टीकरण के यहां नहीं टिकते।
whuber

6

हम कुछ नमूना मात्रा द्वारा कुछ जनसंख्या मात्रा का अनुमान लगाने की स्थिति में हैं। इस मामले में, हम जनसंख्या अनुपात का अनुमान लगाने के लिए नमूना अनुपात का उपयोग कर रहे हैं, लेकिन सिद्धांत काफी सामान्य है।

10101

जैसे-जैसे हम बड़े और बड़े नमूने लेते हैं (रैंडम सैंपलिंग का उपयोग करते हैं), सैंपल का मतलब जनसंख्या माध्य में जुटना होगा। (यह बड़ी संख्या का कानून है।)

हालाँकि हम वास्तव में कुछ विचार रखना चाहते हैं कि हम कितना दूर हो सकते हैं (जैसे कि अनुपात के लिए एक आत्मविश्वास अंतराल की चौड़ाई या त्रुटि के मार्जिन द्वारा प्रतिनिधित्व किया जा सकता है, जो कि आमतौर पर ऐसी चौड़ाई का आधा है) ।

120

नमूना माध्य के वितरण का मानक विचलन एक औसत दूरी है, जिसका एक नमूना माध्य जनसंख्या माध्य से होता है, जो घटता है (यह रूप में घटता है) को मापने का एक तरीका है1n

परिणामस्वरूप, हम अपने अनुमान की सटीकता के बारे में अधिक आश्वस्त होते हैं जब नमूना बड़ा होता है - यदि हमने अपना प्रयोग फिर से दोहराया, तो ऐसे अन्य साधन वर्तमान के करीब होंगे - वे एक साथ अधिक से अधिक कसकर चिपकते हैं, और क्योंकि (इस मामले में) हमारा अनुमान निष्पक्ष है, वे उन मूल्यों के इर्द-गिर्द मंडरा रहे हैं जिनका हम अनुमान लगाने की कोशिश कर रहे हैं। एक एकल नमूना माध्य अधिक से अधिक जानकारीपूर्ण हो जाता है जहां जनसंख्या का मतलब हो सकता है।


4

"गिनती" के आंकड़ों के लिए अंगूठे का एक नियम, जो संतरे की तरह लोगों की संख्या की गिनती करता है, या रेडियोधर्मी क्षय के कारण एक गीगर काउंटर में "क्लिक" की संख्या की गणना करता है, यह है कि गिनती के लिए त्रुटि का मार्जिन लगभग वर्ग है अपेक्षित गणना मूल्य का -root। गिनती के आँकड़े ज्ञात हैं पोइसन आँकड़े हैं।

6 का वर्गमूल 2.4-ईश है, इसलिए त्रुटि का मार्जिन लगभग 40% (2.4 / 6) है। 600 का वर्गमूल 24-ईश है, इसलिए त्रुटि का मार्जिन लगभग 4% (24/600) है। इसीलिए ६०० की गिनती अधिक महत्वपूर्ण है कि गिनती ६. सापेक्ष त्रुटि दसवीं है।

मैं थोड़ी सी त्रुटि के बारे में थोड़ा मैला हूं। यह वास्तव में 1-सिग्मा मूल्य है, और एक कठिन कट-ऑफ नहीं है, लेकिन यह वह सीमा है जहां आप झूठ बोलने के लिए माप के सबसे (68%) की उम्मीद करते हैं। इसलिए यदि आप 6 ऑरेंज खाने वालों की अपेक्षा करते हैं, तो आप चुनावों की एक श्रृंखला की उम्मीद करेंगे, जो आपको 4 से 8 रेंज में ज्यादातर 6,6,5,6,7,7,2,4,6,3,5,6, जैसे नंबर देगा। 6,7,6,10,8,6,5,6,6,9,3,7,8।


3

मेरे पास वह नाम नहीं है जिसे आप ढूंढ रहे हैं, लेकिन समस्या सांख्यिकीय नहीं है। मनोवैज्ञानिक रूप से, हमारे दिमागों में जिस तरह से संख्याओं की प्रक्रिया होती है, उससे बड़ी संख्याओं को अधिक वजन (अधिकार) दिया जाता है, क्योंकि यह छोटी संख्या को दर्शाता है क्योंकि परिमाण (भौतिक आकार) दृष्टिगत रूप से प्रतिनिधि मूल्य जितना महत्वपूर्ण है। इस प्रकार, 600/1000 6/10 से अधिक विश्वसनीय प्रतीत होता है। यही कारण है कि दुकानदार "10% ऑफ" देखना पसंद करते हैं! 100 से कम मूल्यों के लिए और "$ 10 बचाएं!" 100 से अधिक मूल्यों के लिए (जिसे "100 का नियम" कहा जाता है)। यह इस बारे में है कि हमारे दिमाग कैसे धारणा पर प्रतिक्रिया करते हैं।

निक कोलेंडा ने अपने ऑनलाइन ग्रंथ " एन एनॉर्मस गाइड टू प्राइसिंग साइकोलॉजी " में इस और इसी तरह की घटनाओं पर एक अद्भुत नज़र डाली ।


2
हालांकि अन्य उत्तर गलत नहीं हैं, मैं उन्हें वास्तव में उद्धृत पाठ को ठीक से नहीं देख रहा हूं क्योंकि यह है। पाठ संख्या और कथित सटीकता को प्रस्तुत करने के प्रभाव को संबोधित कर रहा है, न कि यदि संख्या वास्तव में अधिक सटीक है। यही है, कि आप एक व्यक्ति को यह अनुभव करा सकते हैं कि आपकी जानकारी 1000 या 60% के 600 कहकर अधिक महत्वपूर्ण है या आप इसका कारण कम से कम 6 के 10 कहकर महत्वपूर्ण लग सकते हैं, हालांकि प्रत्येक का मतलब एक छोटे नमूने को लागू करने से है। आकार के बिना अगर वास्तव में कहा जा रहा है, या संभवतः भी सच है।
dlb

1
यह उदाहरण मौलिक रूप से मेरी राय में त्रुटिपूर्ण लगता है। उदाहरण के लिए 100 की खरीद पर कुल 90 के लिए% 10 की छूट मिलती है, जबकि 100.01 की खरीद पर कुल 75.01 के लिए 25 की छूट मिलती है, जिसके परिणाम काफी भिन्न होते हैं। वास्तव में जब तक आप 250.05 (या 250.10 राउंडिंग या ट्रंकटिंग पर निर्भर करते हैं) तक मूल्यों में अंतर होता है। प्रश्न नमूना आकार और मानक त्रुटि के बारे में बात कर रहा है, जबकि आपका उदाहरण हमारी धारणा के कारण वास्तविक अंतर के बारे में अधिक है।
जो डब्ल्यू।

@Joe W, जबकि मैं "100 रूल" (मनोवैज्ञानिक नहीं होने का नियम) की बारीकियों पर बात नहीं कर सकता, मेरा जवाब यह है कि मनोवैज्ञानिक यह निर्धारित कर चुके हैं कि लोग बड़ी संख्या पर भरोसा करते हैं, न कि बड़े की वजह से नमूना आकार यह प्रतिनिधित्व करता है, लेकिन एक बड़ी संख्या को दिए गए अधिक महत्व की धारणा के कारण। एक इंजीनियर के रूप में, मैं इसे इस तरह से नहीं करना चाहूंगा --- लेकिन यह मानव मन के काम करने का तरीका है। क्या आपको इसे चुनौती देना चाहिए, मैं श्री कोलेंडा की प्रस्तुति के अंतर्निहित विवरणों को पढ़ने की सलाह दूंगा।
JBH

आप मेरी बात याद कर रहे हैं, १०% से १०० और २५ में बहुत बड़ा अंतर है, यह केवल धारणा का विषय नहीं है। साधारण तथ्य यह है कि यदि आपने दोनों मानों को 100 में लिया है, तो 15% अंतर है जो कि एक मूल्य है जो मापने के लिए बहुत सरल है फिर मानक त्रुटि जब दो अलग-अलग नमूनों में से एक 10 और 1000 में से एक बात कर रहा हो।
जो डब्ल्यू

मैंने आपको मदद करने के लिए 10% और $ 10 का उपयोग करने के लिए अपना प्रश्न बदल दिया। "रूल ऑफ़ 100" की बात यह है कि लोग बड़ी संख्या को अधिक प्रासंगिक मानते हैं और मौद्रिक मूल्य को मात्र प्रतिशत से अधिक महत्वहीन मानते हैं। यह ओपी के उद्देश्यों के लिए चर्चा के दायरे से बाहर का मुद्दा है।
JBH

3

जबकि त्रुटि का वास्तविक मार्जिन महत्वपूर्ण है, कारण यह अधिक ठोस लगता है क्योंकि लोगों के साथ अधिक न्यायिक (अंगूठे का नियम) अनुभव है। त्रुटि का वास्तविक मार्जिन इस बात की पुष्टि करता है कि इस योग्यता में योग्यता है।

यदि नमूना 6 के लिए है, और 4 के खिलाफ है, तो यह 50/50 हो सकता है यदि कोई एकल व्यक्ति अपना वोट बदलता है, या एक भी व्यक्ति गलती से दर्ज किया गया था। 6 तरफ केवल दो और लोग हैं। हर कोई दो गुच्छे जानता है, हर कोई जानता है कि नमूना चेरी-उठाया जा सकता है: आपने केवल वेट्रेस और किसी और से पूछा। या आपने केवल एक विश्वविद्यालय के हॉल में 10 कॉलेज के प्रोफेसरों को मतदान किया। या आपने सैक्स फिफ्थ एवेन्यू के बाहर 10 अमीर लोगों से पूछा।

यहां तक ​​कि त्रुटि का गणितीय मार्जिन सही यादृच्छिकता को मानता है और चयन पूर्वाग्रह, या स्व-चयन पूर्वाग्रह, या कुछ और के लिए खाता नहीं है, लोग सहजता से समझ सकते हैं।

इसके विपरीत, 600 बनाम 400 परिणाम में एक तरफ दूसरे की तुलना में 200 अधिक लोग हैं, और 100 लोगों को अपना दिमाग बदलना होगा। उन संख्याओं के द्वारा (लेकिन असंभव नहीं) आने के लिए बहुत कठिन हैं, जहां आप मतदान कर रहे थे, आप लोगों को कैसे सहमत हुए, कैसे लोगों ने प्रश्न को समझा या व्याख्या की, आदि।

यह एक गणितीय प्रमाण के कारण अधिक आश्वस्त नहीं है कि यह होना चाहिए, लेकिन क्योंकि हम अनुभव से जानते हैं कि 1000 की भीड़ 10 के समूह की तुलना में (किसी भी चीज पर) उनकी राय में विविध होने की अधिक संभावना है (जब तक कि आपने गुप्त रूप से नहीं किया था एक राजनीतिक दल के अधिवेशन या केआरके की रैली में आपका मतदान या किसी एक पक्षीय भीड़ के आकर्षित होने की संभावना)।

गणित केवल वही ठीक करता है जो हम पहले से ही अंतर्ज्ञान द्वारा जानते हैं; यह यादृच्छिक रूप से 10 में से एक या दो आवारा वोटों का सामना करना आसान है, क्योंकि यह 1000 में से बेतरतीब ढंग से 100 या 200 आवारा वोटों का सामना करना है।


3

जिस चीज का उल्लेख नहीं किया गया है वह समस्या को बायेसियन दृष्टिकोण से देखना है।

pp

pBeta(α,β)no|pBin(n,p).

β=αβ=α=1pU(0,1)

nnona=nno

p

p|no,naBeta(no+1,na+1).

pno/(no+na)n

no=6na=4

n_o = 6 और n_a = 4 के साथ पीछे

no=600na=400यहाँ छवि विवरण दर्ज करें

p=0.4p=0.8

कृपया ध्यान दें कि हालांकि ये प्लॉट david25272 के समान दिखते हैं, लेकिन वे कुछ अलग करते हैं

pno

nop


2

संक्षिप्त उत्तर:

मूल रूप से यह अधिक, 10 की वजह से छह बाहर 1000 से से बाहर 600 के लिए समझाने है दी बराबर वरीयताओं यह अब तक अधिक होने की संभावना 6 10 में से यादृच्छिक संयोग से उत्पन्न करने के लिए।

चलिए एक धारणा बनाते हैं - कि संतरे और सेब को पसंद करने वाले अनुपात वास्तव में बराबर हैं (इसलिए, प्रत्येक 50%)। इसे एक शून्य परिकल्पना कहें। इन समान संभावनाओं को देखते हुए दो परिणामों की संभावना है:

  • 10 लोगों के नमूने को देखते हुए, अनियमित रूप से 6 या अधिक लोगों का एक नमूना प्राप्त करने की 38% संभावना है जो संतरे पसंद करते हैं (जो कि सभी संभावना नहीं है)।
  • 1000 लोगों के नमूने में 600 में से 1 अरब से कम होने की संभावना है या 1000 में से अधिक लोग संतरे पसंद करते हैं।

(सादगी के लिए मैं एक असीम आबादी मान रहा हूं जहां से असीमित संख्या में नमूने लिए जा सकते हैं)।


एक साधारण व्युत्पत्ति

इस परिणाम को प्राप्त करने का एक तरीका केवल उन संभावित तरीकों को सूचीबद्ध करना है जिनसे लोग हमारे नमूनों में जुड़ सकते हैं:

दस लोगों के लिए यह आसान है:

सेब या संतरे के लिए समान वरीयताओं वाले लोगों की अनंत आबादी से यादृच्छिक पर 10 लोगों के नमूने लेने पर विचार करें। समान प्राथमिकताओं के साथ बस 10 लोगों के सभी संभावित संयोजनों को सूचीबद्ध करना आसान है:

यहां देखें पूरी लिस्ट

r   C (n=10)    p
10  1       0.09766%
9   10      0.97656%
8   45      4.39453%
7   120     11.71875%
6   210     20.50781%
5   252     24.60938%
4   210     20.50781%
3   120     11.71875%
2   45      4.39453%
1   10      0.97656%
0   1       0.09766%
    1024    100%

r परिणाम की संख्या है (जो लोग संतरे पसंद करते हैं), C उस संतरे को पसंद करने वाले कई लोगों के संभावित तरीकों की संख्या है, और p इसके परिणामस्वरूप असतत संभावना है कि कई लोग हमारे नमूने में संतरे पसंद कर रहे हैं।

(p को केवल C की कुल संख्याओं से विभाजित किया गया है। ध्यान दें कि इन दो प्राथमिकताओं को व्यवस्थित करने के 1024 तरीके हैं (अर्थात 2 से 10 की शक्ति तक)।

  • उदाहरण के लिए, सभी लोगों को पसंद करने के लिए 10 लोगों (आर = 10) के लिए केवल एक ही तरीका (एक नमूना) है। सेब को पसंद करने वाले सभी लोगों के लिए भी यही सच है (आर = 0)।
  • 10 अलग-अलग संयोजन हैं, जिनमें से नौ संतरे पसंद करते हैं। (एक अलग व्यक्ति प्रत्येक नमूने में सेब को प्राथमिकता देता है)।
  • 45 नमूने (संयोजन) हैं जहां 2 लोग सेब, आदि को पसंद करते हैं।

(सामान्य तौर पर हम n लोगों के नमूने के r r परिणामों के n C संयोजनों के बारे में बात करते हैं। ऑनलाइन कैलकुलेटर हैं जिनका उपयोग आप इन संख्याओं को सत्यापित करने के लिए कर सकते हैं।)

यह सूची हमें सिर्फ विभाजन का उपयोग करके उपरोक्त संभावनाएं प्रदान करने की अनुमति देती है। नमूने में 6 लोगों को प्राप्त करने की 21% संभावना है जो संतरे पसंद करते हैं (संयोजन के 1024 में से 210)। हमारे नमूने में छह या अधिक लोगों को पाने का मौका 38% है (छह या अधिक लोगों के साथ सभी नमूनों का योग, या 1024 संयोजनों में से 386)।

रेखांकन, संभावनाएं इस तरह दिखती हैं:

द्विपद नमूना आकार 10

बड़ी संख्या के साथ, संभावित संयोजनों की संख्या तेजी से बढ़ती है।

सिर्फ 20 लोगों के नमूनों के लिए 1,048,576 संभावित नमूने हैं, सभी समान संभावना वाले हैं। (नोट: मैंने केवल हर दूसरे संयोजन को नीचे दिखाया है)

r    C (n=20)   p
20   1          0.00010%
18   190        0.01812%
16   4,845      0.46206%
14   38,760     3.69644%
12   125,970    12.01344%
10   184,756    17.61971%
8    125,970    12.01344%
6    38,760     3.69644%
4    4,845      0.46206%
2    190        0.01812%
0    1          0.00010%
     1,048,576  100%

अभी भी केवल एक नमूना है जहां सभी 20 लोग संतरे पसंद करते हैं। मिश्रित परिणाम पेश करने वाले संयोजन बहुत अधिक होने की संभावना है, बस इसलिए कि कई और तरीके हैं जो नमूनों में लोगों को जोड़ सकते हैं।

नमूने जो पक्षपाती हैं, बहुत अधिक संभावना नहीं है, सिर्फ इसलिए कि लोगों के कम संयोजन हैं जो उन नमूनों में परिणाम कर सकते हैं:

प्रत्येक नमूने में सिर्फ 20 लोगों के साथ, हमारे नमूने में 60% या अधिक (12 या अधिक) लोगों की संचयी संभावना केवल 25% संतरे की बूंदों को पसंद करती है।

संभावना वितरण पतले और लम्बे होते देखे जा सकते हैं:

द्विपद नमूना आकार 20

1000 लोगों के साथ संख्या बहुत बड़ी है

हम उपरोक्त उदाहरणों को बड़े नमूनों तक बढ़ा सकते हैं (लेकिन सभी संयोजनों को सूचीबद्ध करने के लिए संभव होने के लिए संख्या बहुत तेज़ी से बढ़ती है), इसके बजाय मैंने आर में संभावनाओं की गणना की है:

r   p (n=1000)
1000    9.332636e-302
900     5.958936e-162
800     6.175551e-86
700     5.065988e-38
600     4.633908e-11
500     0.02522502
400     4.633908e-11
300     5.065988e-38
200     6.175551e-86
100     5.958936e-162
0       9.332636e-302

1000 में से 600 या अधिक लोगों की संचयी संभावना है कि संतरे सिर्फ 1.364232e-10 हैं।

संभावना वितरण अब केंद्र के आसपास बहुत अधिक केंद्रित है:

[द्विपद नमूना आकार 1000 [3]

(उदाहरण के लिए, आर उपयोग में पसंद करने वाले 1000 लोगों में से 600 में से ठीक 600 की संभावना की गणना करने के लिए dbinom(600, 1000, prob=0.5)जो 4.633908e-11 के बराबर है, और 600 या अधिक लोगों की संभावना है 1-pbinom(599, 1000, prob=0.5), जो 1.364232e-10 (एक बिलियन में 1 से कम) के बराबर है।


1

ऐसा इसलिए है क्योंकि उच्च संख्या अधिक सटीकता सुनिश्चित करती है। पूर्व के लिए, यदि आप ग्रह पर कहीं से भी 1000 यादृच्छिक लोगों को उठाएंगे और उनमें से 599 पुरुष 6 पुरुष के साथ 10 यादृच्छिक लोगों के खिलाफ हैं, तो पूर्व अधिक सटीक होगा। इसी तरह, यदि आप 7 बिलियन की आबादी को मानते हैं और पुरुषों की संख्या की गणना करते हैं, तो आपको अधिक सटीक संख्या मिलेगी जो जाहिर तौर पर सिर्फ 1000 लोगों की तुलना में अधिक आश्वस्त होगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.