क्यों कई (यदि सभी नहीं) पैरामीट्रिक परिकल्पना परीक्षण यादृच्छिक नमूने मान लेते हैं?


12

Z, t, और कई अन्य जैसे टेस्ट यह मानते हैं कि डेटा यादृच्छिक नमूने पर आधारित है। क्यों?

मान लीजिए कि मैं प्रायोगिक अनुसंधान कर रहा हूं, जहां मैं बाहरी की तुलना में आंतरिक वैधता के लिए बहुत अधिक देखभाल करता हूं। इसलिए, अगर मेरा नमूना थोड़ा सा पक्षपाती हो सकता है, ठीक है, जैसा कि मैंने पूरी आबादी के लिए परिकल्पना का अनुमान नहीं लगाया है। और समूहीकरण अभी भी यादृच्छिक होगा, यानी, मैं नमूना प्रतिभागियों की सुविधा के लिए चुनूंगा, लेकिन मैं उन्हें अलग-अलग समूहों में यादृच्छिक रूप से असाइन करूंगा।

मैं इस धारणा को अनदेखा क्यों नहीं कर सकता?


यदि नमूनाकरण तकनीक एक पूर्वाग्रह का परिचय देती है, तो यह 'यादृच्छिक' नहीं है। यदि यह किसी पूर्वाग्रह का परिचय नहीं देता है तो यह 'यादृच्छिक' (यादृच्छिक की कुछ परिभाषा के लिए ;-)) है। मेरे पास नमूना योजनाएं हैं जो काउंटर नमूने के लिए एक मिलान किए गए नमूना आकार बनाने के लिए बस हर 7 वें नमूने को लेती हैं। हालाँकि मुझे पता था कि उस चयन का कोई विशेष पहलू नहीं था, इसलिए गैर-यादृच्छिक नमूना प्रक्रिया के रूप में क्या सोचा जा सकता है, अभी भी प्रभावी रूप से यादृच्छिक था। यह लॉटरी पर गेंदों 1,2,3,4,5,6 का चयन करने के समान है। यह किसी अन्य अनुक्रम की तरह ही यादृच्छिक है।
फिलिप ओकले

1
@PipipOakley: लॉटरी पर 1,2,3,4,5,6 गेंदों का चयन करने से आपको किसी अन्य चयन के रूप में जीतने का मौका मिलता है, लेकिन आपकी अपेक्षित जीत को कम कर देता है क्योंकि आपको दूसरों के साथ पुरस्कार साझा करने की अधिक संभावना होती है जो एक ही विचार था
हेनरी

1
व्यवस्थित नमूनाकरण, जैसे कि @Pipip द्वारा वर्णित है, अक्सर विश्लेषण किया जाता है जैसे कि यह सरल यादृच्छिक नमूने का उत्पादन करता है, लेकिन इसमें नुकसान होते हैं। उदाहरण के लिए, यदि आप हर दिन एक निर्माण प्रक्रिया को मापते हैं और हर सातवें माप का नमूना लेते हैं, तो आप एक दिन के प्रभाव के साथ अपने परिणामों को भ्रमित करने के अधीन होंगे, क्योंकि (जाहिर है) आप उसी दिन नमूना लेंगे हर हफ्ते। गैर-यादृच्छिक नमूनों के साथ काम करते समय आपको ऐसी सूक्ष्मताओं के बारे में सोचने और पता करने के लिए कड़ी मेहनत करने की आवश्यकता है।
whuber

1
@ शुभचिंतक, बिल्कुल। इन चीजों के बारे में एक व्यक्ति को (और व्यापक रूप से) सोचना चाहिए !! मेरे मामले में मेरे पास घंटों के वीडियो थे, जिसमें सैकड़ों घटनाएँ थीं, बीच में लंबे अंतराल के साथ, इसलिए साधारण लॉजिस्टिक प्रतिगमन के लिए निर्धारित गैर-इवेंट सेट के डेटा का आकार कम करने की आवश्यकता थी (प्रत्येक फ्रेम स्वतंत्र रूप से माना जाता है, फ्रेम के बीच थोड़ा परिवर्तन), इसलिए बहुत सारे गैर-ईवेंट फ़्रेमों को छोड़ना उचित था। समय अनुक्रम पहलू पर अलग से विचार किया गया था।
फिलिप ओकले

1
@Philip दिलचस्प बात यह है कि लगभग उसी समय आप लिख रहे थे कि यादृच्छिकता के बारे में टिप्पणी मौजूद नहीं है, NIST ने एक प्रेस विज्ञप्ति जारी कर दावा किया है कि यह करता हैप्रकृति के आज (4 अप्रैल 2018) के अंक में एक खाता दिखाई देता है ।
whuber

जवाबों:


18

यदि आप अपने वास्तविक नमूने की तुलना में व्यापक समूह के लिए कोई अनुमान नहीं लगा रहे हैं, तो पहली बार में सांख्यिकीय परीक्षणों का कोई आवेदन नहीं है, और "पूर्वाग्रह" का सवाल ही नहीं उठता है। इस मामले में आप बस अपने नमूने के वर्णनात्मक आंकड़ों की गणना करेंगे, जो ज्ञात हैं। इसी तरह, इस मामले में मॉडल "वैधता" का कोई सवाल ही नहीं है - आप केवल चर देख रहे हैं और उनके मूल्यों को रिकॉर्ड कर रहे हैं, और उन मूल्यों के पहलुओं का वर्णन कर रहे हैं।

एक बार जब आप अपने नमूने से परे जाने का फैसला करते हैं, तो किसी बड़े समूह के बारे में अनुमान लगाने के लिए, फिर आपको आँकड़ों की आवश्यकता होगी और आपको नमूने के पूर्वाग्रह जैसे मुद्दों पर विचार करने की आवश्यकता होगी, आदि इस आवेदन में, यादृच्छिक नमूना विश्वसनीय होने में सहायता करने के लिए एक उपयोगी संपत्ति बन जाता है। ब्याज के व्यापक समूह के संदर्भ में। यदि आपके पास यादृच्छिक नमूना नहीं है (और आप जनसंख्या के आधार पर अपने नमूनों की संभावनाओं को नहीं जानते हैं) तो जनसंख्या के बारे में विश्वसनीय अनुमान लगाना कठिन / असंभव हो जाता है।


5

वास्तविक वैज्ञानिक अनुसंधान में, यह डेटा दुर्लभ है जो सच यादृच्छिक नमूने से आया है। डेटा लगभग हमेशा सुविधा नमूने हैं। यह मुख्य रूप से प्रभावित करता है कि आप किस जनसंख्या को सामान्य कर सकते हैं। उन्होंने कहा, भले ही वे एक सुविधा नमूना थे, वे कहीं से आए थे, आपको बस इस बारे में स्पष्ट होना चाहिए कि कहां और कौन सी सीमाएं हैं। यदि आप वास्तव में मानते हैं कि आपका डेटा किसी भी चीज़ का प्रतिनिधि नहीं है, तो आपका अध्ययन किसी भी स्तर पर सार्थक नहीं होगा, लेकिन यह सच नहीं है 1 । इस प्रकार, अपने नमूनों को कहीं से तैयार करना और इन मानक परीक्षणों का उपयोग करने के लिए, कम से कम हेज या योग्य अर्थ में विचार करना अक्सर उचित होता है।

परीक्षण का एक अलग दर्शन है, हालांकि, तर्क है कि हमें उन मान्यताओं और उन परीक्षणों से दूर जाना चाहिए जो उन पर भरोसा करते हैं। टुके इसके एक वकील थे। इसके बजाय, अधिकांश प्रायोगिक अनुसंधान को (आंतरिक रूप से) वैध माना जाता है क्योंकि अध्ययन इकाइयां (उदाहरण के लिए, रोगियों) को बेतरतीब ढंग से हथियारों को सौंपा गया था। इसे देखते हुए, आप क्रमपरिवर्तन परीक्षणों का उपयोग कर सकते हैं , कि ज्यादातर यह मान लें कि यादृच्छिकरण सही ढंग से किया गया था। इस बारे में बहुत अधिक चिंता करने का प्रतिवाद यह है कि क्रमपरिवर्तन परीक्षण आमतौर पर इसी शास्त्रीय परीक्षणों के समान ही दिखाए जाएंगे, और प्रदर्शन करने के लिए अधिक काम करेंगे। तो फिर से, मानक परीक्षण स्वीकार्य हो सकते हैं।

1. इन पंक्तियों के साथ और अधिक के लिए, यहाँ मेरे उत्तर को पढ़ने में मदद मिल सकती है: एक अध्ययन में जनसंख्या और नमूनों की पहचान करना


3

Z, t, और कई अन्य जैसे परीक्षण प्रासंगिक आँकड़ों के ज्ञात नमूना वितरण पर आधारित हैं। वे नमूना वितरण, जैसा कि आमतौर पर उपयोग किया जाता है, एक यादृच्छिक नमूने से गणना की गई आँकड़ा के लिए परिभाषित किया जाता है।

यह कभी-कभी गैर-यादृच्छिक नमूने के लिए एक प्रासंगिक नमूना वितरण को तैयार करना संभव हो सकता है, लेकिन सामान्य तौर पर यह संभव नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.