क्या होगा यदि आपका यादृच्छिक नमूना स्पष्ट रूप से प्रतिनिधि नहीं है?


28

क्या होगा यदि आप एक यादृच्छिक नमूना लेते हैं और आप देख सकते हैं कि यह स्पष्ट रूप से प्रतिनिधि नहीं है, जैसा कि हालिया प्रश्न में है । उदाहरण के लिए, क्या होगा यदि जनसंख्या वितरण 0 के आसपास सममित माना जाता है और आपके द्वारा बेतरतीब ढंग से खींचे गए नमूने में असंतुलित सकारात्मक और नकारात्मक अवलोकन होते हैं, और असंतुलन सांख्यिकीय रूप से महत्वपूर्ण है, तो यह आपको कहां छोड़ता है? आप एक पक्षपाती नमूने के आधार पर जनसंख्या के बारे में क्या उचित बयान दे सकते हैं? ऐसी स्थिति में कार्रवाई का एक उचित पाठ्यक्रम क्या है? क्या फर्क पड़ता है जब हमारे शोध में हम इस असंतुलन को नोटिस करते हैं?


2
माइकल, इस समस्या के 20 में एक बार होने की उम्मीद की जा सकती है, अगर हम अपने मीट्रिक के रूप में सांख्यिकीय महत्व का उपयोग करते हैं। अक्सर हम यह नहीं जानते कि जब हमने यादृच्छिक रूप से गैर-प्रतिनिधि नमूना चुना है क्योंकि हम आबादी के बारे में पर्याप्त नहीं जानते हैं। लेकिन जब हम आबादी के बारे में कुछ जानते हैं, और हम इस तरह की विसंगति को देखते हैं, तो हम क्या करते हैं?
जोएल डब्ल्यू।

3
हां, सबसे सही अभ्यास एक बड़ा पर्याप्त यादृच्छिक नमूना प्राप्त करना है, जैसे @MichaelChernick ने लिखा है। हालांकि, मेरे प्रोफेसरों में से एक ने मुझे बताया कि उसने मोंटे कार्लो सिमुलेशन द्वारा सत्यापित किया है कि, जब एक शोधकर्ता को नमूना आकार को बढ़ाना होता है, तो यह केवल नमूने में सांख्यिकीय एकता जोड़ने के लिए सही नहीं है, लेकिन किसी को नमूना दोहराना है। अन्यथा, आंकड़े पक्षपाती (एक बार फिर से!) हो सकते हैं।
this.is.not.a.nick

4
@ मीकल, मुझे समझ नहीं आ रहा है कि आपका कथन सत्य क्यों है। .05 से कम का पी-वैल्यू सैंपल साइज की परवाह किए बिना 5% समय की अशक्त परिकल्पना के तहत होगा । तो यह कैसे संभव हो सकता है कि बड़े नमूना आकार इस समस्या को हल करेंगे? यह मुझे लगता है कि आपकी सिफारिश परिकल्पना परीक्षणों के आकार और शक्ति को भ्रमित करने के लिए पाठकों को आमंत्रित करती है।
whuber

2
@ मिसेल, आपका क्या मतलब है कि हमें यादृच्छिक पर अधिक डेटा एकत्र करना चाहिए? क्या हम आशा करते हैं कि हम बेतरतीब ढंग से एक नमूना दूसरी दिशा में पक्षपाती हैं? किसी भी मामले में, हमें कितने अतिरिक्त मामलों को आकर्षित करना चाहिए? क्या आप सुझाव देते हैं कि हम शुरुआत में एक नंबर निर्धारित करते हैं या एक रोक नियम का उपयोग करते हैं? यदि कोई रोक नियम है, तो नियम कैसा दिख सकता है? अंत में, भले ही परिणामी बड़े नमूने में सांख्यिकीय रूप से महत्वपूर्ण पूर्वाग्रह न हों, हम जानते हैं कि इसमें दो नमूने शामिल हैं, एक पूर्वाग्रह के साथ और एक बिना। आप इस तरह के एक जटिल नमूने के आधार पर आबादी के बारे में क्या उचित बयान दे सकते हैं?
जोएल डब्ल्यू।

2
@ मिचेल एक वैकल्पिक निष्कर्ष यह है कि अत्यधिक महत्वपूर्ण, अत्यधिक तिरछा नमूना नमूना प्रक्रिया के साथ एक समस्या को इंगित करता है। यदि हां, तो समरूपता की कमी एक बड़े नमूने में बनी रहेगी।
whuber

जवाबों:


7

जवाब एमएलएस द्वारा दिए गए (प्रयोग महत्व नमूना) केवल मान्यताओं आप अपने वितरण के बारे में कर सकते हैं के रूप में अच्छा के रूप में है। परिमित जनसंख्या नमूना प्रतिमान की मुख्य ताकत यह है कि यह गैर-पैरामीट्रिक है, क्योंकि यह परिमित जनसंख्या मापदंडों पर अनुमान (वैध) के लिए डेटा के वितरण के बारे में कोई धारणा नहीं बनाता है।

नमूना असंतुलन के लिए सही करने के लिए एक दृष्टिकोण को पोस्ट-स्तरीकरण कहा जाता है । आपको गैर-अतिव्यापी कक्षाओं (पोस्ट-स्ट्रेटा) में नमूने को तोड़ने की जरूरत है, और फिर ज्ञात जनसंख्या के आंकड़ों के अनुसार इन वर्गों को फिर से वजन करें। यदि आपकी आबादी को 0 के माध्यिका के लिए जाना जाता है, तो आप सकारात्मक और नकारात्मक टिप्पणियों को पुन: लोड कर सकते हैं ताकि उनके भारित अनुपात 50-50 हो जाएं: यदि आपके पास 10 नकारात्मक टिप्पणियों और 20 सकारात्मक टिप्पणियों के साथ एक अशुभ एसआरएस था, तो आप दे देंगे। नकारात्मक 15/10 = 1.5 का वजन और सकारात्मक वाले 15/20 = 0.75 हैं।

नमूना अंशांकन के अधिक सूक्ष्म रूप मौजूद हैं , जिसमें आप अपने नमूने को अधिक सामान्य बाधाओं को संतुष्ट करने के लिए कैलिब्रेट कर सकते हैं, जैसे कि एक निरंतर चर का मतलब विशिष्ट मूल्य के बराबर होना। समरूपता की कमी के साथ काम करना बहुत मुश्किल है, हालांकि यह संभव भी हो सकता है। हो सकता है कि जीन ऑप्सोमर के पास इस पर कुछ है: वह सर्वेक्षण डेटा के लिए बहुत सारे कर्नेल आकलन कार्य कर रहा है।


केवल असंतुलित नमूने को त्यागने और दूसरे नमूने को खींचने के लिए पोस्ट-स्तरीकरण की तुलना तार्किक या सांख्यिकीय रूप से कैसे की जाती है? (कभी-कभी नमूना खींचना अनुसंधान का श्रम गहन हिस्सा होता है, लेकिन कभी-कभी ऐसा होता है कि आपके द्वारा नमूना खींचे जाने के बाद ऐसा किया जाता है जो श्रम गहन होता है और नमूने को खींचना अपेक्षाकृत मामूली प्रयास होता है, जितना कि प्रायोगिक अनुसंधान में।)
जोएल डब्ल्यू ।

2
मैं कभी भी ऐसी स्थिति में नहीं रहा जहां डेटा को त्यागना सबसे अच्छा जवाब है, और मैंने कभी भी सर्वेक्षण की आँकड़ों की किताबों में इसकी चर्चा नहीं की है। अधिकांश सर्वेक्षण आँकड़ों में, डेटा प्राप्त करना निम्न डेटा प्रोसेसिंग और विश्लेषणों की तुलना में कम से कम पाँच गुना अधिक महंगा है (शायद कुछ सस्ते वेब सर्वेक्षणों के लिए जहां डेटा संग्रह लगभग मुफ्त है)। यदि आप एक प्रयोगात्मक दुनिया में हैं, तो आपको अपनी पोस्ट "नमूनाकरण" को टैग नहीं करना चाहिए, और इसके बजाय "प्रयोग डिजाइन" का उपयोग करना चाहिए।
StasK

यादृच्छिक नमूनों का उपयोग स्तरीकृत के बजाय किया जा सकता है क्योंकि वास्तविक दुनिया की सेटिंग में स्तरीकरण के कई संभावित तरीके हैं। ऐसा हो सकता है कि एक प्रयोग के लिए दो यादृच्छिक नमूनों का चयन करने के बाद, आप कुछ प्रमुख असंतुलन पर ध्यान दें। फिर आप एक चट्टान और एक कठिन जगह के बीच फंस गए हैं: असंतुलन के साथ रहते हैं (जैसे, एक समूह में सभी पुराने लोग, एक समूह में सभी गैर-देशी वक्ताओं, एक समूह में सभी पीएच.डी., आदि), या एक पूर्व आकर्षित करें नया नमूना और आपके द्वारा किए गए और सभी सांख्यिकीय तकनीकों की मान्यताओं के बीच संबंध को कमजोर करता है। पोस्ट-स्तरीकरण दूसरे प्रकार का लगता है।
जोएल डब्ल्यू।

2

मैं यहां का जूनियर सदस्य हूं, लेकिन मैं कहूंगा कि त्याग करना और शुरू करना हमेशा सबसे अच्छा जवाब होता है, यदि आप जानते हैं कि आपका नमूना महत्वपूर्ण रूप से अप्रमाणिक है, और यदि आपको इस बात का अंदाजा है कि पहली जगह में अप्रस्तुत नमूना कैसे उत्पन्न हुआ है? और अगर दूसरी बार संभव हो तो इससे कैसे बचा जा सकता है।

यदि आप शायद एक ही नाव में अंत करेंगे, तो दूसरी बार नमूना लेने से क्या अच्छा होगा?

यदि डेटा एकत्र करना फिर से समझ में नहीं आता है या निषेधात्मक रूप से महंगा है, तो आपको जो कुछ भी है उसके साथ काम करना होगा, स्तरीकरण, प्रतिरूपण, कट्टरपंथी मॉडलिंग या जो भी हो, के माध्यम से अप्रतिस्पर्धीता के लिए क्षतिपूर्ति करने का प्रयास करना होगा। आपको स्पष्ट रूप से ध्यान देने की आवश्यकता है कि आपने इस तरह से मुआवजा दिया है, आपको लगता है कि यह आवश्यक है, और आपको क्यों लगता है कि यह काम किया है। फिर अनिश्चितता से काम करें जो आपके विश्लेषण से आपके मुआवजे से उत्पन्न हुई। (यह आपके निष्कर्षों को कम निश्चित करेगा, है ना?)

यदि आप ऐसा नहीं कर सकते हैं, तो आपको पूरी तरह से परियोजना को छोड़ने की आवश्यकता है।


क्या होगा अगर आपको नहीं पता कि नमूना अप्रमाणिक क्यों है, तो क्या आप अभी भी इसे त्यागने और एक नया, यादृच्छिक नमूना बनाने में न्यायसंगत हैं? यदि नहीं, तो क्यों नहीं? इसके अलावा, मान लें कि आप पहले नमूने को छोड़ देते हैं और दूसरे को आकर्षित करते हैं, क्या आप पहले नमूने को खारिज करने के कारण किसी भी तरह से अनुपयुक्त दूसरे नमूने के आधार पर गणना कर सकते हैं? उदाहरण के लिए, यदि आप अप्रमाणित नमूनों को त्यागने के लिए सदस्यता लेते हैं, तो क्या आप नमूना वितरण को बदल रहे हैं जो आपका सांख्यिकीय परीक्षण आधारित है? यदि हां, तो क्या आप सांख्यिकीय महत्व खोजना आसान या कठिन बना रहे हैं?
जोएल डब्ल्यू।

@ अच्छा विचार।
सुभाष सी। दावर

1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

आप कहते हैं कि नमूना पक्षपाती नहीं है और नमूना को ठीक करने का कोई भी प्रयास पूर्वाग्रह जोड़ देगा। मेरा सुझाव है कि नमूना जिसके द्वारा एकत्र किया गया था वह प्रक्रिया बिना पूर्वाग्रह के है, लेकिन वास्तव में, नमूना पक्षपाती है, शायद गंभीरता से पक्षपाती। क्या ज्ञात बड़े पूर्वाग्रह को ठीक करने की कोशिश करने के तरीके हैं जो अपेक्षाकृत कम अतिरिक्त पूर्वाग्रह को पेश करने की उम्मीद कर सकते हैं?
जोएल डब्ल्यू।

1
शब्दावली को थोड़ा अलग करने के लिए: मैं पूर्वाग्रह को एक यादृच्छिक चर की उम्मीद के गुण के रूप में समझता हूं। दूसरे शब्दों में, यदि डेटा एकत्र करने वाली प्रक्रिया निष्पक्ष है, तो नमूना है। हालांकि, नमूना अभी भी असामान्य हो सकता है और अवांछित निष्कर्षों की ओर ले जा सकता है। इसे ठीक करने का कोई भी सामान्य तरीका पूर्वाग्रह पैदा करता है, क्योंकि आप (निष्पक्ष) नमूना प्रक्रिया को अपना रहे हैं। संभवतः नए नमूनों को इकट्ठा करने और उनका उपयोग करने के लिए कम पक्षपाती दृष्टिकोण है। थोड़ा अधिक पक्षपाती दृष्टिकोण इन नए नमूनों को पुराने के साथ जोड़ देगा, लेकिन परिणाम कम चर हो सकता है क्योंकि आपके पास कुल नमूने अधिक हैं।
MLS

2
@Joel डब्ल्यू। जब आप कहते हैं कि नमूना पक्षपाती है तो आपका क्या मतलब है? क्या यह उस नमूने के आधार पर माध्य का अनुमान है जो पक्षपाती है? कोई भी नमूना अनुमान सही अर्थ से अलग होने वाला है और कुछ दूर भी हो सकता है। जब बेतरतीब ढंग से सैंपल लिया जाता है, तो यह वैरिएशन के कारण होता है। यह कहना सही नहीं है कि एक नमूना पक्षपाती है क्योंकि नमूना का वितरण आबादी के लिए वितरण से बहुत अलग दिखने के लिए जाना जाता है। छोटे नमूनों में कई एक कारण या किसी अन्य के लिए अप्रमाणिक दिख सकते हैं लेकिन यादृच्छिक नमूनाकरण पक्षपाती नमूना नहीं है।
बजे माइकल आर

1
@ मीकल, मैं मानता हूं कि हमें यादृच्छिक विचरण को पहचानना और जीना होगा जब हमें करना होगा। मैं पूछ रहा हूं कि जब हम अनपेक्षित विचरण का पता लगाते हैं तो हम क्या कर सकते हैं। क्या होगा यदि हमारे यादृच्छिक नमूने अपेक्षाकृत बहुत अधिक युवा लोगों, या बहुत सारे नीले कॉलर श्रमिकों, आदि को शामिल करने के लिए निकलते हैं, जब वे श्रेणियां हमारे शोध के लिए प्रासंगिक होती हैं? इससे भी आगे जाते हुए, क्या हमें अपने नमूनों की जांच करनी चाहिए कि क्या वे इस तरह से असंतुलित हैं? और क्या इससे कोई फर्क पड़ता है कि यदि हम नमूने के साथ अनुसंधान करने से पहले यह नोटिस करते हैं या हमने नमूने के साथ अनुसंधान करने में संसाधनों का निवेश किया है?
जोएल डब्ल्यू।

1
कोवरिएट असंतुलन बहुत महत्वपूर्ण है। यदि यह एक नमूने में मौजूद है, तो इसके लिए समायोजित करने के लिए एक प्रतिगमन मॉडल का उपयोग किया जा सकता है। वैंस बर्जर ने इस विषय पर एक पुस्तक लिखी है, जिसे मैंने संभवतः इस वेबसाइट पर पहले उद्धृत किया है। यहाँ पुस्तक के विवरण के लिए एक अमेज़न लिंक है। amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
माइकल आर। चेर्निक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.