जब आप वितरण नहीं जानते तो नमूना कैसे लें


9

मैं आँकड़ों के लिए काफी नया हूँ (शुरुआती स्तर के यूनी पाठ्यक्रमों के एक मुट्ठी भर) और अज्ञात वितरण से नमूने के बारे में सोच रहा था। विशेष रूप से, यदि आपके पास अंतर्निहित वितरण के बारे में कोई विचार नहीं है, तो क्या आपके पास "गारंटी" का कोई तरीका है जो आपको प्रतिनिधि नमूना मिलता है?

उदाहरण के लिए उदाहरण: कहते हैं कि आप धन के वैश्विक वितरण का पता लगाने की कोशिश कर रहे हैं। किसी भी व्यक्ति के लिए, आप किसी भी तरह से उनकी सही संपत्ति का पता लगा सकते हैं; लेकिन आप पृथ्वी के हर एक व्यक्ति का "नमूना" नहीं कर सकते। तो, मान लीजिए कि आप यादृच्छिक पर n = 1000 लोगों का नमूना लेते हैं।

  1. यदि आपके नमूने में बिल गेट्स शामिल नहीं हैं, तो आप सोच सकते हैं कि अस्तित्व में कोई अरबपति नहीं हैं।

  2. यदि आपने सैंपल में बिल गेट्स को शामिल किया है, तो आप सोच सकते हैं कि अरबपति वास्तव में जितने हैं, उससे अधिक सामान्य हैं।

किसी भी मामले में, आप वास्तव में यह नहीं बता सकते कि आम या दुर्लभ अरबपति कैसे हैं; आप यह बताने में भी सक्षम नहीं होंगे कि क्या कोई भी मौजूद है।

क्या इस तरह के एक मामले के लिए एक बेहतर नमूना तंत्र मौजूद है?

आप एक प्राथमिकता कैसे बताएंगे कि किस नमूना प्रक्रिया का उपयोग करना है (और कितने नमूनों की आवश्यकता है)?

यह मुझे प्रतीत होता है कि आपको जनसंख्या का एक बड़ा प्रतिशत "नमूना" करना पड़ सकता है, यह जानने के लिए कि उचित निश्चितता के निकट कुछ भी हो, ग्रह पर कितने सामान्य या दुर्लभ अरबपति हैं, और यह अंतर्निहित वितरण के कारण थोड़ा मुश्किल है काम साथ में करने केलिए।


1
धन के मामले के वितरण में, बहुत कुछ इस बात पर निर्भर करेगा कि उद्देश्य क्या था। यदि उदाहरण के लिए उद्देश्य धन के स्तर का अनुमान लगाना था जो किसी व्यक्ति को शीर्ष 10%, शीर्ष 20% और इतने पर डाल देगा, तो यह महत्वपूर्ण नहीं होगा कि नमूना में अरबपति शामिल थे या नहीं। लेकिन अगर इसका उद्देश्य कुल 10% कुल संपत्ति के अनुपात का अनुमान लगाना था, तो संभवत: नमूना संभाला अरबपति कैसे महत्वपूर्ण होंगे। यहाँ सामान्य बात यह है कि क्या एक नमूना प्रतिनिधि हमेशा आप क्या करने की कोशिश कर रहे हैं के सापेक्ष है।
एडम बैली

वास्तव में? खुली समस्या, उत्तर अच्छे होना, अभी भी अनुमान हैं (कभी-कभी बेहतर, कभी-कभी बदतर)। यह एक खुली समस्या है, शायद आंकड़ों की एकल खुली समस्या
निकोस एम।

जवाबों:


9

मैं आपके दावे पर विवाद करता हूं कि "किसी भी मामले में, आप वास्तव में यह नहीं बता सकते कि आम या दुर्लभ अरबपति कैसे हैं"। चलो आबादी में अरबपतियों की अज्ञात अंश हो। पर पहले से एक समान होने के साथ , 0 बिलियनियर के लिए निकले ड्रॉ के बाद का पीछे वितरण एक बीटा (1,1001) वितरण है, जो इस तरह दिखता है: 1000पी (च | ख = 0)

जबकि बिलियन के बाद के पीछे का वितरण जो 1 अरबपति निकला, वह बीटा (2,1000) वितरण है, जो इस प्रकार है: 1000पी (च | ख = 1)

दोनों मामलों में, आप काफी निश्चित हो सकते हैं कि । आप सोच सकते हैं कि यह पर्याप्त सटीक नहीं है। लेकिन वास्तव में 0.01 आकार 1000 के एक नमूने के लिए काफी सटीक है। अधिकांश अन्य मात्राएं जिनके बारे में आप अनुमान लगा सकते हैं कि यह इससे कम सटीक होगी। उदाहरण के लिए, पुरुषों का अंश केवल आकार 0.1 की सीमा के भीतर अनुमानित किया जा सकता है। <0.01


7

दो चीजें हैं जो आप कर सकते हैं (अलग से या संयोजन में)

पूंछ को मॉडल करें

एक पैरामीट्रिक वितरण का उपयोग करके वितरण की पूंछ को मॉडल करना है। पावर कानूनों को धन के वितरण को अच्छी तरह से फिट करने के लिए जाना जाता है, इसलिए आप पारेतो वितरण का प्रयास करें। आप या तो उस वितरण को अधिकतम संभावना से फिट करेंगे, जो कि उन मापदंडों को खोजकर है जो आपके नमूने का सबसे अच्छा प्रतिनिधित्व करते हैं। या बेहतर, आप मापदंडों पर एक बायेसियन पुजारी डाल सकते हैं, और पूर्ण पश्च की गणना कर सकते हैं।

दुर्भाग्य से, शक्ति कानून मापदंडों के प्रति बहुत संवेदनशील हैं, और आपके नमूने में कई बड़े डेटा पॉइंट्स के बिना, घातांक के बारे में बहुत अनिश्चितता होगी। अरबपतियों की अनुमानित संख्या इस पैरामीटर के प्रति संवेदनशील होगी, लेकिन अरबपतियों की औसत संपत्ति से बहुत कम है, इसलिए स्थिति बहुत खराब नहीं है।

महत्व का नमूना

दूसरा तरीका यह है कि आप अपना नमूना एकत्र करने के तरीके को बदलें। मान लीजिए कि आपको संदेह है (जैसा कि आपको चाहिए) मोनाको या ज्यूरिख में मोगादिशु की तुलना में प्रति व्यक्ति अधिक अरबपति हैं। यदि आप इन शहरों में से प्रत्येक की आबादी को जानते हैं, तो आप उन शहरों में एक बड़ा नमूना एकत्र कर सकते हैं जहां आप अधिक अरबपतियों को देखने की उम्मीद करते हैं, और दूसरों में एक छोटा।

तो कहते हैं कि ज्यूरिख में 400,000 लोग और मोगादिशु 1,400,000 हैं और हम 9,000 लोगों को मतदान करना चाहते हैं। हम यहां करोड़पति की संख्या में रुचि रखते हैं, अरबपति नहीं।

एक निष्पक्ष नमूना ज्यूरिख में 2,000 लोगों और मोगादिशू में 7,000 लोगों का चयन करेगा। हालांकि, हम ज्यूरिख से अधिक बार सात गुना नमूना लेकर नमूना पूर्वाग्रह करेंगे। तो हम "बहाना" करेंगे कि ज्यूरिख में 2,800,000 लोग हैं और बाद में समायोजित करें। इसका मतलब है कि हम ज्यूरिख में 2,000 के बजाय 6,000 और मोगादिशु में 4,000 लोगों को मतदान करेंगे।

कहते हैं कि हम अपने ज्यूरिख नमूने में 21 करोड़पति और हमारे मोगादिशु नमूने में केवल 1 की गिनती करते हैं। चूंकि हमने ज्यूरिख 7 गुना का नमूना लिया था, हम इसे केवल 3 करोड़पति के रूप में गिनेंगे।

यह प्रक्रिया आपके अनुमानक के विचरण को कम करेगी। यह पहली विधि के साथ संयोजन के रूप में भी इस्तेमाल किया जा सकता है, जिस स्थिति में आप एक पैरामीट्रिक वितरण को फिट करते समय महत्वपूर्ण नमूने के लिए समायोजन कर रहे होंगे।


6

मुझे लगता है कि एक अच्छा नमूना विधि प्रणाली के पिछले ज्ञान पर आधारित है। आपके क्षेत्र में, आपके पास संभावित गैसों के बारे में ज्ञान है जो आपके नमूने को प्रभावित कर सकता है। यदि आपके पास वह ज्ञान नहीं है, तो आप इसे साहित्य से प्राप्त कर सकते हैं।

आपके उदाहरण में, आप जानते हैं कि अरबपति हैं और वे आपके नमूने को पूर्वाग्रहित कर सकते हैं। तो आप शिक्षा के स्तर, देश, नौकरी के प्रकार, आदि के नमूने का स्तरीकरण करने का निर्णय ले सकते हैं। कई विकल्प हैं।

आइए एक और उदाहरण के साथ प्रयास करें। आपका उद्देश्य एक पार्क में चूहों की प्रजातियों की प्रचुरता का निर्धारण करना है। इस पार्क में, जंगल और घास के मैदान हैं। साहित्य से, आप जानते हैं कि जंगल घास के मैदानों की तुलना में अधिक प्रचुर मात्रा में हैं। तो आप इस विशेषता के द्वारा अपने नमूने का स्तरीकरण करें। अन्य नमूना प्रक्रिया संभव है, लेकिन मुझे लगता है कि आपकी सबसे अच्छी जानकारी मौजूदा साहित्य से होगी।

और अगर आपके क्षेत्र के बारे में कोई साहित्य नहीं है? बेहतर, लेकिन उस संदर्भ में, मैं यह देखने के लिए एक पूर्व-अध्ययन करूंगा कि नमूने लेने के लिए किन कारकों को ध्यान में रखना चाहिए।


2

एक नमूना प्रतिनिधि है या नहीं, इसका नमूना के देखे गए मापों से कोई लेना-देना नहीं है। एक नमूना प्रतिनिधि होता है यदि अवलोकन इकाइयों के प्रत्येक सेट को उसी आकार के किसी अन्य सेट के रूप में चुने जाने की समान संभावना होती है। बेशक यह तब तक करना मुश्किल है जब तक आप अपने नमूना स्थान की पूरी गणना नहीं कर सकते। यह मानते हुए कि आप (उदाहरण के लिए जनगणना पथ डेटा से) प्राप्त कर सकते हैं, एक साधारण यादृच्छिक नमूना प्रतिनिधि होगा।

कोई फर्क नहीं पड़ता कि आप अपना नमूना कैसे प्राप्त करते हैं, इस पर विचार करने के लिए हमेशा कम से कम तीन अलग-अलग स्रोत होंगे:

नमूनाकरण त्रुटि: संयोग से आप बिल गेट्स को अपने प्रतिनिधि नमूने में शामिल करते हैं। सांख्यिकीय तरीके, विशेष रूप से आत्मविश्वास अंतराल की चौड़ाई आदि को ध्यान रखने के लिए डिज़ाइन किया गया है, बशर्ते आपको हाथ में वितरण का कुछ मोटा ज्ञान हो (जैसे सामान्यता, जो धन वितरण निश्चित रूप से पास नहीं है)।

नमूनाकरण पूर्वाग्रह: नमूना प्रतिनिधि नहीं था। उदाहरण: बिल गेट्स के पास एक असूचीबद्ध संख्या है, इसलिए आपका टेलीफोन सर्वेक्षण कभी भी उस तक नहीं पहुंच सकता है (जब तक कि आप "रैंडम-डिजिट डायलॉग" जैसी किसी चीज का उपयोग नहीं करते)। यह एक चरम उदाहरण है, लेकिन नमूनाकरण पूर्वाग्रह बहुत व्यापक है। एक आम घटना पर साइट या सुविधा के नमूने लेने के लिए है: आप नमूना रेस्तरां संरक्षक रेस्तरां में है कि क्या वे जगह की तरह, वे कितनी बार किए गए हैं या नहीं और वे वापसी की योजना के रूप में। बार-बार ग्राहकों को एक बार के ग्राहकों की तुलना में नमूना लेने की संभावना अधिक होती है, और इस प्रकार के नमूने उनके नजरिए में गंभीर रूप से पक्षपाती हो सकते हैं।

प्रतिक्रिया पूर्वाग्रह: माप स्वयं गलत हैं। यह मीटर की खराबी से लेकर क्वांटम प्रभाव (जैसे हाइजेनबर्ग के अनिश्चितता सिद्धांत) के प्रति सचेत रहने के कारण कुछ भी हो सकता है।


इस जवाब में उपयोगी सलाह है और अच्छी जमीन शामिल है। मैं यह सुझाव देना चाहूंगा कि "प्रतिनिधि" का लक्षण वर्णन बहुत अधिक प्रतिबंधात्मक हो सकता है, हालाँकि, यह नमूने के सामान्य और उपयोगी रूपों को शामिल करता है (कुछ अन्य उत्तरों में विशेष रूप से उल्लिखित सहित) जैसे स्तरीकृत नमूनाकरण, महत्व नमूनाकरण और व्यवस्थित नमूने के रूप। । क्या यह अनुमति देना पर्याप्त नहीं होगा कि एक नमूना प्रतिनिधि है जब अवलोकन इकाइयों के किसी भी सेट को शामिल करने का मौका ज्ञात है (और इसलिए इसका उपयोग निष्पक्ष अनुमान लगाने के लिए किया जा सकता है) लेकिन जरूरी नहीं कि किसी दिए गए आकार के सभी सेटों के लिए स्थिर हो?
whuber

@whuber "यह मानने के लिए पर्याप्त नहीं होगा कि एक नमूना प्रतिनिधि है जब अवलोकन इकाइयों के किसी भी सेट को शामिल करने का मौका ज्ञात है ...": यह सही है, और मुझे स्तरीकृत नमूने और महत्व के नमूने को स्वीकार करने के लिए अपने जवाब को संपादित करना चाहिए। हालांकि, व्यवस्थित नमूनाकरण पासा है, और लिंक और अन्य जगहों पर दी गई सलाह बस गलत है। यदि डेटा में व्यवस्थित पैटर्न हैं, तो एक यादृच्छिक आरंभ बिंदु पूर्वाग्रह को समाप्त नहीं करेगा, यह सब यह सुनिश्चित करने के लिए है कि आप पूर्वाग्रह की गणना करने में सक्षम नहीं होंगे।
user3697176

शायद अब तक का सबसे अच्छा जवाब (सांख्यिकीय बिंदु पर सीधे निशाना लगाने के अर्थ में)
निकोस एम।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.