जब नमूना "जनसंख्या" सांख्यिकीय अनुमान है


47

कल्पना कीजिए कि आपको उन उम्मीदवारों की संख्या पर रिपोर्टिंग करनी होगी जो वार्षिक रूप से दिए गए टेस्ट को लेते हैं। उदाहरण के लिए, लक्ष्य आबादी की विशिष्टता के कारण व्यापक आबादी पर, सफलता के%% का अनुमान लगाना मुश्किल है। तो आप विचार कर सकते हैं कि ये डेटा पूरी आबादी का प्रतिनिधित्व करते हैं।

क्या परीक्षणों के परिणाम यह दर्शाते हैं कि पुरुषों और महिलाओं के अनुपात वास्तव में सही हैं? क्या मनाया और सैद्धांतिक अनुपातों की तुलना करने वाला परीक्षण एक सही प्रतीत होता है, क्योंकि आप पूरी आबादी पर विचार करते हैं (और नमूना नहीं)?

जवाबों:


31

इस पर अलग-अलग राय हो सकती है, लेकिन मैं जनसंख्या के आंकड़ों को एक नमूने के रूप में मानूंगा और एक काल्पनिक आबादी मानूंगा, फिर सामान्य तरीके से अनुमान लगा सकते हैं। इस बारे में सोचने का एक तरीका यह है कि एकत्रित डेटा, "जनसंख्या" वितरण के लिए जिम्मेदार एक अंतर्निहित डेटा जनरेटिंग प्रक्रिया है।

आपके विशेष मामले में, इससे और भी अधिक समझ में आ सकता है क्योंकि आपके पास भविष्य में सहकर्मी होंगे। फिर आपकी आबादी वास्तव में सहवास है जो भविष्य में भी परीक्षा देती है। इस तरह, आप समय आधारित विविधताओं का हिसाब लगा सकते हैं यदि आपके पास एक वर्ष से अधिक का डेटा है, या अपने त्रुटि मॉडल के माध्यम से अव्यक्त कारकों के लिए खाते का प्रयास करें। संक्षेप में, आप अधिक व्याख्यात्मक शक्ति के साथ समृद्ध मॉडल विकसित कर सकते हैं।


4
ए जेलमैन के इस पोस्ट के सामने आने के बाद, नमूना के बजाय पूरी आबादी का विश्लेषण करते समय सांख्यिकीय विश्लेषण कैसे भिन्न होता है? , J.mp/cZ1WSI । एक "सुपर-जनसंख्या" की अवधारणा पर विचारों को बदलने के बारे में एक अच्छा प्रारंभिक बिंदु।
chl

2
@chl: रोचक - मुझे याद दिलाता है कि गेलमैन ने एएनओएए पर अपने पेपर में फिक्स्ड / सुपर-इफेक्ट की तुलना में परिमित / सुपर जनसंख्या अनुमान की चर्चा की थी। ]।
आर्स

+1 मैं बस फिर से (Google के माध्यम से) वापस आया। मुझे लगता है कि आपका जवाब हाजिर है।
शेन

25

वास्तव में, यदि आप वास्तव में सकारात्मक हैं तो आपके पास पूरी आबादी है, यहां तक ​​कि आंकड़ों में जाने की कोई आवश्यकता नहीं है। फिर आपको पता है कि अंतर कितना बड़ा है, और इसका कोई कारण नहीं है कि इसका कोई और परीक्षण किया जाए। एक शास्त्रीय गलती सांख्यिकीय महत्व को "प्रासंगिक" महत्व के रूप में उपयोग कर रही है। यदि आप जनसंख्या का नमूना लेते हैं, तो अंतर यह है कि यह क्या है।

दूसरी ओर, यदि आप अपनी परिकल्पना में सुधार करते हैं, तो उम्मीदवारों को संभावित उम्मीदवारों के नमूने के रूप में देखा जा सकता है, जो सांख्यिकीय परीक्षण के लिए अनुमति देगा। इस मामले में, आप सामान्य रूप से परीक्षण करेंगे कि क्या नर और मादा हाथ में परीक्षण पर अलग-अलग हैं।

जैसा कि अर्स ने कहा, आप कई वर्षों के परीक्षणों का उपयोग कर सकते हैं और एक यादृच्छिक कारक के रूप में समय जोड़ सकते हैं। लेकिन अगर आपकी रुचि वास्तव में इस विशेष परीक्षा में इन उम्मीदवारों के बीच अंतर में है, तो आप सामान्यीकरण का उपयोग नहीं कर सकते हैं और परीक्षण संवेदनहीन है।


15

परंपरागत रूप से, सांख्यिकीय अनुमान संभाव्यता नमूनों और नमूना त्रुटि की प्रकृति के संदर्भ में पढ़ाया जाता है। यह मॉडल महत्व की परीक्षा का आधार है। हालांकि, मौका से व्यवस्थित प्रस्थान करने के अन्य तरीके हैं और यह पता चलता है कि हमारे पैरामीट्रिक (नमूना आधारित) परीक्षण इन विकल्पों के अच्छे अनुमान हैं।

परिकल्पना के पैरामीट्रिक परीक्षण संभावित त्रुटि के अनुमानों का उत्पादन करने के लिए नमूनाकरण सिद्धांत पर भरोसा करते हैं। यदि किसी दिए गए आकार का एक नमूना आबादी से लिया गया है, तो नमूना की व्यवस्थित प्रकृति का ज्ञान परीक्षण और आत्मविश्वास के अंतराल को सार्थक बनाता है। आबादी के साथ, नमूना सिद्धांत केवल प्रासंगिक नहीं है और पारंपरिक अर्थों में परीक्षण सार्थक नहीं हैं। अनुमान बेकार है, इसमें कुछ भी नहीं है, बस बात है ... पैरामीटर ही।

कुछ लोग इसके बारे में सुपर-पॉपुलेशन के लिए अपील करते हैं जो वर्तमान जनगणना का प्रतिनिधित्व करता है। मुझे लगता है कि ये अपील असंवैधानिक हैं - संभावना परीक्षण और इसकी विशेषताओं पर पैरामीट्रिक परीक्षण किए गए हैं। एक निश्चित समय पर एक आबादी समय और स्थान पर एक बड़ी आबादी का एक नमूना हो सकती है। हालाँकि, मुझे ऐसा कोई तरीका नहीं दिखता है कि कोई वैध रूप से यह तर्क दे सके कि यह एक यादृच्छिक (या आमतौर पर संभाव्यता का कोई भी रूप) नमूना है। संभाव्यता नमूने के बिना, नमूना सिद्धांत और परीक्षण के पारंपरिक तर्क बस लागू नहीं होते हैं। आप एक सुविधा नमूने के आधार पर बस परीक्षण कर सकते हैं।

स्पष्ट रूप से, जनसंख्या का उपयोग करते समय परीक्षण को स्वीकार करने के लिए, हमें नमूनाकरण प्रक्रियाओं में उन परीक्षणों के आधार पर विघटित करने की आवश्यकता है। इसका एक तरीका यह है कि हमारे नमूना-सिद्धांत संबंधी परीक्षणों - जैसे कि टी, जेड, और एफ - और यादृच्छिककरण प्रक्रियाओं के बीच घनिष्ठ संबंध को मान्यता दी जाए। रैंडमाइजेशन परीक्षण हाथ में नमूने पर आधारित होते हैं। यदि मैं पुरुषों और महिलाओं की आय पर डेटा एकत्र करता हूं, तो संभाव्यता मॉडल और त्रुटि के हमारे अनुमानों का आधार वास्तविक डेटा मूल्यों के यादृच्छिक आवंटन हैं। मैं इस रैंडमाइजेशन के आधार पर समूहों में देखे गए अंतरों को एक वितरण में तुलना कर सकता हूं। (हम इसे हर समय प्रयोगों में करते हैं, वैसे, जहां जनसंख्या मॉडल से यादृच्छिक नमूना शायद ही कभी उपयुक्त होता है)।

अब, यह पता चला है कि नमूना-सिद्धांत संबंधी परीक्षण अक्सर यादृच्छिककरण परीक्षणों के अच्छे अनुमान हैं। इसलिए, अंततः, मुझे लगता है कि आबादी से परीक्षण इस ढांचे के भीतर उपयोगी और सार्थक हैं और मौका भिन्नता से व्यवस्थित को अलग करने में मदद कर सकते हैं - जैसे नमूना-आधारित परीक्षणों के साथ। वहाँ पहुंचने के लिए इस्तेमाल किया जाने वाला तर्क थोड़ा अलग है, लेकिन इसका व्यावहारिक अर्थ और परीक्षणों के उपयोग पर बहुत अधिक प्रभाव नहीं है। बेशक, यह बेहतर होगा कि सीधे रैंडमाइजेशन और क्रमपरिवर्तन परीक्षणों का उपयोग किया जाए क्योंकि वे आसानी से हमारी सभी आधुनिक कंप्यूटिंग शक्ति के साथ आसानी से उपलब्ध हैं।


3
समझदार चर्चा के लिए +1; कुछ बिंदु हालांकि। जनसंख्या विश्लेषण के लिए अव्यावहारिक मशीनरी अनुपलब्ध है, लेकिन कई मॉडलिंग मामलों में, मैं सवाल करूंगा कि क्या कभी किसी के पास जनसंख्या डेटा है - जिसके साथ, अक्सर, यह छिद्रों को रोकने के लिए बहुत मुश्किल नहीं है। तो यह हमेशा एक सुपर जनसंख्या के लिए अपील नहीं है, क्योंकि वह तैनाती के साधन के रूप में है। "सुपर जनसंख्या" के बजाय, बेहतर तरीका यह है कि डेटा बनाने की प्रक्रिया को उपज माना जाए, उदाहरण के लिए, वर्ष से वर्ष परीक्षण के लिए प्रश्नपत्र में ले जाना। यही वह जगह है जहां स्टोकेस्टिक घटक उत्पन्न होता है।
20:14

2
मुझे नहीं लगता कि जनसंख्या विश्लेषण के लिए हीन मशीनरी की कमी को छोड़कर यहां कोई असहमति है। रैंडमाइजेशन परीक्षण आबादी पर लागू होते हैं और यथोचित परीक्षण कर सकते हैं कि क्या डेटा जनरेट करने की प्रक्रिया एक रैंडम जेनरेटिंग प्रक्रिया बनाम सिस्टमेटिक जेनरेटिंग प्रोसेस की वजह से संभव है। वे यादृच्छिक नमूने को ग्रहण नहीं करते हैं और मौका बनाम व्यवस्थित बदलाव के प्रत्यक्ष परीक्षण हैं। हमारे पारंपरिक परीक्षण उनके लिए बहुत अच्छी तरह से खड़े होने के लिए होते हैं।
ब्रेट

यह सच है पुन:: "हीन मशीनरी की कमी"। मेरी ओर से लापरवाही से, विशेषकर जब से मुझे आपके उत्तर में यादृच्छिकरण परीक्षणों के बारे में आपके द्वारा बनाई गई बात पसंद आई।
ars

माफ़ करना। मुझे यह समझने में कठिनाइयाँ हैं कि मैं क्रमपरिवर्तन की गणना कैसे करूँगा और उनके लिए क्या निष्कर्ष निकालूँगा।
18

क्या बूटस्ट्रैपिंग एक वैध विकल्प नहीं है? बूटस्ट्रैपिंग इन दोनों में से किसी भी धारणा को बनाने की आवश्यकता को हल करने में कैसे विफल हो जाता है?
चेरनॉफ़ जूल

3

परिणाम मान लें कि उम्मीदवार लिंग की रेखाओं के साथ भिन्न हैं। उदाहरण के लिए, परीक्षण पूरा करने वालों का अनुपात निम्नानुसार है: 40% महिला और 60% पुरुष। स्पष्ट सुझाव देने के लिए, 40% 60% से अलग है। अब क्या तय करना महत्वपूर्ण है: 1) आपकी ब्याज की आबादी; 2) आपकी टिप्पणियों में ब्याज की आबादी से संबंधित कैसे हैं। इन दो मुद्दों के बारे में कुछ विवरण इस प्रकार हैं:

  1. यदि आप ब्याज की आबादी सिर्फ आपके द्वारा देखे गए उम्मीदवारों (जैसे, 2016 में विश्वविद्यालय में आवेदन करने वाले 100 उम्मीदवार) हैं, तो आपको सांख्यिकीय महत्व परीक्षणों की रिपोर्ट करने की आवश्यकता नहीं है। ऐसा इसलिए है क्योंकि आपकी रुचि की जनसंख्या पूरी तरह से नमूना है ... आप सभी के बारे में परवाह करते हैं कि आपके पास 100 उम्मीदवार हैं जिनके पास पूरा डेटा है। यानी 60%, पूर्ण विराम, 40% से भिन्न। इस सवाल का जिस तरह का सवाल है, क्या कार्यक्रम में लागू होने वाली 100 की आबादी में लिंग अंतर था? यह एक वर्णनात्मक प्रश्न है और इसका उत्तर हां है।

  2. हालांकि, कई महत्वपूर्ण प्रश्न इस बारे में हैं कि विभिन्न सेटिंग्स में क्या होगा। यही है, कई शोधकर्ता अतीत के बारे में रुझानों के साथ आना चाहते हैं जो हमें भविष्य की भविष्यवाणी करने (और फिर योजना बनाने) में मदद करते हैं। इस संबंध में एक उदाहरण का सवाल यह होगा कि, लिंग के आधार पर उम्मीदवारों के भविष्य के परीक्षण अलग-अलग होने की कितनी संभावना है? इसके बाद के परिदृश्य में ब्याज की जनसंख्या # 1 से अधिक व्यापक है। इस बिंदु पर, एक महत्वपूर्ण प्रश्न पूछना है: क्या आपके देखे गए डेटा में भविष्य के रुझानों के प्रतिनिधि होने की संभावना है? यह एक मूल प्रश्न है, और मूल पोस्टर द्वारा प्रदान की गई जानकारी के आधार पर, उत्तर है: हम नहीं जानते।

संक्षेप में, आप जो आंकड़े रिपोर्ट करते हैं, वह उस प्रश्न के प्रकार पर निर्भर करता है जिसका आप जवाब देना चाहते हैं।

बुनियादी अनुसंधान डिजाइन के बारे में सोचना सबसे अधिक मददगार हो सकता है (यहाँ प्रयास करें: http://www.socialresearchmethods.net/kb/design.php )। यदि आप अधिक उन्नत जानकारी चाहते हैं (यहाँ एक लेख है जो मदद कर सकता है: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ) के बारे में सोचकर सुपरपोज़ीशन के बारे में सोच सकते हैं ।


2

यदि आप इस पर विचार करते हैं कि यह जो भी है, आप एक यादृच्छिक प्रक्रिया होने के लिए माप रहे हैं, तो हाँ सांख्यिकीय परीक्षण प्रासंगिक हैं। उदाहरण के लिए, एक सिक्का को 10 बार फ्लिप करके देखें कि क्या यह उचित है। आपको 6 सिर और 4 पूंछ मिलती हैं - आप क्या निष्कर्ष निकालते हैं?


1
मुझे वास्तव में समझ में नहीं आता है कि सिक्का उछालने के मुद्दे पर आप जिस निष्कर्ष पर पहुँचे हैं, वह पूछे गए सवाल से संबंधित है। शायद आप उस बिंदु पर थोड़ा विस्तार कर सकते हैं? सांख्यिकीय परीक्षण इस हद तक प्रासंगिक प्रतीत होते हैं कि वे एक बड़ी आबादी के लिए देखे गए परिणामों का अनुमान लगाने में मदद करते हैं, चाहे वह एक संदर्भ या सामान्य आबादी हो। यहाँ प्रश्न यह प्रतीत होता है: यह देखते हुए कि नमूना परीक्षार्थियों की आबादी के लिए निश्चित समयावधि (यहाँ, एक वर्ष) के करीब है, क्या व्यक्तिगत स्तर पर संभावित मतभेदों के बारे में निर्णय तक पहुँचने का सही तरीका शास्त्रीय निष्कर्ष है?
chl

1
@chl हां, लेकिन ऐसा लगता है कि ओपी सफलता की एक अंतर्निहित संभावना का पता लगाने की कोशिश कर रहा है। परीक्षण यह निर्धारित करने के लिए सैद्धांतिक वितरण के अवलोकन अनुपातों की तुलना करते हैं कि क्या किसी विश्वास स्तर के लिए अंतर है। आप यादृच्छिकता के किसी भी रूप के लिए परीक्षण कर रहे हैं, न कि केवल त्रुटि यादृच्छिकता का नमूना लेना।
जेम्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.