संपूर्ण जनसंख्या पर प्रतिगमन


10

जब पूरी आबादी को शामिल किया जाता है तो एक प्रतिगमन में गुणांक की मानक त्रुटि का क्या अर्थ है?

मैं इस सवाल से बहुत हैरान हूँ। क्योंकि यह मुझे लगता है, मानक त्रुटियों का कोई मतलब नहीं है जब पूरी आबादी को शामिल किया जाता है - क्योंकि आपको पहले से ही पूरी आबादी है, सांख्यिकीय अनुमान की कोई आवश्यकता नहीं है।

लेकिन यह शीर्ष पत्रिकाओं में प्रकाशित कई लेखों द्वारा भी व्यापक रूप से उपयोग किया जाता है। उदाहरण के लिए, यदि मैं किसी देश की जीडीपी वृद्धि दर और उसकी जनसंख्या घनत्व के बीच संबंधों की जांच कर रहा हूं, तो मैं प्रतिगमन चलाता हूं:

GDPi=α+βPopi+γXi+ϵi

पृथ्वी पर सभी 195 देशों के साथ। मामले में, सभी देश (जनसंख्या) शामिल हैं। लेकिन सभी साहित्य अभी भी गुणांक के सांख्यिकीय महत्व के बारे में बात करते हैं।

क्या कोई समझा सकता है कि जब यह पूरी आबादी पर कब्जा कर रहा है तो यह सांख्यिकीय निष्कर्ष का दुरुपयोग है?


इस सवाल का जवाब सांख्यिकी नेटवर्क में दिया गया है। देखें यहाँ । असल में, आंकड़ों की कोई प्रासंगिकता नहीं है। "प्रतिगमन" एक विशुद्ध गणितीय उपकरण है।
ल्यूकोनाचो

@luchonacho मेरी राय यह है कि यह प्रश्न इस विषय पर है कि सामग्री के संबंध में हमारे पास स्वाभाविक रूप से आंकड़े के साथ सोम \ ई ओवरलैप है)। मैं मानता हूं कि यह अनिवार्य रूप से एक डुप्लिकेट है, हालांकि। मुझे क्रॉस-साइट डुप्लिकेट के साथ क्या करना है, की एक चर्चा यहाँ मिली
jmbejara

@jmbejara संदर्भ के लिए धन्यवाद। जानकार अच्छा लगा।
ल्यूकोनाचो

यह एक और प्रासंगिक संदर्भ की तरह लगता है। यह एक संबंधित तकनीक की चर्चा करता है जिसे अटेमी इमबेंस (2017) में चर्चा की गई है। jasonkerwin.com/nonparibus/2017/09/25/…
jmbejara

जवाबों:


4

मैंने शुरू में मॉडरेटर्स के लिए इस सवाल को चिह्नित किया था कि क्या एसई साइट क्रॉस वैलिडेट के आंकड़ों पर माइग्रेट करना बेहतर होगा। लेकिन जब से ओपी ने एक बहुत विशिष्ट अर्थमिति उदाहरण पेश किया है, मेरा मानना ​​है कि "जनसंख्या / नमूना" की (बहुत गहरी) अवधारणा इस उदाहरण के प्रयोजनों के लिए उपयोगी रूप से चर्चा की जा सकती है।

पहला मुद्दा यह है कि @AdamBailey उत्तर में चर्चा की गई है: यदि कोई दिए गए वर्ष या वर्षों के लिए "दुनिया के सभी देशों" पर विचार करता है, और यह डेटा को "जनसंख्या" के रूप में लेबल करता है, तो अगले वर्ष एक अलग आबादी से संबंधित होना चाहिए। यदि यह एक अलग आबादी से संबंधित है, तो हम एक जनसंख्या से परिणाम का उपयोग कैसे कर रहे हैं कि वह दूसरी आबादी के लिए प्रवेश कर सके? तो वास्तव में, यहां हमारी "जनसंख्या" दो-आयामी है , देश और समय की अवधि-इस अर्थ में, समय क्षितिज खुले-समाप्त होने के साथ, हमारे हाथ में केवल एक नमूना है।

GDPi,i=1,..n

इसलिए हमारा डेटा इन यादृच्छिक चर के संभावित संयुक्त बोधों में से एक है। ये अहसास न केवल निर्धारक / इंजीनियरिंग संबंधों / करणीयता (गुणांक में परिलक्षित) के परिणामस्वरूप आए, बल्कि अंतर्निहित यादृच्छिक कारकों के प्रभाव में भी आए। उस अर्थ में, डेटा "आबादी" की "शुद्ध / विशिष्ट" छवि नहीं है-इसमें शोर, गैर-संरचनात्मक गड़बड़ी, एक-बंद झटके आदि शामिल हैं।

फिर यह अनिश्चितता हम अनुमान लगाने की कोशिश कर रहे गुणांक के अनुमान पर ले जाएंगे, क्योंकि हम मानते हैं कि ये गुणांक यादृच्छिक चर के अंतिम मूल्य को प्रभावित करने वाले यादृच्छिक तत्वों से पहले कारण या सह-आंदोलन का वर्णन करते हैं।

उपरोक्त दोनों पहलुओं के कारण, "अनुमानों की मानक त्रुटि" के बारे में बात करना पूरी तरह से मान्य है, इस मामले में भी, और फिर हमेशा की तरह सांख्यिकीय परीक्षण लागू करें।


5

यह विचार करना महत्वपूर्ण है कि वास्तव में आबादी क्या है जिसके बारे में एक अनुमान खींचा जा रहा है। इस संदर्भ में समय के पहलू को नजरअंदाज करना आसान है।

उदाहरण के लिए मान लीजिए कि इसका उद्देश्य दुनिया के प्रत्येक देश के लिए अगले दो वर्षों के सकल घरेलू उत्पाद का पूर्वानुमान है। फिर ब्याज की आबादी "देश, वर्ष" फॉर्म के जोड़े का एक सेट है। यह केवल "सभी देशों" नहीं है, और भले ही एक पूर्वानुमान मॉडल प्रत्येक देश के वर्तमान और पिछले वर्षों के डेटा पर प्रतिगमन द्वारा अनुमानित किया गया है, इसका मतलब यह नहीं है कि ब्याज की पूरी आबादी को शामिल किया गया है।

यदि कोई वास्तव में ब्याज की पूरी आबादी के लिए एक संपूर्ण डेटासेट से शुरू होता है, तो सभी एक कर सकते हैं सारांश आंकड़ों की गणना। इसमें मानक विचलन शामिल हो सकते हैं, लेकिन इन मानक त्रुटियों को कॉल करना अनुचित होगा, क्योंकि यह शब्द एक नमूना वितरण से संबंधित है, जबकि इस मामले में एकमात्र "नमूना" पूरी आबादी है।


आपका बहुत बहुत धन्यवाद। बस इसे और अधिक स्पष्ट करने के लिए, मैंने प्रश्न को अपडेट किया, क्या इस मामले में 'सभी देश' पूरी आबादी माने जाते हैं? अगर वहाँ नहीं हैं, तो इसका मतलब है कि वे कुछ 'सुपर-जनसंख्या' से 'नमूने' हैं - मान लें कि 'समानांतर ब्रह्मांड' में लाखों देश हैं, और पृथ्वी पर 195 देशों को स्वतंत्र रूप से और उनके बीच वितरित किया जाता है और बेतरतीब ढंग से नमूना हैं। क्या यह बहुत दूर की धारणा नहीं है?
अकीरा ओसावा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.