किसी दिए गए आकलन तकनीक और मापदंडों के लिए एक नमूना कितना बड़ा होना चाहिए?


12

क्या किसी नियम या अंगूठे का कोई तरीका भी यह बताने के लिए है कि किसी दिए गए मापदंडों के साथ मॉडल का अनुमान लगाने के लिए कितना बड़ा नमूना होना चाहिए?

इसलिए, उदाहरण के लिए, यदि मैं 5 मापदंडों के साथ एक न्यूनतम-वर्ग प्रतिगमन का अनुमान लगाना चाहता हूं, तो नमूना कितना बड़ा होना चाहिए?

क्या यह मायने रखता है कि आप किस आकलन तकनीक का उपयोग कर रहे हैं (जैसे अधिकतम संभावना, कम से कम वर्ग, जीएमएम), या आप कितने या कौन से परीक्षण करने जा रहे हैं? क्या निर्णय लेते समय नमूना परिवर्तनशीलता को ध्यान में रखा जाना चाहिए?

जवाबों:


11

तुच्छ उत्तर यह है कि अधिक डेटा हमेशा कम डेटा के लिए पसंद किया जाता है।

छोटे नमूने के आकार की समस्या स्पष्ट है। रैखिक प्रतिगमन (ओएलएस) में तकनीकी रूप से आप एक मॉडल जैसे कि ओएलएस फिट कर सकते हैं जहां n = k + 1 है, लेकिन आपको इसमें से रबिश यानी बहुत बड़ी मानक त्रुटियां मिलेंगी। इस विषय पर माइक्रोनुमेरोसिटी नामक आर्थर गोल्डबर्गर द्वारा एक महान पेपर है जिसे उनकी पुस्तक ए कोर्स इन इकोनोमेट्रिक्स के अध्याय 23 में संक्षेप में प्रस्तुत किया गया है

एक सामान्य अनुमान यह है कि आपके द्वारा अनुमान किए जाने वाले प्रत्येक पैरामीटर के लिए 20 अवलोकन होने चाहिए। यह हमेशा आपके मानक त्रुटियों के आकार (और इसलिए महत्व परीक्षण) और आपके नमूने के आकार के बीच का व्यापार होता है। यह एक कारण है कि हममें से कुछ महत्व परीक्षण से घृणा करते हैं क्योंकि आप एक विशाल नमूने के साथ एक अविश्वसनीय रूप से छोटे (रिश्तेदार) मानक त्रुटि प्राप्त कर सकते हैं और इसलिए भोले परीक्षणों पर व्यर्थ सांख्यिकीय महत्व पाते हैं जैसे कि क्या प्रतिगमन गुणांक शून्य है।

जबकि नमूना आकार महत्वपूर्ण है आपके नमूने की गुणवत्ता अधिक महत्वपूर्ण है जैसे कि नमूना जनसंख्या के लिए सामान्य है, क्या यह एक साधारण यादृच्छिक नमूना या कुछ अन्य उपयुक्त नमूना पद्धति है (और इसका विश्लेषण के दौरान जवाब दिया गया है), क्या माप त्रुटि है , प्रतिक्रिया पूर्वाग्रह, चयन पूर्वाग्रह, आदि।


3

मुझे रेज़मैप्लिंग का उपयोग करना पसंद है: मैं डेटा की एक सबमप्लिमेंट के साथ जो भी विधि का उपयोग करता हूं उसे दोहराता हूं (जैसे कि 80% या कुल का 50% भी)। कई अलग-अलग उपसमूहों के साथ ऐसा करने से, मुझे लगता है कि अनुमान कितने मजबूत हैं। कई अनुमान प्रक्रियाओं के लिए यह आपकी त्रुटियों के एक वास्तविक (अर्थ लोककल्याण) अनुमान में बनाया जा सकता है।


2

यह हमेशा काफी बड़ा होना चाहिए! ;)

सभी पैरामीटर अनुमान एक अनुमान अनिश्चितता के साथ आते हैं, जो नमूना आकार द्वारा निर्धारित किया जाता है। यदि आप एक प्रतिगमन विश्लेषण करते हैं, तो यह अपने आप को याद दिलाने में मदद करता है कि इनपुट डेटा सेट से is 2 वितरण का निर्माण किया जाता है। यदि आपके मॉडल में 5 पैरामीटर थे और आपके पास 5 डेटा बिंदु थे, तो आप केवल distribution 2 वितरण के एक बिंदु की गणना करने में सक्षम होंगे । चूंकि आपको इसे कम से कम करने की आवश्यकता होगी, आप केवल उस एक बिंदु को न्यूनतम के लिए एक अनुमान के रूप में चुन सकते हैं, लेकिन अपने अनुमानित मापदंडों को अनंत त्रुटियों को असाइन करना होगा। अधिक डेटा पॉइंट्स होने से आप पैरामीटर स्पेस को बेहतर तरीके से मैप कर सकते हैं, जिससे न्यूनतम and 2 डिस्ट्रीब्यूशन का बेहतर अनुमान लगाया जा सकता है और इस तरह छोटे एसेसमेंट एरर हो सकते हैं।

क्या आप अधिकतम संभावना आकलनकर्ता का उपयोग कर रहे हैं बजाय स्थिति समान होगी: अधिक डेटा बिंदु न्यूनतम के बेहतर अनुमान की ओर ले जाते हैं।

बिंदु विचरण के लिए, आपको इसे भी मॉडल करना होगा। अधिक डेटा पॉइंट्स होने से "ट्रू" मान के आस-पास के बिंदुओं की क्लस्टरिंग अधिक स्पष्ट हो जाएगी (केंद्रीय सीमा प्रमेय के कारण) और उस बिंदु के लिए सही मान के रूप में एक बड़े, संभावना प्रवाह की व्याख्या करने का खतरा कम हो जाएगा। और किसी भी अन्य पैरामीटर के लिए बिंदु विचरण के लिए आपका अनुमान अधिक स्थिर हो जाएगा जितना अधिक डेटा बिंदु आपके पास होगा।


2

मैंने इस संबंध में अंगूठे के दो नियम सुने हैं। एक तो यह है कि जब तक केंद्रीय सीमा प्रमेय, उदाहरण के लिए 20 या 30, को ठीक करने के लिए त्रुटि अवधि में पर्याप्त अवलोकन हैं, आप ठीक हैं। दूसरे का मानना ​​है कि प्रत्येक अनुमानित ढलान के लिए कम से कम 20 या 30 अवलोकन होने चाहिए। लक्ष्य संख्या के रूप में 20 या 30 का उपयोग करने के बीच का अंतर विभिन्न विचारों पर आधारित है जब केंद्रीय सीमा प्रमेय को यथोचित रूप से प्रकट करने के लिए पर्याप्त अवलोकन हैं।


1
दो जवाब मुझे बहुत अलग लगते हैं। एक कहता है 20 से 30, दूसरा कहता है 20 से 30 बार ढलान। इसलिए यदि आपके पास 5 ढलान हैं, तो एक नियम आपको 20 से 30 बताता है, अन्य 100 से 150 अवलोकन। यह मेरे लिए सही नहीं लगता है ....
विवि

1
वे बहुत अलग दिशा निर्देश हैं। मुझे इस बात पर संदेह है कि क्या आपको लगता है कि समग्र मॉडल का परीक्षण मायने रखता है (निचला N दिशानिर्देश) या अलग-अलग ढलानों का परीक्षण जो मायने रखता है (उच्च N दिशानिर्देश)।
रुसैलपिएरेस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.