मैं अर्थमिति और आर के साथ कुछ अनुभव के साथ एक अर्थशास्त्र का छात्र हूं। मैं जानना चाहूंगा कि क्या कभी ऐसी स्थिति है, जहां हमें एक प्रतिगमन में एक चर को शामिल करना चाहिए, इसके बावजूद सांख्यिकीय रूप से महत्वपूर्ण नहीं है?
मैं अर्थमिति और आर के साथ कुछ अनुभव के साथ एक अर्थशास्त्र का छात्र हूं। मैं जानना चाहूंगा कि क्या कभी ऐसी स्थिति है, जहां हमें एक प्रतिगमन में एक चर को शामिल करना चाहिए, इसके बावजूद सांख्यिकीय रूप से महत्वपूर्ण नहीं है?
जवाबों:
हाँ!
यह गुणांक शून्य से सांख्यिकीय रूप से अप्रभेद्य है इसका मतलब यह नहीं है कि गुणांक वास्तव में शून्य है, कि गुणांक अप्रासंगिक है। एक प्रभाव सांख्यिकीय महत्व के लिए कुछ मनमाना कटऑफ नहीं पास करता है, इसका मतलब यह नहीं है कि किसी को इसके लिए नियंत्रित करने का प्रयास नहीं करना चाहिए।
आम तौर पर, हाथ में समस्या और आपके शोध के डिजाइन को यह पता लगाना चाहिए कि रजिस्टरों के रूप में क्या शामिल होना चाहिए।
और इसे एक विस्तृत सूची के रूप में न लें। यह टन के साथ आने के लिए मुश्किल नहीं है ...
ऐसी स्थिति जहां यह अक्सर होता है, निश्चित प्रभावों के साथ एक प्रतिगमन है ।
मान लें कि आपके पास पैनल डेटा है और मॉडल में का अनुमान लगाना चाहते हैं :
साधारण कम से कम वर्गों जहां के साथ इस मॉडल का आकलन तय प्रभाव के रूप में इलाज कर रहे हैं एक साथ साधारण कम से कम वर्गों चल के बराबर है सूचक चर प्रत्येक व्यक्ति के लिए ।
वैसे भी, मुद्दा यह है कि चर (यानी सूचक चर पर गुणांक) अक्सर खराब अनुमान लगाया जाता है। कोई भी व्यक्तिगत निश्चित प्रभाव अक्सर सांख्यिकीय रूप से महत्वहीन होता है। लेकिन आप अभी भी प्रतिगमन में सभी संकेतक चर शामिल करते हैं यदि आप निश्चित प्रभावों का ध्यान रख रहे हैं।
(आगे ध्यान दें कि जब आप बिल्ट-इन विधियों का उपयोग करते हैं तो अधिकांश आँकड़े पैकेज आपको व्यक्तिगत निश्चित प्रभावों के लिए मानक त्रुटि भी नहीं देंगे। आप वास्तव में व्यक्तिगत निश्चित प्रभावों के महत्व के बारे में परवाह नहीं करते हैं। आप शायद उनके सामूहिक महत्व के बारे में परवाह करते हैं। ।)
यदि आप कुछ वक्र पर th डिग्री बहुपद को फिट कर रहे हैं , तो आप लगभग हमेशा निचले क्रम बहुपद को शामिल करते हैं।
उदाहरण के लिए, यदि आप 2 क्रम के बहुपदों को फिट कर रहे थे तो आप चलेंगे:
आमतौर पर को बाध्य करने के लिए यह काफी विचित्र होगा और इसके बजाय
लेकिन न्यूटनियन यांत्रिकी के छात्र अपवादों की कल्पना करने में सक्षम होंगे।
मान लीजिए कि आप AR (p) मॉडल का अनुमान लगा रहे थे, जिसमें आप निचले क्रम की शर्तें भी शामिल करेंगे। उदाहरण के लिए AR (2) के लिए आप दौड़ेंगे:
और इसे चलाना विचित्र होगा:
जैसा कि @NickCox में उल्लेख है, और शब्द समान रूप से एक साथ चलते हैं। उस पर और अधिक के लिए, यह पेपर देखें ।पाप
जब आप ऐसा करने के लिए अच्छे सैद्धांतिक कारण होते हैं तो आप राइट-हैंड साइड वैरिएबल को शामिल करना चाहते हैं।
और StackExchange चर्चा में यहाँ और अन्य उत्तरों के रूप में, चरण-वार चर चयन कई सांख्यिकीय समस्याएं पैदा कर सकता है।
इसके बीच अंतर करना भी महत्वपूर्ण है:
उत्तरार्द्ध मामले में, यह गुणांक बहस नहीं करता समस्याग्रस्त है। यह बस खराब मापा जा सकता है।
हां, वहां हैं। कोई भी चर जो आपके प्रतिक्रिया चर के साथ एक सार्थक तरीके से, यहां तक कि सांख्यिकीय रूप से महत्वहीन स्तर पर सहसंबंधित हो सकता है, अगर यह शामिल नहीं है तो आपके प्रतिगमन को भ्रमित कर सकता है। इसे अंडरस्क्रिफिकेशन के रूप में जाना जाता है, और पैरामीटर अनुमानों की ओर जाता है जो उतने सटीक नहीं हैं जितना कि वे अन्यथा हो सकते हैं।
https://onlinecourses.science.psu.edu/stat501/node/328
ऊपर में से:
यदि प्रतिगमन समीकरण एक या अधिक महत्वपूर्ण पूर्वसूचक चरों को याद कर रहा है, तो एक प्रतिगमन मॉडल अंडरस्क्रिफ़ाइड (परिणाम 2) है। यह स्थिति शायद सबसे खराब स्थिति है, क्योंकि एक अंडरसीप्ड मॉडल पक्षपाती प्रतिगमन गुणांक और प्रतिक्रिया के पक्षपाती भविष्यवाणियों का उत्पादन करता है। यही है, मॉडल का उपयोग करने में, हम जनसंख्या ढलान और आबादी के साधनों को लगातार कम या ज्यादा आंकेंगे। पहले से ही खराब मामलों को और भी बदतर बनाने के लिए, माध्य वर्ग त्रुटि MSE को अधिक σ² की ओर ले जाती है, जिससे व्यापक आत्मविश्वास अंतराल उत्पन्न होता है।
आमतौर पर आप उनके महत्व के कारण रैखिक प्रतिगमन के लिए चर शामिल या शामिल नहीं करते हैं। आप उन्हें शामिल करते हैं क्योंकि आप मानते हैं कि चयनित चर प्रतिगमन मानदंड के अच्छे (अच्छे) भविष्यवक्ता हैं। दूसरे शब्दों में, भविष्यवक्ता चयन सिद्धांत पर आधारित है।
रैखिक प्रतिगमन में सांख्यिकीय महत्व दो चीजों का मतलब हो सकता है (जिनमें से मुझे पता है):
तुच्छ भविष्यवाणियों को बाहर करने का एक वैध कारण यह है कि आप भविष्यवाणियों के सबसे छोटे उपसमूह की तलाश कर रहे हैं जो मानदंड विचरण या इसके अधिकांश विवरण को समझाते हैं। यदि आपको यह मिल गया है तो अपने सिद्धांत की जाँच करें।
अर्थमिति में यह बाएं और दाएं होता है। उदाहरण के लिए, यदि आप तिमाही सीज़न डमीज़ क्यू 2, क्यू 3 और क्यू 4 का उपयोग कर रहे हैं, तो अक्सर ऐसा होता है कि एक समूह के रूप में वे महत्वपूर्ण हैं, लेकिन उनमें से कुछ व्यक्तिगत रूप से महत्वपूर्ण नहीं हैं। इस मामले में आप आमतौर पर उन सभी को रखते हैं।
अद्यतन: एक और आम उदाहरण पूर्वानुमान है। अर्थमिति आमतौर पर अर्थशास्त्र विभागों में अनुमान के दृष्टिकोण से पढ़ाई जाती है। अनुमान के परिप्रेक्ष्य में बहुत अधिक ध्यान पी-मूल्यों और महत्व पर है, क्योंकि आप यह समझने की कोशिश कर रहे हैं कि क्या और क्या कारण हैं। पूर्वानुमान में, इस सामान पर अधिक जोर नहीं दिया जाता है, क्योंकि आप सभी का ध्यान रखते हैं कि मॉडल कितनी अच्छी तरह से ब्याज के चर का अनुमान लगा सकता है।
यह मशीन सीखने के अनुप्रयोगों, btw के समान है, जो हाल ही में अर्थशास्त्र में अपना रास्ता बना रहे हैं। आपके पास सभी महत्वपूर्ण चर के साथ एक मॉडल हो सकता है जो अच्छी तरह से पूर्वानुमान नहीं करता है। एमएल में इसे अक्सर "ओवर फिटिंग" कहा जाता है। पूर्वानुमान में ऐसे मॉडल का बहुत कम उपयोग होता है, जाहिर है।
आप दो अलग-अलग प्रश्न पूछ रहे हैं:
संपादित करें: यह मूल पोस्ट के बारे में सच था, लेकिन अब संपादन के बाद सच नहीं हो सकता है।
Q1 के बारे में, मुझे लगता है कि यह बहुत व्यापक होने की सीमा पर है। कई संभावित उत्तर हैं, कुछ पहले से ही प्रदान किए गए हैं। एक और उदाहरण है जब पूर्वानुमान के लिए मॉडल का निर्माण (एक स्पष्टीकरण के लिए नीचे उद्धृत स्रोत देखें)।
Q2 के संबंध में, सांख्यिकीय महत्व मॉडल निर्माण के लिए एक ध्वनि मानदंड नहीं है। Rob J. Hyndman अपने ब्लॉग पोस्ट में "वेरिएबल सेलेक्शन के लिए सांख्यिकीय परीक्षण" लिखते हैं :
सांख्यिकीय महत्व आमतौर पर यह निर्धारित करने के लिए एक अच्छा आधार नहीं है कि क्या एक मॉडल में एक चर को शामिल किया जाना चाहिए, इस तथ्य के बावजूद कि बहुत से लोग जो बेहतर जानते हैं उन्हें इस उद्देश्य के लिए उपयोग करना चाहिए। <...> सांख्यिकीय परीक्षणों को परिकल्पनाओं का परीक्षण करने के लिए डिज़ाइन किया गया था, न कि चयनात्मक चर।
यह भी ध्यान दें कि आप अक्सर कुछ चर पा सकते हैं जो संयोग से विशुद्ध रूप से महत्वपूर्ण हैं (मौका महत्वपूर्ण स्तर की आपकी पसंद द्वारा नियंत्रित किया जा रहा है)। यह अवलोकन कि एक चर सांख्यिकीय रूप से महत्वपूर्ण है, यह निष्कर्ष निकालने के लिए पर्याप्त नहीं है कि चर मॉडल में है।
मैं एक और "हां" जोड़ूंगा। मुझे हमेशा सिखाया गया है - और मैंने इसे पास करने की कोशिश की है - कि कोवरिएट पसंद में प्राथमिक विचार डोमेन ज्ञान है, आंकड़े नहीं। उदाहरण के लिए, बायोस्टैटिस्टिक्स में, यदि मैं व्यक्तियों पर कुछ स्वास्थ्य परिणामों के बारे में बता रहा हूं, तो कोई फर्क नहीं पड़ता कि प्रतिगमन क्या कहता है, आपको मॉडल में उम्र, दौड़ और सेक्स को शामिल नहीं करने के लिए कुछ अच्छे तर्क देने होंगे।
यह आपके मॉडल के उद्देश्य पर भी निर्भर करता है। यदि उद्देश्य इस बात की बेहतर समझ प्राप्त कर रहा है कि आपके परिणामों में कौन से कारक सबसे अधिक जुड़े हुए हैं, तो एक पार्सिमेनस मॉडल के निर्माण में कुछ गुण हैं। यदि आप भविष्यवाणी के बारे में परवाह करते हैं, और समझने के बारे में इतना नहीं है, तो कोवरिएट को खत्म करना एक छोटी चिंता हो सकती है।
(अंत में, यदि आप परिवर्तनशील चयन के आँकड़ों का उपयोग करने की योजना बना रहे हैं, तो इस बात की जाँच करें कि फ्रैंक हरेल का इस विषय पर क्या कहना है - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ , और उनकी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ । संक्षेप में, जब तक आप सबसे अच्छा भविष्यवक्ता चुनने के लिए स्टेपवाइज़ या समान सांख्यिकीय-आधारित रणनीतियों का उपयोग करते हैं, तब तक "क्या ये अच्छे भविष्यवक्ता हैं?" के कोई भी परीक्षण बहुत ही पक्षपाती हैं - बेशक वे '? अच्छे भविष्यवक्ता, आपने उन्हें उस आधार पर चुना है, और इसलिए उन भविष्यवक्ताओं के लिए p मान मिथ्या है।)
केवल एक चीज जो "सांख्यिकीय महत्वहीनता" का परिणाम वास्तव में कहती है, वह यह है कि टाइप I त्रुटि के चयनित स्तर पर, हम यह भी नहीं बता सकते हैं कि आश्रित चर पर रेजिस्टर का प्रभाव सकारात्मक है या नकारात्मक (इस पोस्ट को देखें)।
इसलिए, यदि हम इस प्रतिगमन को बनाए रखते हैं, तो आश्रित चर पर इसके स्वयं के प्रभाव के बारे में किसी भी चर्चा के पास इसे वापस करने के लिए सांख्यिकीय प्रमाण नहीं हैं।
लेकिन यह अनुमान विफलता यह नहीं कहती है कि regressor संरचनात्मक संबंध से संबंधित नहीं है, यह केवल कहता है कि विशिष्ट डेटा सेट के साथ हम कुछ निश्चितता के साथ इसके गुणांक के संकेत को निर्धारित करने में असमर्थ थे।
इसलिए सिद्धांत रूप में, अगर सैद्धांतिक तर्क हैं जो इसकी उपस्थिति का समर्थन करते हैं, तो रजिस्ट्रर को रखा जाना चाहिए।
यहाँ अन्य उत्तरों ने विशिष्ट मॉडल / परिस्थितियाँ प्रदान कीं, जिनके लिए इस तरह के रजिस्टरों को विनिर्देश में रखा गया है, उदाहरण के लिए निश्चित प्रभाव पैनल मॉडल का उल्लेख करते हुए उत्तर।
यदि विशेष रूप से सांख्यिकीय रूप से महत्वपूर्ण नहीं है, तो आप विशेष रुचि के एक चर को शामिल कर सकते हैं। इसके अलावा, जैव सांख्यिकी में, नैदानिक महत्व अक्सर सांख्यिकीय महत्व से अलग होता है।