सांख्यिकीय रूप से महत्वपूर्ण नहीं होने के बावजूद किसी प्रतिगमन में एक चर को कब शामिल करना चाहिए?


37

मैं अर्थमिति और आर के साथ कुछ अनुभव के साथ एक अर्थशास्त्र का छात्र हूं। मैं जानना चाहूंगा कि क्या कभी ऐसी स्थिति है, जहां हमें एक प्रतिगमन में एक चर को शामिल करना चाहिए, इसके बावजूद सांख्यिकीय रूप से महत्वपूर्ण नहीं है?


1
चिकित्सा अनुसंधान में आप इसे शामिल करेंगे यदि इसमें गुणात्मक बातचीत शामिल है। लेसी गुंटर का काम देखें जिसे मैंने पहले यहाँ संदर्भित किया है। 2013 में स्प्रिंगर द्वारा प्रकाशित चक्रवर्ती और मूडी की पुस्तक भी। शीर्षक डायनामिक ट्रीटमेंट रिजीम के लिए स्टैटिस्टिकल मेथड्स: रीइनफोर्समेंट लर्निंग, कॉसल इंट्रेंस और पर्सनलाइज्ड मेडिसिन है।
माइकल आर। चेरिक

11
यह भी विचार करें कि सांख्यिकीय महत्व पूरी तरह से मनमाना है। क्या महत्वपूर्ण है? 0.05? 0.1? 0.001? यदि एक भविष्यवक्ता को शामिल करने के लिए सैद्धांतिक आधार मौजूद है, तो इसे रखने के लिए पर्याप्त कारण है।
ऐश

2
जब आप कहते हैं कि "सांख्यिकीय रूप से महत्वपूर्ण नहीं" तो आपको एहसास होता है कि आत्मविश्वास के 5% स्तर पर, जो एक मनमाना विकल्प है? (और जितने अधिक चर हैं, आप एकाधिक परीक्षण समस्या को उकसाते हैं)।
21

1
@smci 0.05 = 5% महत्त्व का स्तर 95% आत्मविश्वास से मेल खाता है, एक ही वाक्य में शब्दों को मिलाने से बचने के लिए पर्याप्त कारण। जैसा कि दृष्टि में एक आत्मविश्वास अंतराल के बिना महत्व प्रक्रियाएं हैं, आमतौर पर जो भी अधिक प्रासंगिक है, उसका उपयोग करना सबसे आसान है। अपवाद तब हैं जब आप एक परिचयात्मक स्तर पर लिंक की व्याख्या कर रहे हैं।
निक कॉक्स

जवाबों:


30

हाँ!

यह गुणांक शून्य से सांख्यिकीय रूप से अप्रभेद्य है इसका मतलब यह नहीं है कि गुणांक वास्तव में शून्य है, कि गुणांक अप्रासंगिक है। एक प्रभाव सांख्यिकीय महत्व के लिए कुछ मनमाना कटऑफ नहीं पास करता है, इसका मतलब यह नहीं है कि किसी को इसके लिए नियंत्रित करने का प्रयास नहीं करना चाहिए।

आम तौर पर, हाथ में समस्या और आपके शोध के डिजाइन को यह पता लगाना चाहिए कि रजिस्टरों के रूप में क्या शामिल होना चाहिए।

कुछ त्वरित उदाहरण:

और इसे एक विस्तृत सूची के रूप में लें। यह टन के साथ आने के लिए मुश्किल नहीं है ...

1. निश्चित प्रभाव

ऐसी स्थिति जहां यह अक्सर होता है, निश्चित प्रभावों के साथ एक प्रतिगमन है ।

मान लें कि आपके पास पैनल डेटा है और मॉडल में का अनुमान लगाना चाहते हैं :b

yit=bxit+ui+ϵit

साधारण कम से कम वर्गों जहां के साथ इस मॉडल का आकलन तय प्रभाव के रूप में इलाज कर रहे हैं एक साथ साधारण कम से कम वर्गों चल के बराबर है सूचक चर प्रत्येक व्यक्ति के लिए ।uii

वैसे भी, मुद्दा यह है कि चर (यानी सूचक चर पर गुणांक) अक्सर खराब अनुमान लगाया जाता है। कोई भी व्यक्तिगत निश्चित प्रभाव अक्सर सांख्यिकीय रूप से महत्वहीन होता है। लेकिन आप अभी भी प्रतिगमन में सभी संकेतक चर शामिल करते हैं यदि आप निश्चित प्रभावों का ध्यान रख रहे हैं।uiui

(आगे ध्यान दें कि जब आप बिल्ट-इन विधियों का उपयोग करते हैं तो अधिकांश आँकड़े पैकेज आपको व्यक्तिगत निश्चित प्रभावों के लिए मानक त्रुटि भी नहीं देंगे। आप वास्तव में व्यक्तिगत निश्चित प्रभावों के महत्व के बारे में परवाह नहीं करते हैं। आप शायद उनके सामूहिक महत्व के बारे में परवाह करते हैं। ।)

2. कार्य जो एक साथ चलते हैं ...

(ए) बहुपद वक्र फिटिंग (टोपी टिप @ टिप्पणी में नोक)

यदि आप कुछ वक्र पर th डिग्री बहुपद को फिट कर रहे हैं , तो आप लगभग हमेशा निचले क्रम बहुपद को शामिल करते हैं।k

उदाहरण के लिए, यदि आप 2 क्रम के बहुपदों को फिट कर रहे थे तो आप चलेंगे:

yi=b0+b1xi+b2xi2+ϵi

आमतौर पर को बाध्य करने के लिए यह काफी विचित्र होगा और इसके बजाय b1=0

yi=b0+b2xi2+ϵi

लेकिन न्यूटनियन यांत्रिकी के छात्र अपवादों की कल्पना करने में सक्षम होंगे।

(बी) एआर (पी) मॉडल:

मान लीजिए कि आप AR (p) मॉडल का अनुमान लगा रहे थे, जिसमें आप निचले क्रम की शर्तें भी शामिल करेंगे। उदाहरण के लिए AR (2) के लिए आप दौड़ेंगे:

yt=b0+b1yt1+b2yt2+ϵt

और इसे चलाना विचित्र होगा:

yt=b0+b2yt2+ϵt

(c) त्रिकोणमितीय कार्य

जैसा कि @NickCox में उल्लेख है, और शब्द समान रूप से एक साथ चलते हैं। उस पर और अधिक के लिए, यह पेपर देखें ।पापcossin

विस्तार पूर्वक...

जब आप ऐसा करने के लिए अच्छे सैद्धांतिक कारण होते हैं तो आप राइट-हैंड साइड वैरिएबल को शामिल करना चाहते हैं।

और StackExchange चर्चा में यहाँ और अन्य उत्तरों के रूप में, चरण-वार चर चयन कई सांख्यिकीय समस्याएं पैदा कर सकता है।

इसके बीच अंतर करना भी महत्वपूर्ण है:

  • एक छोटे मानक त्रुटि के साथ शून्य से एक गुणांक सांख्यिकीय रूप से अप्रभेद्य ।
  • एक बड़े मानक त्रुटि के साथ शून्य से एक गुणांक सांख्यिकीय रूप से अप्रभेद्य ।

उत्तरार्द्ध मामले में, यह गुणांक बहस नहीं करता समस्याग्रस्त है। यह बस खराब मापा जा सकता है।


आपके पहले उदाहरण को छूते हुए, जिस कारण से हम मॉडल में हैं, ऐसा लगता है कि की व्याख्या यह है कि मॉडल में है या नहीं। (उदाहरण देखें en.wikipedia.org/wiki/Partial_regression_plot-we " के रैखिक प्रभावों के लिए नियंत्रण" वाक्यांश का उपयोग करें । इस स्थिति में, हमारे पास इसके के लिए मॉडल में नहीं है , हमारे पास इसकी व्याख्या है जो हमें देता है। यू मैं यू मैं यू मैंuibuiuiui
user795305

5
कुछ बहुत अच्छे उत्तर जो पहले से ही बहुत अधिक ओवरलैप करते हैं, इसलिए मैं अपने उदाहरणों को यहां एक टिप्पणी पर सीमित कर दूंगा। बहुपद फिटिंग : सबसे आम तौर पर, एक द्विघात लगभग हमेशा रैखिक और चुकता शब्दों के दोहरे अधिनियम द्वारा फिट किया जाना चाहिए। यहां तक ​​कि अगर पारंपरिक स्तरों पर केवल एक शब्द महत्वपूर्ण है, तो उनका संयुक्त प्रभाव महत्वपूर्ण है। त्रिकोणमितीय भविष्यवक्ता इसी तरह, साइन और कोसाइन आमतौर पर एक साथ होते हैं, भले ही कोई पारंपरिक स्तरों पर अर्हता प्राप्त करने में विफल हो। डबल एक्ट को इस तरह फिट किया जाना चाहिए।
निक कॉक्स

2
@NickCox जैसा कि यह एक सामुदायिक विकी है और आपकी बात सीधे यहां उठाए गए व्यक्ति के लिए प्रासंगिक है, मुझे लगता है कि आपकी टिप्पणी एक उपयुक्त समय पर जवाब में संपादित हो जाएगी। मेरी राय में, केवल एक टिप्पणी रहना महत्वपूर्ण है, हालांकि मुझे लगता है कि आप सही हैं कि यह एक मुक्त उत्तर के रूप में सबसे अच्छा नहीं होगा
सिल्वरफ़िश

@ सिल्वरफ़िश मैथ्यू इसे कॉपी करने के लिए स्वागत है। हालाँकि, इसे संपादित करना मेरे लिए थोड़ा उचित है।
निक कॉक्स

1
@ नाइकॉक्स हैहा, मुझे परवाह नहीं है। :) मैंने आपके सुझाव जोड़े और संपादित करने के लिए स्वतंत्र महसूस करता हूँ!
मैथ्यू गन

14

हां, वहां हैं। कोई भी चर जो आपके प्रतिक्रिया चर के साथ एक सार्थक तरीके से, यहां तक ​​कि सांख्यिकीय रूप से महत्वहीन स्तर पर सहसंबंधित हो सकता है, अगर यह शामिल नहीं है तो आपके प्रतिगमन को भ्रमित कर सकता है। इसे अंडरस्क्रिफिकेशन के रूप में जाना जाता है, और पैरामीटर अनुमानों की ओर जाता है जो उतने सटीक नहीं हैं जितना कि वे अन्यथा हो सकते हैं।

https://onlinecourses.science.psu.edu/stat501/node/328

ऊपर में से:

यदि प्रतिगमन समीकरण एक या अधिक महत्वपूर्ण पूर्वसूचक चरों को याद कर रहा है, तो एक प्रतिगमन मॉडल अंडरस्क्रिफ़ाइड (परिणाम 2) है। यह स्थिति शायद सबसे खराब स्थिति है, क्योंकि एक अंडरसीप्ड मॉडल पक्षपाती प्रतिगमन गुणांक और प्रतिक्रिया के पक्षपाती भविष्यवाणियों का उत्पादन करता है। यही है, मॉडल का उपयोग करने में, हम जनसंख्या ढलान और आबादी के साधनों को लगातार कम या ज्यादा आंकेंगे। पहले से ही खराब मामलों को और भी बदतर बनाने के लिए, माध्य वर्ग त्रुटि MSE को अधिक σ² की ओर ले जाती है, जिससे व्यापक आत्मविश्वास अंतराल उत्पन्न होता है।


4
यह बिल्कुल सच नहीं है। एक उलझा हुआ चर होने के लिए इसे स्पष्ट चर और ब्याज के व्याख्यात्मक चर (ओं) का कारण बनने की आवश्यकता है । यदि ब्याज की व्याख्यात्मक चर चर का कारण बनता है, और यह परिणाम को प्रभावित करता है, तो यह एक हस्तक्षेप करने वाला चर है, और आपको इसके लिए नियंत्रण नहीं करना चाहिए (जब तक कि आप कुल प्रभाव को विघटित नहीं करना चाहते)।
मार्टन ब्यूस

1
यह नियंत्रण के विषय पर बहुत ही अपर्याप्त चर्चा है। परिणाम के साथ सहसंबंध भ्रमित करने के लिए एक पर्याप्त स्थिति नहीं है और मध्यस्थों के लिए नियंत्रित करके कारण मॉडल के गलत निर्धारण का कारण बन सकता है: यह "धूम्रपान बंद करता है जैसे कोरोनरी धमनी कैल्शियम (सीएसी)" को नियंत्रित करने के बिना हृदय रोग के जोखिम को कम नहीं करता है। CAC प्राथमिक तरीका है जिससे धूम्रपान आपको हृदय रोग देता है। पर्ल, द्वितीय संस्करण, अध्याय 3 खंड 3 के कारण देखें।
एडम 14

बेझिझक संपादित करें। मुझे नहीं लगता कि वह जवाब में इस तरह की गहराई की तलाश कर रहा था, अगर मेरी निष्ठा में अशुद्धि हुई।
डबलट्रूबल

11

आमतौर पर आप उनके महत्व के कारण रैखिक प्रतिगमन के लिए चर शामिल या शामिल नहीं करते हैं। आप उन्हें शामिल करते हैं क्योंकि आप मानते हैं कि चयनित चर प्रतिगमन मानदंड के अच्छे (अच्छे) भविष्यवक्ता हैं। दूसरे शब्दों में, भविष्यवक्ता चयन सिद्धांत पर आधारित है।

रैखिक प्रतिगमन में सांख्यिकीय महत्व दो चीजों का मतलब हो सकता है (जिनमें से मुझे पता है):

  1. तुच्छ भविष्यवक्ता मापदंड से संबंधित नहीं हैं। उन्हें छोड़ दें लेकिन ध्यान रखें कि तुच्छता साबित नहीं होती है कि वे असंबंधित हैं। अपने सिद्धांत की जाँच करें।
  2. भविष्यवक्ता महत्वहीन हैं क्योंकि उन्हें अन्य भविष्यवक्ताओं के कार्य के रूप में व्यक्त किया जा सकता है। भविष्यवक्ताओं के सेट को तब मल्टीकोलिनर कहा जाता है। यह भविष्यवक्ताओं को किसी भी मायने में "बुरा" नहीं बनाता है बल्कि बेमानी है।

तुच्छ भविष्यवाणियों को बाहर करने का एक वैध कारण यह है कि आप भविष्यवाणियों के सबसे छोटे उपसमूह की तलाश कर रहे हैं जो मानदंड विचरण या इसके अधिकांश विवरण को समझाते हैं। यदि आपको यह मिल गया है तो अपने सिद्धांत की जाँच करें।


[पी] प्रतिगमन मानदंड के redictors ? आप इसे rephrase करना चाह सकते हैं।
रिचर्ड हार्डी

8

अर्थमिति में यह बाएं और दाएं होता है। उदाहरण के लिए, यदि आप तिमाही सीज़न डमीज़ क्यू 2, क्यू 3 और क्यू 4 का उपयोग कर रहे हैं, तो अक्सर ऐसा होता है कि एक समूह के रूप में वे महत्वपूर्ण हैं, लेकिन उनमें से कुछ व्यक्तिगत रूप से महत्वपूर्ण नहीं हैं। इस मामले में आप आमतौर पर उन सभी को रखते हैं।

yxzzxz

अद्यतन: एक और आम उदाहरण पूर्वानुमान है। अर्थमिति आमतौर पर अर्थशास्त्र विभागों में अनुमान के दृष्टिकोण से पढ़ाई जाती है। अनुमान के परिप्रेक्ष्य में बहुत अधिक ध्यान पी-मूल्यों और महत्व पर है, क्योंकि आप यह समझने की कोशिश कर रहे हैं कि क्या और क्या कारण हैं। पूर्वानुमान में, इस सामान पर अधिक जोर नहीं दिया जाता है, क्योंकि आप सभी का ध्यान रखते हैं कि मॉडल कितनी अच्छी तरह से ब्याज के चर का अनुमान लगा सकता है।

यह मशीन सीखने के अनुप्रयोगों, btw के समान है, जो हाल ही में अर्थशास्त्र में अपना रास्ता बना रहे हैं। आपके पास सभी महत्वपूर्ण चर के साथ एक मॉडल हो सकता है जो अच्छी तरह से पूर्वानुमान नहीं करता है। एमएल में इसे अक्सर "ओवर फिटिंग" कहा जाता है। पूर्वानुमान में ऐसे मॉडल का बहुत कम उपयोग होता है, जाहिर है।


1
यह कुछ बिंदुओं पर थोड़ा अतिरंजित लगता है। उदाहरण के लिए, यह मेरे लिए भी स्पष्ट है कि पाठ्यपुस्तकों के एक गैर-अर्थशास्त्री के रूप में अकेले पूर्वानुमान है कि कम से कम कुछ दशकों से अर्थशास्त्रियों को व्यापक रूप से पढ़ाया जाता है। क्या कोई "हालिया" (मतलब ठीक है?) वृद्धि एक अधिक सूक्ष्म बिंदु है जिसे मैं अंदरूनी सूत्रों पर छोड़ता हूं।
निक कॉक्स

@ नाइकॉक्स ने सहमति व्यक्त की, ऐसा लग रहा था जैसे कि पाठ्यक्रम में कोई पूर्वानुमान नहीं है, जो सच नहीं है।
Aksakal

7

आप दो अलग-अलग प्रश्न पूछ रहे हैं:

  1. सांख्यिकीय महत्व कब मायने नहीं रखता?
  2. हमें एक प्रतिगमन में एक चर को शामिल करना चाहिए बावजूद इसके कि यह सांख्यिकीय रूप से महत्वपूर्ण नहीं है?

संपादित करें: यह मूल पोस्ट के बारे में सच था, लेकिन अब संपादन के बाद सच नहीं हो सकता है।


Q1 के बारे में, मुझे लगता है कि यह बहुत व्यापक होने की सीमा पर है। कई संभावित उत्तर हैं, कुछ पहले से ही प्रदान किए गए हैं। एक और उदाहरण है जब पूर्वानुमान के लिए मॉडल का निर्माण (एक स्पष्टीकरण के लिए नीचे उद्धृत स्रोत देखें)।


Q2 के संबंध में, सांख्यिकीय महत्व मॉडल निर्माण के लिए एक ध्वनि मानदंड नहीं है। Rob J. Hyndman अपने ब्लॉग पोस्ट में "वेरिएबल सेलेक्शन के लिए सांख्यिकीय परीक्षण" लिखते हैं :

सांख्यिकीय महत्व आमतौर पर यह निर्धारित करने के लिए एक अच्छा आधार नहीं है कि क्या एक मॉडल में एक चर को शामिल किया जाना चाहिए, इस तथ्य के बावजूद कि बहुत से लोग जो बेहतर जानते हैं उन्हें इस उद्देश्य के लिए उपयोग करना चाहिए। <...> सांख्यिकीय परीक्षणों को परिकल्पनाओं का परीक्षण करने के लिए डिज़ाइन किया गया था, न कि चयनात्मक चर।

यह भी ध्यान दें कि आप अक्सर कुछ चर पा सकते हैं जो संयोग से विशुद्ध रूप से महत्वपूर्ण हैं (मौका महत्वपूर्ण स्तर की आपकी पसंद द्वारा नियंत्रित किया जा रहा है)। यह अवलोकन कि एक चर सांख्यिकीय रूप से महत्वपूर्ण है, यह निष्कर्ष निकालने के लिए पर्याप्त नहीं है कि चर मॉडल में है।


4

मैं एक और "हां" जोड़ूंगा। मुझे हमेशा सिखाया गया है - और मैंने इसे पास करने की कोशिश की है - कि कोवरिएट पसंद में प्राथमिक विचार डोमेन ज्ञान है, आंकड़े नहीं। उदाहरण के लिए, बायोस्टैटिस्टिक्स में, यदि मैं व्यक्तियों पर कुछ स्वास्थ्य परिणामों के बारे में बता रहा हूं, तो कोई फर्क नहीं पड़ता कि प्रतिगमन क्या कहता है, आपको मॉडल में उम्र, दौड़ और सेक्स को शामिल नहीं करने के लिए कुछ अच्छे तर्क देने होंगे।

यह आपके मॉडल के उद्देश्य पर भी निर्भर करता है। यदि उद्देश्य इस बात की बेहतर समझ प्राप्त कर रहा है कि आपके परिणामों में कौन से कारक सबसे अधिक जुड़े हुए हैं, तो एक पार्सिमेनस मॉडल के निर्माण में कुछ गुण हैं। यदि आप भविष्यवाणी के बारे में परवाह करते हैं, और समझने के बारे में इतना नहीं है, तो कोवरिएट को खत्म करना एक छोटी चिंता हो सकती है।

(अंत में, यदि आप परिवर्तनशील चयन के आँकड़ों का उपयोग करने की योजना बना रहे हैं, तो इस बात की जाँच करें कि फ्रैंक हरेल का इस विषय पर क्या कहना है - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ , और उनकी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ । संक्षेप में, जब तक आप सबसे अच्छा भविष्यवक्ता चुनने के लिए स्टेपवाइज़ या समान सांख्यिकीय-आधारित रणनीतियों का उपयोग करते हैं, तब तक "क्या ये अच्छे भविष्यवक्ता हैं?" के कोई भी परीक्षण बहुत ही पक्षपाती हैं - बेशक वे '? अच्छे भविष्यवक्ता, आपने उन्हें उस आधार पर चुना है, और इसलिए उन भविष्यवक्ताओं के लिए p मान मिथ्या है।)


1
R2

4

केवल एक चीज जो "सांख्यिकीय महत्वहीनता" का परिणाम वास्तव में कहती है, वह यह है कि टाइप I त्रुटि के चयनित स्तर पर, हम यह भी नहीं बता सकते हैं कि आश्रित चर पर रेजिस्टर का प्रभाव सकारात्मक है या नकारात्मक (इस पोस्ट को देखें)।

इसलिए, यदि हम इस प्रतिगमन को बनाए रखते हैं, तो आश्रित चर पर इसके स्वयं के प्रभाव के बारे में किसी भी चर्चा के पास इसे वापस करने के लिए सांख्यिकीय प्रमाण नहीं हैं।

लेकिन यह अनुमान विफलता यह नहीं कहती है कि regressor संरचनात्मक संबंध से संबंधित नहीं है, यह केवल कहता है कि विशिष्ट डेटा सेट के साथ हम कुछ निश्चितता के साथ इसके गुणांक के संकेत को निर्धारित करने में असमर्थ थे।

इसलिए सिद्धांत रूप में, अगर सैद्धांतिक तर्क हैं जो इसकी उपस्थिति का समर्थन करते हैं, तो रजिस्ट्रर को रखा जाना चाहिए।

यहाँ अन्य उत्तरों ने विशिष्ट मॉडल / परिस्थितियाँ प्रदान कीं, जिनके लिए इस तरह के रजिस्टरों को विनिर्देश में रखा गया है, उदाहरण के लिए निश्चित प्रभाव पैनल मॉडल का उल्लेख करते हुए उत्तर।


"विश्वास स्तर" को महत्व की चर्चा में क्यों खींचें? मैं अक्सर "99% आत्मविश्वास स्तर पर महत्वपूर्ण" जैसे खराब ग्रंथों और पत्रों में मठों को पढ़ता हूं। विचारों के बीच एक रिश्ता है, निश्चित रूप से, लेकिन आपको इस शब्दांकन की आवश्यकता नहीं है (जो प्राथमिक स्तर पर उतना ही भ्रमित करता है जितना कि यह बताता है)।
निक कॉक्स

@ निक कॉक्स आपके पास एक बिंदु है। मैंने इसे "टाइप I त्रुटि" में बदल दिया।
एलेकोस पापाडोपोलोस

1

यदि विशेष रूप से सांख्यिकीय रूप से महत्वपूर्ण नहीं है, तो आप विशेष रुचि के एक चर को शामिल कर सकते हैं। इसके अलावा, जैव सांख्यिकी में, नैदानिक ​​महत्व अक्सर सांख्यिकीय महत्व से अलग होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.