क्या मॉडल बनाते समय कोविरेट्स को सांख्यिकीय रूप से महत्वपूर्ण नहीं रखा जाना चाहिए?


39

मेरे पास एक मॉडल के लिए मेरी गणना में कई covariates हैं, और उनमें से सभी सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं। क्या मुझे वो हटा देना चाहिए जो नहीं हैं?

यह प्रश्न घटना पर चर्चा करता है, लेकिन मेरे प्रश्न का उत्तर नहीं देता है: ANCOVA में एक कोवरिएट के गैर-महत्वपूर्ण प्रभाव की व्याख्या कैसे करें?

उस प्रश्न के उत्तर में कुछ भी नहीं है जो बताता है कि गैर-महत्वपूर्ण कोवरिएट्स को बाहर निकाला जा सकता है, हालांकि, अभी तो मुझे विश्वास है कि उन्हें अंदर रहना चाहिए। उस उत्तर को पढ़ने से पहले, मैं एक कोवरिए के बाद से भी यही सोच रहा था। आवश्यक रूप से कुछ दहलीज (महत्व दहलीज, जिसे मैं कोवरिएट्स पर लागू नहीं होता है) से परे एक राशि की व्याख्या किए बिना कुछ विचरण (और इस प्रकार मॉडल की मदद) के बारे में बता सकता हूं।

सीवी पर कहीं और एक सवाल है जिसके लिए जवाब का मतलब यह लगता है कि कोविरेट्स को महत्व की परवाह किए बिना रखा जाना चाहिए, लेकिन यह उस पर स्पष्ट नहीं है। (मैं उस प्रश्न से लिंक करना चाहता हूं, लेकिन मैं अभी इसे फिर से ट्रैक करने में सक्षम नहीं था।)

तो ... क्या मॉडल के लिए गणना में सांख्यिकीय रूप से महत्वपूर्ण नहीं दिखाए जाने वाले covariates चाहिए? (मैंने इस सवाल को स्पष्ट करने के लिए संपादित किया है कि कोवरिएट्स कभी भी गणना द्वारा मॉडल आउटपुट में नहीं होते हैं।)

जटिलता को जोड़ने के लिए, क्या होगा यदि डेटा के कुछ सबसेट के लिए कोविरेट्स सांख्यिकीय रूप से महत्वपूर्ण हैं (सबसेट जो अलग से संसाधित किया जाना है)। मैं इस तरह के एक कोवरिएट को रखने के लिए डिफ़ॉल्ट होगा, अन्यथा या तो विभिन्न मॉडलों का उपयोग करना होगा या आपके पास मामलों में से एक में सांख्यिकीय रूप से महत्वपूर्ण कोवरिएट गायब होगा। यदि आपके पास भी इस विभाजन के मामले का जवाब है, तो कृपया इसका उल्लेख करें।


6
आम तौर पर, मैं कहूंगा कि आपको ऐसे चर रखने चाहिए जो सैद्धांतिक रूप से महत्वपूर्ण हों या जो पूर्व अध्ययनों में महत्वपूर्ण रहे हों, भले ही आपका डेटा उनके प्रभाव का समर्थन नहीं करता हो। कहा जा रहा है कि, अधिक विशिष्ट उत्तर प्राप्त करने के लिए, मुझे लगता है कि आपको अपने मॉडल और उसके उद्देश्य (उदाहरण के लिए जोखिम कारकों की पहचान करना, भविष्यवाणी करना, ...) को समझाने के लिए कुछ पंक्तियों को जोड़ना चाहिए।
ओकराम

मैं कहूंगा कि यह निर्भर करता है। टेस्ट सिर्फ संकेतक हैं। यदि आप मानते हैं कि थोड़ी निर्भरता होनी चाहिए तो मॉडल में रखने के बारे में सोचें। अगर आप यह मानते हैं कि निर्भरता नहीं होनी चाहिए तो इसे छोड़ दें।
बेने

ठीक है, तो आप दोनों कह रहे हैं कि गैर-महत्व एक कोवरिएट को विचार से हटाए जाने का आदेश नहीं देता है , इसलिए आप दोनों ने वास्तव में मेरे प्रश्न का उत्तर दिया है। मुझे वास्तव में अपने प्रश्न को अधिक स्पष्ट रूप से इंगित करना चाहिए कि मैं जो पूछ रहा हूं वह यह है कि क्या एक कोवरिएट का स्थैतिक महत्व इसे रखने के लिए एक आवश्यक शर्त है ("क्या एक कोवरिएट का गैर-महत्व का मतलब यह निकाला जाना चाहिए ...), और" मैं आपके किसी भी टिप्पणी को उत्तर के रूप में स्वीकार करूंगा।
AM

इससे पहले कि मैं ऐसा करूं, मैं यह सुनिश्चित करना चाहूंगा कि मैं सही शब्दावली का उपयोग कर रहा हूं। मूल रूप से मैंने "मॉडल में रखा" लिखा था, लेकिन यह सही नहीं लगा क्योंकि मॉडल में कोवरिएट्स कभी नहीं दिखाई देते हैं। मैं " मॉडल के लिए गणना में रखा " (और " विचार से हटा दिया गया ") के लिए बस गया, लेकिन क्या यह कहने का एक बेहतर तरीका है? कोवरिएट क्या रखा जा रहा है या इससे हटाया गया है, इसके लिए सही शब्द क्या है?
AM

3
आपको ऐसी चयन प्रक्रियाओं के सही प्रदर्शन को मान्य करने की आवश्यकता होगी। अन्य असफल रहे हैं।
फ्रैंक हरेल

जवाबों:


32

आपको पहले से ही कई अच्छे उत्तर मिल गए हैं। Covariates रखने के कारण और covariates छोड़ने के कारण हैं। अधिकांश मामलों में सांख्यिकीय महत्व एक महत्वपूर्ण कारक नहीं होना चाहिए।

  1. कोवरिएट्स का इतना महत्वपूर्ण महत्व हो सकता है कि उन्हें वहां रहना होगा।
  2. एक कोवरिएट का प्रभाव आकार अधिक हो सकता है, भले ही यह महत्वपूर्ण न हो।
  3. कोवरिएट मॉडल के अन्य पहलुओं को प्रभावित कर सकता है।
  4. सहसंयोजक आपकी परिकल्पना का एक हिस्सा हो सकता है।

यदि आप बहुत खोजपूर्ण विधा में हैं और साहित्य में कोवरिएट महत्वपूर्ण नहीं है और प्रभाव का आकार छोटा है और सहसंयोजक का आपके मॉडल पर बहुत कम प्रभाव पड़ता है और सहसंयोजक आपकी परिकल्पना में नहीं था, तो आप शायद इसे सरलता के लिए हटा सकते हैं ।


6
एक बहुत ही महत्वपूर्ण लेकिन अक्सर उपेक्षित स्थिति यहां # 4 द्वारा कवर की जाती है, लेकिन मैं इसे बाहर कर दूंगा। अक्सर - वास्तव में आमतौर पर - आपको अपने परिणामों की तुलना पिछले कर्मचारियों के समान डेटा के साथ करना चाहिए। यदि अन्य को अपने मॉडल में शामिल किए गए विशेष कोवरिएट्स मिलते हैं, तो आपको अपने परिणामों की तुलना उनके साथ करना चाहते हैं, भले ही आपके कोवरिएट्स (पारंपरिक) महत्व के स्तर को प्राप्त करें। ध्यान दें कि आपके द्वारा तय किए गए रिपोर्टिंग मॉडल (मामले) के मामले अलग-अलग हो सकते हैं (विशेषकर) आपके द्वारा तय किए गए रिपोर्टिंग मॉडल के लिए अच्छे नहीं हैं।
निक कॉक्स

1
मैं निश्चित रूप से 'कीप' (और पहली जगह में कोवरिएट्स के लिए बहुत अधिक पी-वैल्यू नहीं बना रहा था) की ओर झुक रहा था, लेकिन आपका जवाब अल्पसंख्यक को बाहर निकालने के लिए एक बहुत अच्छी चेकलिस्ट (अच्छी तरह से ... दो) बनाता है। प्रभाव का आकार कुछ ऐसा है जिस पर मैंने विचार नहीं किया था, और जब मैंने परिकल्पना पर विचार किया तो मुझे यह बहुत पसंद आया कि आपने इसे शामिल किया है, @NickCox के कारणों और केवल मछली पकड़ने को हतोत्साहित करने के लिए।
AM

25

लंबा उत्तर "हां" है। तुच्छ भविष्यवाणियों को दूर करने के कुछ कारण हैं और कई कारण नहीं हैं। जहाँ तक आप उनकी व्याख्या करते हैं, तो आप अंतराल की अनदेखी करते हैं जैसे कि आप अन्य भविष्यवक्ताओं की व्याख्या कर सकते हैं: भविष्यवक्ता की दिलचस्प श्रेणियों पर प्रभाव के लिए आत्मविश्वास अंतराल के साथ।P


10
लंबा उत्तर "हाँ" है! +1 और एक LOL।
पीटर Flom - को पुनः स्थापित मोनिका

यदि पी-वैल्यू नहीं है, तो भविष्यवाणियों को हटाने के अन्य कारण क्या हैं? आप आत्मविश्वास के अंतराल की व्याख्या करते हैं, लेकिन ऐसा लगता है कि एक "दिलचस्प रेंज" शून्य होगा, जिसका अर्थ है कि लोग CI को पी-मान (शून्य का समावेश या बहिष्करण) की तरह व्याख्या करेंगे।
मार्क व्हाइट

1
जब यह सांख्यिकीय गुणों को विकृत करता है, तो भविष्यवक्ताओं को हटाने के क्या कारण हैं? आपके प्रश्न और "शून्य" पर स्पष्ट नहीं।
फ्रैंक हरेल

7

एक उपयोगी अंतर्दृष्टि यह है कि एक कोवरिएट सांख्यिकीय बोलने के बारे में वास्तव में कुछ भी विशिष्ट नहीं है, उदाहरण के लिए, कोवरेट्स को क्रमबद्ध सूत्र में लिखने में मदद करें । संयोग से, यह समझा सकता है कि कोई covariateटैग क्यों नहीं है । नतीजतन, एक रेखीय मॉडल में गैर-महत्वपूर्ण शब्दों के बारे में यहां और अन्य सामग्री प्रासंगिक हैं, जैसा कि स्टेपवाइज प्रतिगमन के प्रसिद्ध आलोचक हैं, भले ही एंकोवा स्पष्ट रूप से उल्लेख नहीं किया गया हो।

आमतौर पर, अकेले महत्व के आधार पर भविष्यवाणियों का चयन करना एक बुरा विचार है। यदि किसी कारण से आप मॉडल को पहले से निर्दिष्ट नहीं कर सकते हैं, तो आपको अन्य दृष्टिकोणों पर विचार करना चाहिए, लेकिन यदि आपने उन्हें पहली जगह में शामिल करने की योजना बनाई है, तो तदनुसार डेटा एकत्र किया है और विशिष्ट समस्याओं (जैसे संपार्श्विकता) का सामना नहीं कर रहे हैं, बस उन्हें रखें।

उन्हें रखने के कारणों के बारे में, आपत्तियों के साथ मुझे लगता है कि मुझे लगता है। एक और कारण यह होगा कि मॉडल के आधार पर गैर-महत्वपूर्ण पूर्वसूचक पूर्वाग्रहों को दूर करना। फिर भी इन सब को देखने का एक और तरीका यह है कि इस तथ्य के बाद इन कोवरिएट्स को हटाने से क्या लाभ होगा।


4

इस प्रश्न का उत्तर देने के लिए हमें वास्तव में आपके लक्ष्यों के बारे में अधिक जानकारी की आवश्यकता है। प्रतिगमन दो मुख्य उद्देश्यों के लिए उपयोग किया जाता है:

  1. भविष्यवाणी
  2. अनुमान

भविष्यवाणी तब होती है जब आपका लक्ष्य उन टिप्पणियों के लिए परिणाम चर के मूल्यों पर अनुमान लगाने में सक्षम होना है जो नमूना में नहीं हैं (हालांकि आमतौर पर वे नमूना डेटा की सीमा के भीतर हैं- अन्यथा, हम कभी-कभी "पूर्वानुमान" शब्द का उपयोग करते हैं)। भविष्यवाणी विज्ञापन उद्देश्यों, वित्त, आदि के लिए उपयोगी है। यदि आप कुछ परिणाम चर की भविष्यवाणी करने में रुचि रखते हैं, तो मेरे पास आपको देने के लिए बहुत कम है।

इंट्रेंस वह जगह है जहाँ मज़ा है (भले ही वह पैसा कहाँ न हो)। इंफ़ेक्शन वह जगह है जहाँ आप विशिष्ट मॉडल मापदंडों के बारे में निष्कर्ष निकालने की कोशिश कर रहे हैं - आमतौर पर एक दूसरे पर एक चर का कारण प्रभाव निर्धारित करने के लिए। सामान्य धारणा के बावजूद, प्रतिगमन विश्लेषण के लिए प्रतिगमन विश्लेषण कभी पर्याप्त नहीं होता है। आपको यह जानने के लिए हमेशा डेटा जनरेट करने की प्रक्रिया के बारे में अधिक पता होना चाहिए कि क्या आपका प्रतिगमन कारण प्रभाव को पकड़ लेता है। Regressions से कार्य-कारण अनुमान के लिए महत्वपूर्ण मुद्दा यह है कि क्या त्रुटि का सशर्त माध्य (regressors पर सशर्त) शून्य है। इसे रजिस्टरों पर पी-वैल्यू से नहीं जाना जा सकता है। प्रतिगमन अनुमानक होना संभव है जो निष्पक्ष या सुसंगत हैं, लेकिन इसके लिए प्रतिगमन में कुछ स्पष्ट नियंत्रण फेंकने की अपेक्षा कहीं अधिक प्रयास की आवश्यकता है और उम्मीद है कि आपको महत्वपूर्ण मिल गया है।मास्ट्रिंग 'मेट्रिक्स: द पाथ फ्रॉम कॉज़ टू इफ़ेक्ट एंड मोस्टली हार्मलेस इकोनोमेट्रिक्स )। मास्ट्रिंग मेट्रिक्स पढ़ने में आसान है और काफी सस्ता है, लेकिन चेतावनी दी जाती है कि यह उपचार नहीं है कि कैसे रिग्रेशन किया जाए, बल्कि इसका मतलब क्या है। अच्छे और बुरे अवलोकन अनुसंधान डिजाइनों के उदाहरणों की अच्छी कवरेज के लिए, मैं डेविड फ्रीडमैन (1991) "सांख्यिकीय मॉडल और जूता चमड़ा", समाजशास्त्रीय पद्धति , वॉल्यूम 21 (आकर्षक उदाहरणों के साथ एक छोटा और आसान पढ़ा ) की सिफारिश करता हूं ।

एक तरफ: अधिकांश कॉलेज पाठ्यक्रमों में अच्छे अनुसंधान डिजाइन पर सांख्यिकीय तकनीक के साथ जुनून मेरा एक शैक्षणिक दृष्टिकोण है।

इस मुद्दे के वर्तमान महत्व को प्रेरित करने के लिए दूसरा पहलू: भविष्यवाणी और अनुमान के बीच का अंतर यही है कि बड़ा डेटा विज्ञान का विकल्प नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.