आपको किस क्रम में लीनियर रिग्रेशन डायग्नोस्टिक्स करना चाहिए?


24

रैखिक प्रतिगमन विश्लेषण में, हम आउटलेर्स का विश्लेषण करते हैं, बहुकोशिकीयता की जांच करते हैं, हेटेरोसेडेसटी का परीक्षण करते हैं।

सवाल यह है कि क्या इन्हें लागू करने का कोई आदेश है? मेरा मतलब है, क्या हमें पहले आउटलेर्स का विश्लेषण करना है, और फिर मल्टीकोलिनरिटी की जांच करनी है? या रिवर्स?

क्या इस बारे में अंगूठे का कोई नियम है?


2
अंगूठे के कुछ बहुत ही मोटे नियम: आपको किसी भी फिटिंग को करने से पहले कोलिनियरिटी की जांच करानी चाहिए । यदि आप पाते हैं कि यह मौजूद है, तो आपको या तो (ए) एक विधि का उपयोग करना चाहिए, जो कोलिनियरिटी को संभालता है, (बी) कोलिनर फीचर्स को हटाता है, या (सी) आपकी सुविधाओं को बदल देता है (जैसे पीसीए का उपयोग करके)। एक बार जब आप एक मॉडल फिट कर लेते हैं, तो आप अवशिष्ट में विषमलैंगिकता की तलाश कर सकते हैं। सामान्य तौर पर, यदि आप एक प्रेडिक्टिव मॉडल बना रहे हैं तो आपको आउटलेयर को नहीं हटाना चाहिए। इसके बजाय, एक विधि का उपयोग करें जो आउटलेर्स की उपस्थिति के लिए मजबूत है।
क्रिस टेलर

1
कोलीनियरिटी की सबसे अच्छी जांच कैसे होती है? भविष्यवाणियों के सहसंबंध मैट्रिक्स के ऑफ-विकर्ण तत्वों को देखते हुए?
मिउरा

1
Collinearity की जांच करने का सबसे अच्छा तरीका हालत सूचकांकों और उनके द्वारा समझाया गया विचरण का अनुपात है। उच्च सहसंबंध न तो आवश्यक नहीं है और न ही संपार्श्विकता के लिए पर्याप्त स्थिति है।
पीटर फ्लॉम - मोनिका

जवाबों:


28

प्रक्रिया पुनरावृत्त है, लेकिन एक प्राकृतिक क्रम है:

  1. आपको पहले उन स्थितियों के बारे में चिंता करनी होगी जो एकमुश्त संख्यात्मक त्रुटियों का कारण बनती हैं । Multicollinearity उन में से एक है, क्योंकि यह समीकरणों की अस्थिर प्रणालियों का उत्पादन कर सकता है, जिसके परिणामस्वरूप संभावित रूप से गलत उत्तर (16 दशमलव स्थानों पर ...) यहां किसी भी समस्या का आमतौर पर मतलब है कि आप तब तक आगे नहीं बढ़ सकते जब तक यह तय नहीं हो जाता। मल्टीकोलिनरिटी का आमतौर पर वैरिएन इन्फ्लेशन फैक्टर और "हैट मैट्रिक्स" की समान परीक्षा का उपयोग करके निदान किया जाता है। इस चरण में अतिरिक्त जांच में डेटासेट में किसी भी लापता मान के प्रभाव का आकलन करना और महत्वपूर्ण मापदंडों की पहचान की पुष्टि करना शामिल हो सकता है। (असतत स्वतंत्र चर का संयोजन कभी-कभी यहां परेशानी पैदा कर सकता है।)

  2. आगे आपको चिंतित होना चाहिए कि क्या आउटपुट अधिकांश डेटा को दर्शाता है या एक छोटे से सबसेट के प्रति संवेदनशील है। बाद के मामले में, बाद में आप जो कुछ भी करते हैं वह भ्रामक हो सकता है, इसलिए इसे टाला जाना चाहिए। प्रक्रियाओं में आउटलेर और उत्तोलन की परीक्षा शामिल है । (एक उच्च-लीवरेट डेटम एक बाहरी नहीं हो सकता है, लेकिन फिर भी यह सभी परिणामों को प्रभावित नहीं कर सकता है।) यदि प्रतिगमन प्रक्रिया का एक मजबूत विकल्प मौजूद है, तो इसे लागू करने का एक अच्छा समय है: जांचें कि यह समान परिणाम उत्पन्न कर रहा है और बाहरी मूल्यों का पता लगाने के लिए इसका उपयोग करें।

  3. अंत में, एक ऐसी स्थिति हासिल की है जो संख्यात्मक रूप से स्थिर है (ताकि आप गणनाओं पर भरोसा कर सकें) और जो पूर्ण डेटासेट को दर्शाता है, आप आउटपुट की सही व्याख्या के लिए आवश्यक सांख्यिकीय मान्यताओं की एक परीक्षा की ओर मुड़ते हैं । मुख्य रूप से ये चिंताएं ध्यान केंद्रित करती हैं - महत्व के मोटे क्रम में - अवशिष्ट के वितरण पर (विषमलैंगिकता सहित), लेकिन समरूपता, वितरणीय आकार, अनुमानित मूल्यों या अन्य चर के साथ संभावित सहसंबंध तक विस्तार, और स्वसंरचना), फिट की भलाई (सहित) बातचीत की शर्तों के लिए संभव), आश्रित चर को फिर से व्यक्त करने के लिए, और क्या स्वतंत्र चर को फिर से व्यक्त करना है।

किसी भी स्तर पर, अगर किसी चीज़ को ठीक करना है तो शुरुआत में वापस आना बुद्धिमानी है। आवश्यकतानुसार कई बार दोहराएं।


2
मैं वास्तव में वीआईएफ के बजाय हालत सूचकांकों का उपयोग करना पसंद करता हूं। मैंने कुछ समय पहले इन पर अपना शोध प्रबंध किया था।
पीटर Flom - को पुनः स्थापित मोनिका

1
@ अच्छा मुद्दा। मैं हालत सूचकांकों को भी पसंद करता हूं, लेकिन मुझे ऐसा लगता है कि वीआईएफ अब बहुत लोकप्रिय हैं।
whuber

व्हुबेर, मैंने आज आपकी टिप्पणी से पहले यहां का अनुसरण किया। मैंने एक बार अपने पोस्टडॉक के दौरान एक सांख्यिकीविद् के साथ परामर्श किया, जिसमें बहुसंस्कृति के बारे में कुछ चिंताएँ थीं। उन्होंने एक विचार व्यक्त किया कि, एक प्रतिगमन में IVs की प्रकृति के आधार पर, संपार्श्विकता को संरचनात्मक रूप से मॉडलिंग की जा रही घटना का हिस्सा माना जा सकता है। मैं शायद उनकी सटीक भाषा का उपयोग कर रहा हूं, और मुझे उनका नाम फिर से खोजने के लिए खुदाई करनी होगी, लेकिन क्या आप किसी ऐसे ग्रंथ को जानते हैं जो इन पंक्तियों के साथ बहुरंगीता के बारे में एक उचित तर्क को प्रेरित करेगा? बस एक बंद मौका पूछना। :)
एलेक्सिस

@ एलेक्सिस ऐसा लगता है कि सांख्यिकीविद् के पास बहुस्तरीयता की बारीक और परिष्कृत अवधारणा है। मैं किसी भी पाठ्यपुस्तक के बारे में सोचने में असमर्थ हूं जो इसे स्पष्ट रूप से व्यक्त करती है।
whuber

मुझे बस उसे ट्रैक करना होगा और उससे इसके बारे में पूछना होगा। :)
एलेक्सिस

3

मुझे लगता है कि यह स्थिति पर निर्भर करता है। यदि आप किसी विशेष समस्या की उम्मीद नहीं करते हैं, तो आप किसी भी क्रम में इनकी जांच कर सकते हैं। यदि आप बाहरी लोगों से अपेक्षा करते हैं और उनके पता लगाने के बाद उन्हें हटाने का कोई कारण हो सकता है तो पहले आउटलेर के लिए जाँच करें। टिप्पणियों को हटाए जाने के बाद मॉडल के साथ अन्य मुद्दे बदल सकते हैं। उसके बाद मल्टीकोलिनरिटी और हेटेरोसेडेसिटी के बीच का क्रम मायने नहीं रखता। मैं क्रिस से सहमत हूं कि आउटलेयर को मनमाने तरीके से नहीं हटाया जाना चाहिए। आपको यह सोचने की आवश्यकता है कि अवलोकन गलत हैं।

यदि आप बहुसंस्कृति या विषमता का निरीक्षण करते हैं, तो आपको अपना दृष्टिकोण बदलने की आवश्यकता हो सकती है। बहुकोशिकीय समस्या सहसंयोजक मैट्रिक्स में देखी जाती है, लेकिन बहुकोशिकीयता का पता लगाने के लिए विशिष्ट नैदानिक ​​परीक्षण होते हैं और लीवरेज अंक जैसे अन्य समस्याएं बेल्स्ली, कुह और वेल्श द्वारा प्रतिगमन निदान पुस्तक को देखते हैं या डेनिस कुक के प्रतिगमन पुस्तकों में से एक हैं


9
माइकल, भविष्य में, क्या आप स्वरूपण विकल्पों का उपयोग कर सकते हैं? (लिंक डालने की सही कुंजी ctrl-l है, ctrl-c नहीं)।
user603
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.