कुक की दूरी कट-ऑफ मूल्य


9

मैं बाहरी लोगों की पहचान करने के लिए कुक की दूरी पर पढ़ रहा हूं, जिनके मेरे प्रतिगमन पर उच्च प्रभाव है। कुक के मूल अध्ययन में वे कहते हैं कि प्रभावितों की पहचान करने के लिए 1 की कट-ऑफ दर तुलनीय होनी चाहिए। हालांकि, विभिन्न अन्य अध्ययन उपयोग करते हैं4nया कट-ऑफ के रूप में।4n--1

मेरे अध्ययन में, मेरे किसी भी अवशेष में डी की संख्या 1 से अधिक नहीं है। हालांकि, अगर मैं कटऑफ के रूप में उपयोग करता हूं , तो विभिन्न डेटा हैं अंक जिन्हें प्रभावक माना जाता है। मैंने यह परीक्षण करने का निर्णय लिया कि क्या इन डेटा बिंदुओं को हटाने से मेरे सामान्य रेखीय प्रतिगमन पर फर्क पड़ेगा। मेरे सभी IVs ने अपना महत्व बनाए रखा और कोई स्पष्ट परिवर्तन स्पष्ट नहीं था।4n(4149=0.026)

क्या मुझे अपने सभी डेटा बिंदुओं को बनाए रखना चाहिए और 1 की कट-ऑफ दर का उपयोग करना चाहिए? या उन्हें हटा दें?


बाल्टागी (2011) इकोनोमेट्रिक्स, 5 ई की जाँच करें। अध्याय 8 में, धारा 8.1। वह कुक की दूरी से प्राप्त एक और उपाय सुझाता है, और यह भी, वर-कोवर मैट्रिक्स में प्रभावशाली अवलोकन से विकृतियों / प्रभावों की जांच करता है, जिसकी आपको आवश्यकता भी हो सकती है, क्योंकि आपके अनुमानक बहुत अधिक नहीं बदलते हैं ...
सिरोप्लेक्स

10
आपको इस निदान के आधार पर कोई डेटा नहीं निकालना चाहिए। इसका उद्देश्य आपको उनके बारे में और उनके विश्लेषण पर उनके प्रभावों के बारे में सोचने में मदद करना है ।
whuber

जवाबों:


5

मैं शायद आपके पूर्ण डेटासेट के साथ आपके मूल मॉडल के साथ जाऊंगा। मैं आमतौर पर संवेदनशीलता विश्लेषण की सुविधा के रूप में इन चीजों के बारे में सोचता हूं। यही है, वे आपको इस बात की ओर इशारा करते हैं कि यह सुनिश्चित करने के लिए कि आपको कुछ बेवकूफी के कारण क्या दिया जाना चाहिए। आपके मामले में, आपके पास कुछ संभावित प्रभावशाली बिंदु हैं, लेकिन यदि आप उनके बिना मॉडल को फिर से चलाते हैं, तो आपको निश्चित रूप से एक ही उत्तर मिलता है (कम से कम उन पहलुओं के संबंध में जिनके बारे में आप ध्यान रखते हैं)। दूसरे शब्दों में, आप जिसे भी पसंद करते हैं, उसका उपयोग करें - आप केवल एक चेक के रूप में मॉडल को परिष्कृत कर रहे हैं, न कि 'सच्चे' संस्करण के रूप में। यदि आपको लगता है कि अन्य लोग संभावित आउटलेर्स के बारे में पर्याप्त रूप से चिंतित होंगे, तो आप दोनों मॉडल फिट होने की रिपोर्ट कर सकते हैं। आप क्या कहेंगे

यहाँ मेरे परिणाम हैं। एक चिंतित हो सकता है कि यह तस्वीर केवल एक जोड़े के कारण उभरती है, लेकिन अत्यधिक प्रभावशाली, टिप्पणियों। ये उसी मॉडल के परिणाम हैं, लेकिन उन टिप्पणियों के बिना। कोई ठोस अंतर नहीं हैं।

उन्हें हटाने और आपके प्राथमिक परिणाम के रूप में दूसरे मॉडल का उपयोग करना भी संभव है। सब के बाद, मूल डेटासेट के साथ रहने से यह धारणा बन जाती है कि किस मॉडल में डेटा उप-भाग के साथ जा रहा है। लेकिन लोगों को आपके रिपोर्ट किए गए परिणामों के बारे में बहुत संदेह होने की संभावना है क्योंकि मनोवैज्ञानिक रूप से किसी को खुद को समझाने के लिए, बिना किसी वास्तविक भ्रष्ट इरादे के, पोस्ट-हॉक ट्वीक्स के सेट के साथ जाना आसान है (जैसे कि कुछ टिप्पणियों को छोड़ देना) उन्हें देता है। परिणाम उन्हें सबसे अधिक देखने की उम्मीद थी। हमेशा पूर्ण डेटासेट के साथ जाने से, आप उस संभावना को पहले से तय कर लेते हैं और लोगों (कहते हैं, समीक्षक) को आश्वस्त करते हैं कि आपके प्रोजेक्ट में क्या नहीं है।

यहां एक और मुद्दा यह है कि लोग ' बबल का पीछा करते हैं '। जब आप कुछ संभावित आउटलेयर छोड़ते हैं, और अपने मॉडल को फिर से चलाते हैं, तो आप उन परिणामों के साथ समाप्त होते हैं जो संभावित आउटलेर के रूप में नए, अलग-अलग अवलोकन दिखाते हैं। आप कितने पुनरावृत्तियों से गुजरने वाले हैं? इसके लिए मानक प्रतिक्रिया यह है कि आपको अपने मूल, पूर्ण डेटासेट के साथ रहना चाहिए और इसके बजाय एक मजबूत प्रतिगमन चलाना चाहिए। इसे फिर से, एक संवेदनशीलता विश्लेषण के रूप में समझा जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.