कुक की दूरी के भूखंडों को कैसे पढ़ें?


40

क्या किसी को पता है कि कैसे अंक 7, 16 और 29 प्रभावशाली अंक हैं या नहीं? मैंने कहीं पढ़ा है कि क्योंकि कुक की दूरी 1 से कम है, वे नहीं हैं। क्या मैं सही हू?

यहाँ छवि विवरण दर्ज करें


1
विभिन्न मत हैं। उनमें से कुछ टिप्पणियों की संख्या या मापदंडों की संख्या से संबंधित हैं। इन्हें en.wikipedia.org/wiki/… पर स्केच किया गया है ।
whuber

@ शुभंकर धन्यवाद। मेरे लिए डेटा अन्वेषण करते समय यह हमेशा एक ग्रे क्षेत्र होता है। डेटा बिंदु 16 से ऊपर मॉडल परिणामों को व्यापक रूप से प्रभावित करता है, इस प्रकार टाइप I त्रुटियों को बढ़ाता है।
प्लैटाइपेज़िड

2
कोई यह तर्क दे सकता है कि यह "टाइप III" त्रुटियों को भी बढ़ाता है, जो (सामान्य और अनौपचारिक रूप से) अंतर्निहित संभावना मॉडल की अनुपयुक्तता से संबंधित त्रुटियां हैं।
whuber

@ जब तक हाँ, बहुत सही!
--१२ को प्लेटाइपजिड

जवाबों:


43

4/N4/(Nk1)Nk

जॉन फॉक्स (1), प्रतिगमन निदान पर अपनी पुस्तिका में, बल्कि संख्यात्मक थ्रेसहोल्ड देने की बात करते समय सतर्क रहता है। वह ग्राफिक्स के उपयोग की सलाह देता है और "डी के मूल्यों जो कि बाकी की तुलना में काफी बड़ा है" के साथ बिंदुओं की बारीकी से जांच करता है। फॉक्स के अनुसार, थ्रेसहोल्ड का उपयोग केवल ग्राफिकल डिस्प्ले को बढ़ाने के लिए किया जाना चाहिए।

आपके मामले में 7 और 16 टिप्पणियों को प्रभावशाली माना जा सकता है। ठीक है, मैं कम से कम उन पर करीब से नजर डालूंगा। अवलोकन 29 अन्य टिप्पणियों के एक जोड़े से काफी अलग नहीं है।


(१) फॉक्स, जॉन। (1991)। प्रतिगमन निदान: एक परिचय । साधु प्रकाशन।


9
+1 सारांश। मैं जोड़ना होगा कि प्रभावशाली मामले हैं जब डाटासेट से उनके हटाने पैरामीटर छोड़ना होगा अनिवार्य रूप से अपरिवर्तित का अनुमान है एक समस्या आम तौर पर नहीं कर रहे हैं: लोगों को हम चिंता के बारे में जिनकी उपस्थिति वास्तव में कर रहे हैं करता परिणाम बदल जाते हैं।
whuber

1
@lejohn आपकी प्रतिक्रिया की बहुत सराहना करता है। Whuber आपके उत्तर में सही उत्कृष्ट स्पष्टता है। यह बहुत जानकारीपूर्ण है। हो सकता है कि मैं आपको फॉक्स के बारे में और विकिपीडिया पृष्ठ में आपकी राय को उजागर करने का सुझाव दूं!
प्लैटाइपेज़िड

29

kk+1β0β

यहाँ बनाने लायक एक और बिंदु है। अवलोकन संबंधी अनुसंधान में, अक्सर भविष्यवक्ता के स्थान पर समान रूप से नमूना लेना मुश्किल होता है, और आपके पास दिए गए क्षेत्र में बस कुछ बिंदु हो सकते हैं। इस तरह के बिंदु बाकी से अलग हो सकते हैं। कुछ, अलग-अलग मामलों के होने से अस्वीकृति हो सकती है, लेकिन आउटलेर्स को फिर से आरोपित किए जाने से पहले काफी विचार किया जाता है। भविष्यवाणियों के बीच वैध रूप से एक इंटरैक्शन हो सकता है, या जब भविष्यवाचक मान चरम हो जाते हैं तो सिस्टम अलग तरीके से व्यवहार कर सकता है। इसके अलावा, वे आपको कॉलिनियर भविष्यवक्ताओं के प्रभावों को सुलझाने में मदद करने में सक्षम हो सकते हैं। प्रभावशाली बिंदु भेस में एक आशीर्वाद हो सकता है।


6
+1 "यदि आप भविष्य कहनेवाला मॉडलिंग कर रहे हैं तो कुक की दूरी संभवतः आपके लिए अधिक महत्वपूर्ण है, जबकि व्याख्यात्मक मॉडलिंग में dfbeta अधिक महत्वपूर्ण है": यह बहुत उपयोगी सलाह है।
ऐनी जेड।

हाय - दिलचस्प चर्चा। लेकिन क्या यह उदाहरण के अवलोकन 16 से प्रभाव को मापने के लिए डमी-चर को एकीकृत करने के लिए तर्कसंगत नहीं हो सकता है?
पनतारा

@Pantera मैंने 16 निकाले और पूर्व और बाद के ommission मॉडल की तुलना की
Platypezid

हाय - यदि आप टिप्पणियों को हटाते हैं, तो आपको यह सुनिश्चित करना चाहिए कि आपके पास इसे करने के लिए "अच्छा" तर्क है, उदाहरण के लिए कि अवलोकन गलत तरीके से मापा जाता है। यदि हम अवलोकन को फेंक देते हैं क्योंकि वे सिर्फ कुछ सांख्यिकीय परेशानी पैदा करते हैं, तो हम डेटा-माइनिंग के करीब हैं।
पनतारा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.