संभावित प्रभावशाली डेटापॉइंट्स के निदान के संदर्भ में कच्चे अनुमानित अवशेषों पर "आंतरिक रूप से छात्र के अवशेष" क्या लाभ प्रदान करते हैं?


10

मैं इसका कारण पूछता हूं क्योंकि ऐसा लगता है कि आंतरिक रूप से छात्र के अवशिष्टों में कच्चे अनुमानित अवशेषों के समान पैटर्न है। यदि कोई व्यक्ति स्पष्टीकरण दे सकता है तो यह बहुत अच्छा होगा।

जवाबों:


13

एक प्रतिगमन मॉडल को डिज़ाइन मैट्रिक्स (a कॉलम) के साथ अपने भविष्यवक्ताओं के साथ मान लें ) भविष्यवाणियां (जहां "हैट-मैट्रिक्स" है), और अवशिष्ट । प्रतिगमन मॉडल मानता है कि सच्ची त्रुटियां सभी में एक ही विचरण (समरूपता) है:एक्स 1 y = एक्स ( एक्स ' एक्स ) - 1 एक्स ' y = एच वाई एच = y - y εy=एक्सβ+εएक्स1y^=एक्स(एक्स'एक्स)-1एक्स'y=एचyएच=y-y^ε

homoskedasticity

अवशिष्टों के सहसंयोजक मैट्रिक्स । इसका मतलब यह है कि कच्चे अवशेषों पास अलग-अलग variances - मैट्रिक्स । विकर्ण तत्व हैट-वैल्यू ।मैं σ 2 ( 1 - एच मैं मैं ) σ 2 ( मैं - एच ) एच एच मैं मैंवी()=σ2(मैं-एच)मैंσ2(1-मैंमैं)σ2(मैं-एच)एचमैंमैं

विचरण 1 के साथ ट्रुअली मानकीकृत अवशिष्ट इस प्रकार । समस्या यह है कि त्रुटि विचरण है अज्ञात है, और आंतरिक रूप से / बाह्य studentized बच एक अनुमान के लिए विशेष विकल्पों में से परिणाम ।/(σ1-मैंमैं)σ /(σ^1-मैंमैं)σ^

चूंकि कच्चे अवशिष्टों को हेटरोसकेस्टिक होने की उम्मीद की जाती है, भले ही homoskedastic हो, कच्ची अवशिष्ट सैद्धांतिक रूप से कम अच्छी तरह से मानकीकृत या छात्र अवशिष्टों के साथ होमोसकेडासिटी धारणा के साथ समस्याओं का निदान करने के लिए उपयुक्त हैं।ε


दो अलग-अलग प्रकार के अवशिष्टों (और साथ ही बाह्य रूप से अवशिष्ट अवशिष्टों) के बीच का अंतर मेरे लिए स्पष्ट है। व्यवहार में, हालांकि, मुझे नहीं लगता कि मुझे ऐसे मामलों का सामना करना पड़ा है (कम से कम अपने स्वयं के डेटा के साथ) जहां आंतरिक रूप से छात्र अवशिष्ट का अनुमानित अवशिष्ट की तुलना में एक अलग पैटर्न है। दूसरी ओर, बाहरी रूप से छात्र अवशिष्ट अवशिष्ट संभावित अवशेषों की तुलना में एक अलग पैटर्न प्रदर्शित कर सकते हैं। * मैं यह नहीं कह रहा हूं कि दो प्रकार के अवशेष एक समान हैं। मैं उनके सामान्य पैटर्न की बात कर रहा हूं।

@AlexH। मैं मानता हूं कि मैंने जो कहा है, उससे जोड़ा गया फायदा सैद्धांतिक है । एक अनुकरणीय अनुभवजन्य स्थिति का निर्माण करना जहां कच्चे अवशेष भ्रामक हैं, और छात्र अवशिष्ट अवशिष्ट वितरण की अधिक सटीक तस्वीर प्रदान करते हैं, एक अच्छा जोड़ होगा।
काराकल

12

आपने अपने परीक्षण भूखंडों पर किस प्रकार के डेटा का उपयोग किया? जब सभी धारणाएं पकड़ती हैं (या करीब आती हैं) तो मैं कच्चे और छात्र के अवशेषों के बीच बहुत अंतर की उम्मीद नहीं करता, मुख्य लाभ तब होता है जब अत्यधिक प्रभावशाली बिंदु होते हैं। इस पर विचार करें (सिम्युलेटेड) डेटा जिसमें एक सकारात्मक रैखिक प्रवृत्ति और एक अत्यधिक प्रभावशाली है:

यहां छवि विवरण दर्ज करें

यहाँ कच्चे अवशेषों बनाम सज्जित मूल्यों की साजिश है:

यहां छवि विवरण दर्ज करें

ध्यान दें कि हमारे प्रभावशाली बिंदु के अवशिष्ट का मान बाकी बिंदुओं से न्यूनतम और अधिकतम अवशिष्टों के मुकाबले 0 के करीब है (यह 3 सबसे चरम कच्चे अवशिष्टों में नहीं है)।

अब यहाँ मानकीकृत (आंतरिक रूप से छात्र) अवशेषों के साथ साजिश है:

यहां छवि विवरण दर्ज करें

इस साजिश में मानकीकृत अवशिष्ट बाहर खड़ा है क्योंकि इसके प्रभाव का हिसाब दिया गया है।

एक्स

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.