लॉजिस्टिक रिग्रेशन और कुक की दूरी के लिए अवशिष्ट


10
  1. क्या लॉजिस्टिक रिग्रेशन के लिए त्रुटियों के संबंध में कोई विशेष धारणा है जैसे कि त्रुटि की शर्तों का निरंतर विचरण और अवशेषों की सामान्यता?

  2. आम तौर पर जब आपके पास ऐसे पॉइंट होते हैं जिनकी कुक की दूरी 4 / n से अधिक होती है, तो क्या आप उन्हें हटा देते हैं? यदि आप उन्हें हटाते हैं, तो आप कैसे बता सकते हैं कि हटाए गए बिंदुओं वाला मॉडल बेहतर है?

जवाबों:


12

मुझे नहीं पता कि मैं आपको पूरा जवाब दे सकता हूं, लेकिन मैं आपको कुछ विचार दे सकता हूं जो मददगार हो सकते हैं। सबसे पहले, सभी सांख्यिकीय मॉडल / परीक्षणों की धारणाएं हैं। हालाँकि, लॉजिस्टिक रिग्रेशन बहुत कुछ नहीं मानता कि अवशिष्ट सामान्य रूप से वितरित किए जाते हैं और न ही विचरण स्थिर है। बल्कि, यह माना जाता है कि डेटा को एक द्विपद, रूप में वितरित किया जाता है, उस सटीक सेट पर टिप्पणियों की संख्या के बराबर बर्नौली परीक्षणों की संख्या के साथ। सहसंयोजक मूल्यों और सहसंयोजक मूल्यों के उस सेट के साथ जुड़े संभावना के साथ। याद रखें कि द्विपद का विचरण । इस प्रकार, यदिबी(nएक्समैं,पीएक्समैं)nपी(1-पी)nसहसंयोजक के विभिन्न स्तरों पर भिन्न होते हैं, रूपांतर भी होंगे। इसके अलावा, यदि कोई भी सहसंयोजक प्रतिक्रिया चर से संबंधित सभी पर है, तो संभावनाएं अलग-अलग होंगी, और इस प्रकार, इसलिए परिवर्तन होंगे। ये लॉजिस्टिक रिग्रेशन के बारे में महत्वपूर्ण तथ्य हैं।

दूसरा, मॉडल की तुलना आमतौर पर विभिन्न विनिर्देशों वाले मॉडल के बीच की जाती है (उदाहरण के लिए, कोवरिएट्स के विभिन्न सेटों के साथ), डेटा के विभिन्न सबसेट पर नहीं। सच कहूं, तो मुझे यकीन नहीं है कि यह कैसे ठीक से किया जाएगा। एक रेखीय मॉडल के साथ, आप 2 में दिखाई दे सकता है देखने के लिए कितना बेहतर फिट बाहर रखा गया पथभ्रष्ट डेटा के साथ है, लेकिन इस जाएगा केवल वर्णनात्मक हो, और आपको पता होना चाहिए कि होता है ऊपर जाने के लिए। हालाँकि, लॉजिस्टिक रिग्रेशन के साथ, मानक उपयोग नहीं किया जा सकता है। विभिन्न 'छद्म-आर2आर2आर2आर2s 'जो समान जानकारी प्रदान करने के लिए विकसित किया गया है, लेकिन उन्हें अक्सर त्रुटिपूर्ण माना जाता है और अक्सर उपयोग नहीं किया जाता है। विभिन्न छद्म- s के अवलोकन के लिए जो यहां मौजूद हैं, यहां देखें । उनमें से कुछ चर्चा और आलोचना के लिए, यहां देखें । एक और संभावना यह हो सकती है कि आउटलेयर के साथ और उसके बगैर सट्टेबाजों को यह पता चले कि उनके सैंपलिंग डिस्ट्रीब्यूशन को स्थिर करने में उनका योगदान कितना है। एक बार फिर, यह केवल वर्णनात्मक होगा (यानी, यह आपको यह बताने के लिए एक परीक्षण का गठन नहीं करेगा कि कौन सा मॉडल - एर, आपके डेटा का सबसेट - पसंद करना) और विचरण को नीचे जाना होगा। ये बातें सत्य हैं, दोनों के लिए छद्म-आर2आर2s और jackknifed वितरण, क्योंकि आपने उन आंकड़ों को इस तथ्य के आधार पर बाहर करने के लिए चुना था कि वे चरम दिखाई देते हैं।


8

1) क्या लॉजिस्टिक रिग्रेशन के लिए त्रुटियों के बारे में कोई विशेष धारणाएं हैं जैसे कि त्रुटि शर्तों के निरंतर विचरण और अवशिष्टों की सामान्यता?

लॉजिस्टिक रिग्रेशन मॉडल में पारंपरिक अर्थों में "त्रुटियां" नहीं हैं। यह प्रति-सहज और विधिपूर्वक असंगत दोनों है। मॉडल आउटपुट संभावनाओं या जोखिमों से भरे होते हैं जबकि देखे गए परिणाम 0/1 इवेंट संकेतक होते हैं। विधिपूर्वक, आप बहुत अधिक या बहुत कम सज्जित संभावनाओं के डोमेन को कम करने पर जोर देंगे (अवशिष्ट दूरी के लिए बहुत कम मात्रा में योगदान) जबकि मॉडल फिटिंग एल्गोरिथ्म ऐसे क्षेत्रों पर काफी अधिक महत्व रखता है। चौकोर दूरी आमतौर पर एक लॉजिस्टिक रिग्रेशन मॉडल को कैलिब्रेट करने का एक खराब तरीका है।

फिट टेस्ट की एक वैकल्पिक अच्छाई होस्मेर-लेमेशो टेस्ट है जिसमें फिट किए गए जोखिमों की डिकाइल के आधार पर द्विपदीय विभाजन बनाने के लिए फिट किए गए मूल्यों का उपयोग किया जाता है। आप इस परीक्षण के बारे में एलन एगेस्टी के श्रेणीबद्ध डेटा विश्लेषण या होस्मेर और लेओशो की पुस्तक लॉजिस्टिक रिग्रेशन में पढ़ सकते हैं। एक अन्य प्रक्रिया स्टूडेंटेड रेजिड्यूल्स का उपयोग करने के लिए है जहां माध्य विचरण संबंध का उपयोग उनके सज्जित उलट अवशिष्ट द्वारा अवशिष्टों को फिर से करने के लिए किया जाता है । लॉजिस्टिक रिग्रेशन के लिए यह है

आररोंटीयू=Y-μμ(1-μ)

2) आम तौर पर जब आपके पास ऐसे पॉइंट होते हैं जिनकी कुक की दूरी 4 / n से अधिक होती है, तो क्या आप उन्हें हटा देते हैं? यदि आप उन्हें हटाते हैं, तो आप कैसे बता सकते हैं कि हटाए गए बिंदुओं वाला मॉडल बेहतर है?

मैं संवेदनशीलता विश्लेषण के आधार पर कभी भी अंक नहीं निकालता। यदि मैं 100 लोगों और उनकी आय का एक यादृच्छिक नमूना करता हूं और 1 व्यक्ति अरबपति होने के लिए होता है, तो मेरी सबसे सुरक्षित धारणा यह है कि 1 अरबपति 1/100 वीं आबादी का प्रतिनिधित्व करता है।


आप यह क्यों मानेंगे कि 1 अरबपति जनसंख्या के 1/100 वें हिस्से का प्रतिनिधित्व करता है? आप शायद आबादी में अरबपतियों के अनुपात के बाहर का अनुमान लगाने में सक्षम होंगे!
kjetil b halvorsen

6

मैं सामान्य रूप से ऊपर एडम की टिप्पणी से सहमत हूँ - यह मानते हुए कि 1 अरबपति जनसंख्या का 1/100 वा प्रतिनिधित्व करता है, पूरी तरह से ठीक है। हालांकि, यदि 1 अरबपति की उपस्थिति डेटा को इतना कम कर देती है कि अन्य 99 लोगों की भविष्यवाणी प्रभावित होती है, तो मैं 1 अरबपति को हटा दूंगा। मैं हर किसी की तुलना में एक बाहरी की भविष्यवाणी के साथ गलत होगा।

कहा जाता है कि, यदि आप कुक के डी मान (यानी, कुछ भी> 4 / डीएफ) का उपयोग करके डेटा बिंदुओं को हटाते हैं, तो आप सुधार के लिए दोनों मॉडलों के लिए आरओसी घटता के तहत क्षेत्र का उपयोग कर सकते हैं।


1
(+1) प्रतिक्रिया और आय के लॉग-ऑड्स के बीच संबंध को एक प्राकृतिक सीमा के साथ जोड़ना, शायद आय को पहले से बदलना, दूसरों के लिए अरबों की प्रभावित भविष्यवाणियों से बचने का एक और तरीका है। उसे हटाने से आपको पता चलता है कि आप उनके बारे में गलत भविष्यवाणियां करने के लिए खुश होने के बजाय अन्य अरबपतियों (काफी निष्पक्ष) के लिए भविष्यवाणियां नहीं करने के लिए खुश हैं।
Scortchi - को पुनः स्थापित मोनिका

विडंबना यह है कि जब द्विआधारी घटनाओं की भविष्यवाणी करने की बात आती है, तो यह सच है कि प्रभावशाली टिप्पणियों को छोड़कर जोखिम पूर्वानुमानों का बेहतर अंशांकन हो सकता है। हालांकि, प्रभावशाली टिप्पणियों को छोड़कर जोखिम भविष्यवाणियों के भेदभाव को कम करेगा । उत्तरार्द्ध यकीनन अधिक महत्वपूर्ण है। जब किसी निश्चित घटना के जोखिम की भविष्यवाणी करने की बात आती है (जो या तो 0 या 1 है, लगातार मूल्यवान नहीं है ) तो सबसे अच्छी तरह की भविष्यवाणी मामलों को '1 के करीब भविष्यवाणियों को धक्का देगी और' 0. के करीब पूर्वानुमानों को नियंत्रित करती है। उच्च प्रभाव बिंदु अक्सर प्रभावी होते हैं यह कर रहा है।
एडमों
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.