तार्किक प्रतिगमन अवशिष्ट विश्लेषण


12

यह प्रश्न सामान्य और लंबे समय से घुमावदार है, लेकिन कृपया मेरे साथ रहें।

मेरे आवेदन में, मेरे पास कई डेटासेट हैं, जिनमें से प्रत्येक में ~ 50 सुविधाओं के साथ ~ 20,000 डेटापॉइंट और एक एकल निर्भर बाइनरी चर शामिल हैं। मैं नियमित लॉजिस्टिक प्रतिगमन (R पैकेज glmnet ) का उपयोग करके डेटासेट को मॉडल करने का प्रयास कर रहा हूं

मेरे विश्लेषण के हिस्से के रूप में, मैंने अवशिष्ट प्लॉट निम्नानुसार बनाए हैं। प्रत्येक सुविधा के लिए, मैं उस विशेषता के मान के अनुसार डेटापॉइंट्स को सॉर्ट करता हूं, डेटापॉइंट्स को १०० बाल्टी में विभाजित करता हूं, और फिर प्रत्येक बाल्टी के भीतर औसत आउटपुट मान और औसत भविष्यवाणी मूल्य की गणना करता हूं। मैं इन मतभेदों की साजिश करता हूं।

यहाँ एक उदाहरण है अवशिष्ट भूखंड:

उपरोक्त कथानक में, इस फीचर की सीमा [0,1] (1 पर भारी एकाग्रता के साथ) है। जैसा कि आप देख सकते हैं, जब फ़ीचर वैल्यू कम होती है, तो मॉडल 1-आउटपुट की संभावना को कम करके आंकने की ओर अग्रसर होता है। उदाहरण के लिए, सबसे बाईं बाल्टी में, मॉडल संभावना को लगभग 9% से अधिक कर देता है।

इस जानकारी के साथ, मैं इस पूर्वाग्रह के लिए मोटे तौर पर सही तरीके से सीधे तौर पर फीचर परिभाषा को बदलना चाहूंगा। बदलने की तरह बदलाव

xx

या

xfa(x)={a if x<a x else

मैं यह कैसे कर सकता हूँ? मैं एक सामान्य कार्यप्रणाली की तलाश कर रहा हूं ताकि एक मानव जल्दी से सभी ~ 50 भूखंडों के माध्यम से स्क्रॉल कर सके और परिवर्तन कर सके, और सभी डेटासेट के लिए ऐसा करें और मॉडल को अद्यतित रखने के लिए अक्सर दोहराएं क्योंकि डेटा समय के साथ विकसित होता है।

एक सामान्य प्रश्न के रूप में, क्या यह सही दृष्टिकोण भी है? Google "लॉजिस्टिक रिग्रेशन अवशिष्ट विश्लेषण" की खोज करता है और अच्छी व्यावहारिक सलाह के साथ कई परिणाम नहीं देता है। वे इस सवाल का जवाब देने पर ठीक होने लगते हैं, "क्या यह मॉडल एक अच्छा फिट है?" और उत्तर देने के लिए होस्मेर-लेमेशो जैसे विभिन्न परीक्षण प्रदान करते हैं। लेकिन मुझे इस बात की कोई परवाह नहीं है कि मेरा मॉडल अच्छा है, मैं जानना चाहता हूं कि इसे बेहतर कैसे बनाया जाए!

जवाबों:


4

आप वास्तव में लॉजिस्टिक प्रतिगमन में इस तरह से पूर्वाग्रह का आकलन नहीं कर सकते। लॉजिस्टिक रिग्रेशन केवल लॉग ऑड्स या लॉगिट स्कोर, लॉग (पी / (1-पी)) पर निष्पक्ष होने की उम्मीद है। अनुपात तिरछा होगा और इसलिए पक्षपाती दिखेंगे। लॉग ऑड्स के संदर्भ में आपको अवशिष्टों की साजिश करने की आवश्यकता है।


मैं एक बाल्टी के भीतर लॉग-विषम अवशेषों को कैसे जोड़ सकता हूं? अंकगणित औसत? यह मेरे लिए थोड़ा परेशान करने वाला है। सहज रूप से, यदि कोई अवशिष्ट विश्लेषण कोई पूर्वाग्रह नहीं दिखाता है, तो मुझे उम्मीद है कि जब मॉडल पीआर [y = 1] <0.2 की भविष्यवाणी करता है, तो y को 0.2 से कम संभावना के साथ 1 के बराबर होना चाहिए। लेकिन आपका जवाब आपको लगता है कि ऐसा नहीं है। क्या मैं सही तरीके से समझ रहा हूँ?
dshin

यह शायद एक टिप्पणी के रूप में बेहतर पोस्ट किया गया है।
संभावना

नहीं डेविड, यह 0.2 संभावना के अलावा कुछ भी मतलब नहीं है, शायद मेरे संपादन इसे और अधिक स्पष्ट करते हैं।
जॉन

क्षमा करें, मैं अभी भी थोड़ा भ्रमित हूं। निष्पक्ष मॉडल के बारे में मेरी सहज समझ यह है कि यदि मॉडल बड़ी संख्या में प्रत्येक डाटापॉइंट पर p = 0.2 की भविष्यवाणी करता है, तो उन डाटापॉइंट के 20% में y = 1 होना चाहिए। क्या यह समझ सही है? यदि ऐसा है, तो ऐसा लगता है कि मेरी प्लॉटिंग पद्धति को सही ढंग से पूर्वाग्रह प्रदर्शित करना चाहिए। यदि नहीं ... तो मैं "पूर्वाग्रह" की इस अवधारणा से बहुत खुश नहीं हूँ! यदि 0.2 का एक निष्पक्ष मॉडल पढ़ना मुझे संभावना के बारे में कुछ नहीं बताता है कि y = 1, तो निष्पक्षता क्या है?
dshin

हां, 20% में y = 1 होना चाहिए। लेकिन यह मृत नहीं है, यह कुछ राशि से बंद होने जा रहा है। संभावना स्थान में आप किस दिशा में सोचते हैं कि यह कितनी और कितनी दूर होगी? यदि यह निष्पक्ष है तो यह कहीं न कहीं .2: 1 या 0: 2 में समान रूप से गिरेगा। हालांकि, जैसा कि आप उन रिक्त स्थान के आकार से देख सकते हैं कि वे बड़े क्षेत्र में सिर्फ इसलिए दूर जा सकते हैं क्योंकि वे कर सकते हैं। लॉगिट स्पेस में दूर की दूरी बराबर + या - होनी चाहिए।
जॉन

2

ऐसा करने के लिए किसी भी सामान्य सॉफ़्टवेयर के मौजूद होने की संभावना नहीं है। सबसे अधिक संभावना है क्योंकि प्रतिगमन में मुद्दों को ठीक करने के लिए कोई सामान्य सिद्धांत नहीं है। इसलिए यह एक सैद्धांतिक रूप से निर्धारित प्रक्रिया के बजाय एक "मैं क्या करूँगा" उत्तर का अधिक है।

आपके द्वारा उत्पादित प्लॉट मूल रूप से 100 डिब्बे के साथ एक दृश्य एचएल परीक्षण है, लेकिन बिनिंग करने के लिए अनुमानित संभावना के बजाय एक एकल भविष्यवक्ता का उपयोग करना। इसका मतलब यह है कि आपकी प्रक्रिया एचएल परीक्षण के कुछ गुणों को विरासत में लेने की संभावना है।

आपकी प्रक्रिया उचित लगती है, हालाँकि आपको अपने मानदंडों को "ओवरफिटिंग" के बारे में पता होना चाहिए। निदान के रूप में आपके मानदंड भी कम उपयोगी नहीं हैं क्योंकि यह अनुमान प्रक्रिया का हिस्सा बन गया है। इसके अलावा, जब भी आप अंतर्ज्ञान द्वारा कुछ करते हैं, तो आपको अपने निर्णय लेने की प्रक्रिया को उतना ही विस्तार से लिखना चाहिए जितना व्यावहारिक है। इसका कारण यह है कि आप एक सामान्य प्रक्रिया या सिद्धांत के बीज की खोज कर सकते हैं, जो विकसित होने पर एक बेहतर प्रक्रिया की ओर जाता है (कुछ सिद्धांत के संबंध में अधिक स्वचालित और इष्टतम)।

मुझे लगता है कि जाने का एक तरीका यह है कि पहले उन भूखंडों की संख्या को कम किया जाए जिनकी आपको जांच करने की आवश्यकता है। ऐसा करने का एक तरीका यह है कि प्रत्येक चर को क्यूबिक स्लाइन के रूप में फिट किया जाए, और फिर उन भूखंडों की जांच करें जिनमें गैर शून्य गैर रेखीय अनुमान हैं। डेटा बिंदुओं की संख्या को देखते हुए यह गैर रेखीय के लिए एक आसान स्वचालित निर्धारण भी है। यह आपके मॉडल को 50 से 200 + 50k तक विस्तारित करेगा जहां k समुद्री मील की संख्या है। आप "सच" परिवर्तन के "सांख्यिकीय टेलर श्रृंखला विस्तार" को लागू करने के बारे में सोच सकते हैं।

यदि इसके बाद भी आपके डायग्नोस्टिक खराब दिखते हैं, तो मैं बातचीत की शर्तें जोड़ने की कोशिश करूंगा।

आपके प्रश्न के कुछ हिस्से एक इंटरएक्टिव प्रोग्राम लिखने के बारे में अधिक लगते हैं, जो कि यहाँ से स्टैकओवरफ्लो का अधिक डोमेन है। यह खोजपूर्ण डेटा विश्लेषण उपकरणों की खोज के लिए भी उपयोगी हो सकता है क्योंकि इनमें आपके द्वारा "गुल्लक वापस" बंद करने की विशेषताएं होने की अधिक संभावना है।


इस प्रतिक्रिया के लिए धन्यवाद। मैं क्यूब स्पिनल आइडिया देखूंगा। मैंने इसे "एक भूखंड को देखो और सुविधाओं को समायोजित करें" एक रेखीय-प्रतिगमन सेटिंग में दृष्टिकोण को नियोजित किया था, जहां यह अधिक स्पष्ट लग रहा था कि बेहतर फिट कैसे प्राप्त करें। उदाहरण के लिए, यदि आप एक हॉकी-स्टिक देखते हैं, तो यह स्पष्ट है कि f_a (x) सुधार लागू करने से बेहतर फिट होता है। अक्सर, समस्या डोमेन से ज्ञान इस निर्णय के साथ मेल खाता है: यदि आप आय से खुशी की भविष्यवाणी कर रहे हैं, उदाहरण के लिए, यह कैप आय का कोई मतलब होगा, जब तक आपको लगता है कि अरबपति करोड़पति की तुलना में 1000 गुना अधिक खुश हैं।
दैनिक

लेकिन जब मैंने एक लॉजिस्टिक रिग्रेशन सेटिंग पर स्विच किया, तो मुझे एहसास हुआ कि मुझे वास्तव में यकीन नहीं था कि मैं अपनी कार्यप्रणाली को कैसे स्थानांतरित करूं। इसलिए यह सबमिशन।
दैनिक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.