यह प्रश्न सामान्य और लंबे समय से घुमावदार है, लेकिन कृपया मेरे साथ रहें।
मेरे आवेदन में, मेरे पास कई डेटासेट हैं, जिनमें से प्रत्येक में ~ 50 सुविधाओं के साथ ~ 20,000 डेटापॉइंट और एक एकल निर्भर बाइनरी चर शामिल हैं। मैं नियमित लॉजिस्टिक प्रतिगमन (R पैकेज glmnet ) का उपयोग करके डेटासेट को मॉडल करने का प्रयास कर रहा हूं
मेरे विश्लेषण के हिस्से के रूप में, मैंने अवशिष्ट प्लॉट निम्नानुसार बनाए हैं। प्रत्येक सुविधा के लिए, मैं उस विशेषता के मान के अनुसार डेटापॉइंट्स को सॉर्ट करता हूं, डेटापॉइंट्स को १०० बाल्टी में विभाजित करता हूं, और फिर प्रत्येक बाल्टी के भीतर औसत आउटपुट मान और औसत भविष्यवाणी मूल्य की गणना करता हूं। मैं इन मतभेदों की साजिश करता हूं।
यहाँ एक उदाहरण है अवशिष्ट भूखंड:
उपरोक्त कथानक में, इस फीचर की सीमा [0,1] (1 पर भारी एकाग्रता के साथ) है। जैसा कि आप देख सकते हैं, जब फ़ीचर वैल्यू कम होती है, तो मॉडल 1-आउटपुट की संभावना को कम करके आंकने की ओर अग्रसर होता है। उदाहरण के लिए, सबसे बाईं बाल्टी में, मॉडल संभावना को लगभग 9% से अधिक कर देता है।
इस जानकारी के साथ, मैं इस पूर्वाग्रह के लिए मोटे तौर पर सही तरीके से सीधे तौर पर फीचर परिभाषा को बदलना चाहूंगा। बदलने की तरह बदलाव
या
मैं यह कैसे कर सकता हूँ? मैं एक सामान्य कार्यप्रणाली की तलाश कर रहा हूं ताकि एक मानव जल्दी से सभी ~ 50 भूखंडों के माध्यम से स्क्रॉल कर सके और परिवर्तन कर सके, और सभी डेटासेट के लिए ऐसा करें और मॉडल को अद्यतित रखने के लिए अक्सर दोहराएं क्योंकि डेटा समय के साथ विकसित होता है।
एक सामान्य प्रश्न के रूप में, क्या यह सही दृष्टिकोण भी है? Google "लॉजिस्टिक रिग्रेशन अवशिष्ट विश्लेषण" की खोज करता है और अच्छी व्यावहारिक सलाह के साथ कई परिणाम नहीं देता है। वे इस सवाल का जवाब देने पर ठीक होने लगते हैं, "क्या यह मॉडल एक अच्छा फिट है?" और उत्तर देने के लिए होस्मेर-लेमेशो जैसे विभिन्न परीक्षण प्रदान करते हैं। लेकिन मुझे इस बात की कोई परवाह नहीं है कि मेरा मॉडल अच्छा है, मैं जानना चाहता हूं कि इसे बेहतर कैसे बनाया जाए!