मेरे पास एक डेटासेट है जिसमें घटना की दर बहुत कम है ( 40,000 )। मैं इस पर लॉजिस्टिक रिग्रेशन लागू कर रहा हूं। मैंने किसी ऐसे व्यक्ति के साथ चर्चा की है जहां यह सामने आया है कि लॉजिस्टिक रिग्रेशन ऐसे कम घटना दर डेटा पर अच्छा भ्रम मैट्रिक्स नहीं देगा। लेकिन व्यवसाय की समस्या और जिस तरह से इसे परिभाषित किया गया है, उसके कारण मैं घटनाओं की संख्या को 40,000 से बढ़ाकर किसी भी बड़ी संख्या में नहीं कर सकता, हालांकि मैं मानता हूं कि मैं कुछ अयोग्य आबादी को हटा सकता हूं।
कृपया मुझे इस पर अपने विचार बताएं, विशेष रूप से:
- क्या लॉजिस्टिक रिग्रेशन की सटीकता घटना दर पर निर्भर करती है या क्या कोई न्यूनतम घटना दर है जो अनुशंसित है?
- क्या कम घटना दर डेटा के लिए कोई विशेष तकनीक है?
- क्या मेरे मॉडल की सटीकता के लिए मेरी अयोग्य जनसंख्या को हटाना अच्छा होगा?
मैं सांख्यिकीय मॉडलिंग के लिए नया हूं इसलिए अपनी अज्ञानता को क्षमा करें और कृपया किसी भी संबद्ध मुद्दे को संबोधित करें जिसके बारे में मैं सोच सकता था।
धन्यवाद,