प्रशिक्षण सेट में संतुलन
लॉजिस्टिक रिग्रेशन मॉडल के लिए असंतुलित प्रशिक्षण डेटा केवल मॉडल इंटरसेप्ट के अनुमान को प्रभावित करता है (हालांकि यह निश्चित रूप से सभी अनुमानित संभावनाओं को छोड़ देता है, जो बदले में आपकी भविष्यवाणियों को समझौता करता है)। सौभाग्य से अवरोधन सुधार सीधा है: बशर्ते आप जानते हैं, या अनुमान लगा सकते हैं, 0s और 1s का सही अनुपात और पता है कि प्रशिक्षण सेट में अनुपात आप अवरोधन के लिए एक दुर्लभ घटना सुधार लागू कर सकते हैं। विवरण किंग और ज़ेंग (2001) [ पीडीएफ ] में हैं।
ये 'दुर्लभ घटना सुधार' केस कंट्रोल रिसर्च डिज़ाइन के लिए तैयार किए गए थे, जिनका उपयोग ज्यादातर महामारी विज्ञान में किया जाता था, जो कि निश्चित, आमतौर पर संतुलित संख्या में 0 मामलों और 1 मामलों का चयन करके मामलों का चयन करते हैं, और फिर परिणामस्वरूप नमूना चयन पूर्वाग्रह के लिए सही करने की आवश्यकता होती है। वास्तव में, आप अपने क्लासिफायरवर को उसी तरह प्रशिक्षित कर सकते हैं। एक अच्छा संतुलित नमूना चुनें और फिर इस तथ्य को ध्यान में रखते हुए कि आपने एक यादृच्छिक नमूने की तुलना में दुर्लभ कक्षाओं के बारे में अधिक जानने के लिए आश्रित चर पर चयन किया है, को बताने के लिए अवरोधन को ठीक करें।
भविष्यवाणी बनाना
संबंधित लेकिन विशिष्ट विषय पर: यह मत भूलो कि भविष्यवाणी करने के लिए आपको समझदारी से थ्रेसहोल्ड होना चाहिए। मॉडल की संभावना 0.5 से अधिक होने पर 1 की भविष्यवाणी करना हमेशा सबसे अच्छा नहीं होता है। एक और सीमा बेहतर हो सकती है। इसके लिए आपको अपने क्लासिफायर के रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक (ROC) कर्व्स पर गौर करना चाहिए, न कि डिफॉल्ट प्रोबेबिलिटी थ्रेशोल्ड के साथ इसकी प्रेडिक्टिव सक्सेस।