मेरे पास 1000 पॉज़िटिव के साथ 100,000 अवलोकन (9 डमी इंडिकेटर वैरिएबल) हैं। लॉजिस्टिक रिग्रेशन इस मामले में ठीक काम करना चाहिए, लेकिन कटऑफ संभावना मुझे पहेली।
आम साहित्य में, हम 1s और 0s की भविष्यवाणी करने के लिए 50% कटऑफ चुनते हैं। मैं ऐसा नहीं कर सकता क्योंकि मेरा मॉडल ~ 1% का अधिकतम मूल्य देता है। तो एक दहलीज 0.007 या उसके आसपास कहीं हो सकती है।
मुझे समझ में आता है कि ROCवक्र और वक्र के नीचे का क्षेत्र कैसे मुझे एक ही डेटासेट के लिए दो LR मॉडल चुनने में मदद कर सकता है। हालांकि, आरओसी मुझे एक इष्टतम कटऑफ संभावना का चयन करने में मदद नहीं करता है जो कि एक आउट-ऑफ-सैंपल डेटा पर मॉडल का परीक्षण करने के लिए उपयोग किया जा सकता है।
क्या मुझे बस एक कटऑफ मूल्य का उपयोग करना चाहिए जो कम से कम करता है misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
जोड़ा -> इतनी कम घटना दर के लिए, मेरी गर्भस्राव दर झूठी सकारात्मकता की एक बड़ी संख्या से प्रभावित होती है। जबकि कुल ब्रह्मांड दर भी अच्छी है क्योंकि कुल ब्रह्मांड का आकार भी बड़ा है, लेकिन मेरे मॉडल में इतनी झूठी सकारात्मकता नहीं होनी चाहिए (क्योंकि यह एक निवेश रिटर्न मॉडल है)। 5/10 कोफ़ महत्वपूर्ण हैं।