मेरे पास एक लॉजिस्टिक रिग्रेशन मॉडल है (लोचदार नेट नियमितीकरण के साथ आर में glmnet के माध्यम से फिट), और मैं सच्चे सकारात्मक और झूठी सकारात्मक के बीच अंतर को अधिकतम करना चाहूंगा। ऐसा करने के लिए, निम्नलिखित प्रक्रिया दिमाग में आई:
- फ़िट मानक लॉजिस्टिक प्रतिगमन मॉडल
- 0.5 के रूप में भविष्यवाणी दहलीज का उपयोग करना, सभी सकारात्मक भविष्यवाणियों की पहचान करें
- सकारात्मक भविष्यवाणी की टिप्पणियों के लिए वजन 1 असाइन करें, अन्य सभी के लिए 0
- फिट वेटेड लॉजिस्टिक रिग्रेशन मॉडल
इस दृष्टिकोण के साथ क्या खामियां होंगी? इस समस्या से निपटने का सही तरीका क्या होगा?
सही सकारात्मक और झूठी नकारात्मक की संख्या के बीच अंतर को अधिकतम करने का कारण मेरे आवेदन के डिजाइन के कारण है। एक क्लास प्रोजेक्ट के हिस्से के रूप में, मैं एक ऑनलाइन मार्केटप्लेस में एक स्वायत्त प्रतिभागी का निर्माण कर रहा हूं - अगर मेरा मॉडल भविष्यवाणी करता है कि वह कुछ खरीद सकता है और इसे बाद में अधिक कीमत पर बेच सकता है, तो यह एक बोली लगाता है। मैं फिक्स्ड कॉस्ट और यूनिट प्राइस इंक्रीमेंट के आधार पर लॉजिस्टिक रिग्रेशन और आउटपुट बाइनरी आउटेज (जीत, हार) से चिपके रहना चाहता हूं (मैं हर ट्रांजैक्शन पर एक ही रकम हासिल करता हूं या खोता हूं)। एक झूठी सकारात्मक मुझे चोट पहुँचाती है क्योंकि इसका मतलब है कि मैं कुछ खरीदता हूं और इसे अधिक कीमत पर बेचने में असमर्थ हूं। हालांकि, एक गलत नकारात्मक मुझे (केवल अवसर लागत के मामले में) चोट नहीं पहुंचाता है क्योंकि इसका मतलब है कि अगर मैं नहीं खरीदता, लेकिन अगर मेरे पास होता, तो मैं पैसा कमाता। इसी तरह,
मैं मानता हूं कि 0.5 कट-ऑफ पूरी तरह से मनमाना है, और जब मैंने मॉडल को भविष्यवाणी दहलीज पर चरण 1 से अनुकूलित किया जो कि सच / गलत सकारात्मक के बीच उच्चतम अंतर पैदा करता है, तो यह 0.4 के करीब हो जाता है। मुझे लगता है कि यह मेरे डेटा की तिरछी प्रकृति के कारण है - नकारात्मक और सकारात्मक के बीच का अनुपात लगभग 1: 3 है।
अभी, मैं निम्नलिखित चरणों का पालन कर रहा हूं:
- प्रशिक्षण / परीक्षण में डेटा विभाजित करें
- प्रशिक्षण पर फिट मॉडल, परीक्षण सेट में भविष्यवाणियां करें और सच्चे / झूठे सकारात्मक के बीच अंतर की गणना करें
- पूर्ण पर फिट मॉडल, परीक्षण सेट में भविष्यवाणियां करें और सच्चे / झूठे सकारात्मक के बीच अंतर की गणना करें
सच / झूठ सकारात्मक के बीच का अंतर चरण # 2 में चरण # 2 की तुलना में छोटा है, प्रशिक्षण सेट पूर्ण सेट का उप-समूह होने के बावजूद। चूँकि मुझे परवाह नहीं है कि # 3 में मॉडल में अधिक सच्ची नकारात्मकताएँ हैं और कम नकारात्मक बातें हैं, क्या ऐसी कोई भी चीज है जो मैं स्वयं कार्य की संभावना को बदले बिना कर सकता हूँ?