मेरे पास एक वर्गीकरण कार्य है जहां मेरे पास कई भविष्यवक्ता हैं (जिनमें से एक सबसे अधिक जानकारीपूर्ण है), और मैं अपने क्लासिफायर का निर्माण करने के लिए MARS मॉडल का उपयोग कर रहा हूं (मैं किसी भी सरल मॉडल में दिलचस्पी रखता हूं, और उदाहरण के लिए चित्र का उपयोग करना होगा) ठीक हूँ)। अब मेरे पास प्रशिक्षण डेटा (प्रत्येक सकारात्मक नमूने के लिए लगभग 2700 नकारात्मक नमूने) में एक विशाल वर्ग असंतुलन है। सूचना पुनर्प्राप्ति कार्यों के समान, मैं शीर्ष रैंकिंग सकारात्मक परीक्षण नमूनों की भविष्यवाणी करने के बारे में अधिक चिंतित हूं। इस कारण से, प्रेसिजन रिकॉल घटता पर प्रदर्शन मेरे लिए महत्वपूर्ण है।
सबसे पहले, मैंने क्लास के असंतुलन को ध्यान में रखते हुए मॉडल को अपने प्रशिक्षण डेटा पर प्रशिक्षित किया। मैं अपने प्रशिक्षित मॉडल को लाल रंग में देखता हूं, और नीले रंग में सबसे महत्वपूर्ण इनपुट।
असंतुलित डेटा पर प्रशिक्षण, असंतुलित डेटा पर मूल्यांकन :
यह सोचकर कि कक्षा असंतुलन मॉडल को फेंक रहा है, चूंकि शीर्ष रैंकिंग सकारात्मक नमूने सीखना पूरे डेटा सेट का एक छोटा हिस्सा है, मैंने संतुलित प्रशिक्षण डेटा सेट प्राप्त करने के लिए सकारात्मक प्रशिक्षण बिंदुओं को अपदस्थ कर दिया। जब मैं संतुलित प्रशिक्षण सेट पर प्रदर्शन की साजिश करता हूं, तो मुझे अच्छा प्रदर्शन मिलता है। पीआर और आरओसी दोनों घटता में, मेरा प्रशिक्षित मॉडल बेहतर है तो इनपुट।
संतुलित डेटा पर प्रशिक्षण (अपग्रेडेड) संतुलित डेटा, मूल्यांकन भी
हालांकि, अगर मैं मूल, असंतुलित प्रशिक्षण सेट पर भविष्यवाणी करने के लिए संतुलित डेटा पर प्रशिक्षित इस मॉडल का उपयोग करता हूं, तो मुझे अभी भी पीआर वक्र पर खराब प्रदर्शन मिलता है।
संतुलित डेटा (मूल असंतुलित डेटा पर मूल्यांकन) पर प्रशिक्षण:
तो मेरे सवाल हैं:
- क्या पीआर वक्र का दृश्य मेरे प्रशिक्षित मॉडल (लाल) के अवर प्रदर्शन को दर्शाता है, जबकि आरओसी वक्र वर्ग असंतुलन के कारण सुधार दिखाता है?
- क्या पुनरुत्पादन / अप-सैंपलिंग / डाउन-सैंपलिंग दृष्टिकोण इसे उच्च परिशुद्धता / कम रिकॉल क्षेत्र पर ध्यान केंद्रित करने के लिए प्रशिक्षण के लिए मजबूर कर सकता है?
- क्या उच्च परिशुद्धता / कम रिकॉल क्षेत्र पर प्रशिक्षण पर ध्यान केंद्रित करने का कोई अन्य तरीका है?