अगर मैं सही ढंग से समझूं, तो आपको दो वर्ग वर्गीकरण की समस्या है, जहाँ सकारात्मक वर्ग (माचिस) दुर्लभ है। इस तरह के एक वर्ग के असंतुलन के साथ कई क्लासीफायर संघर्ष करते हैं, और बेहतर प्रदर्शन प्राप्त करने के लिए बहुसंख्यक वर्ग को उप-नमूना करना आम बात है, इसलिए पहले प्रश्न का उत्तर "हां" है। हालांकि, यदि आप बहुत अधिक उप-नमूना करते हैं, तो आप एक क्लासिफायर के साथ समाप्त हो जाएंगे, जो अल्पसंख्यक सकारात्मक वर्ग की भविष्यवाणी करता है, इसलिए सबसे अच्छी बात यह है कि प्रदर्शन को अधिकतम करने के लिए उप-नमूना राशन का चयन करें, शायद क्रॉस को कम करके- सत्यापन त्रुटि जहां परीक्षण डेटा को उप-नमूना नहीं किया गया है, इसलिए आपको परिचालन प्रदर्शन का एक अच्छा संकेत मिलता है।
यदि आपके पास एक संभाव्य क्लासिफायरिफायर है, जो क्लास मेमोरशिप की संभाव्यता का अनुमान देता है, तो आप प्रशिक्षण सेट और ऑपरेशन में वर्ग आवृत्तियों के बीच के अंतर की भरपाई के लिए एक बेहतर और बाद की प्रक्रिया को आउटपुट कर सकते हैं। मुझे संदेह है कि कुछ क्लासिफायरर्स के लिए, इष्टतम दृष्टिकोण क्रॉस-वैलिडेशन त्रुटि का अनुकूलन करके उप-नमूना अनुपात और आउटपुट में सुधार दोनों को अनुकूलित करना है।
उप-नमूने के बजाय, कुछ क्लासिफायरफाइर्स (जैसे एसवीएम) के लिए आप सकारात्मक और नकारात्मक पैटर्न को अलग-अलग वजन दे सकते हैं। मैं इसे उप-नमूने के लिए पसंद करता हूं क्योंकि इसका मतलब है कि उपयोग किए गए विशेष उप-नमूने के कारण परिणामों में कोई परिवर्तनशीलता नहीं है। जहां यह संभव नहीं है, बैगेड क्लासिफायर बनाने के लिए बूटस्ट्रैपिंग का उपयोग करें, जहां प्रत्येक पुनरावृत्ति में बहुमत वर्ग का एक अलग उप-नमूना उपयोग किया जाता है।
एक और बात मैं कहूंगा कि आमतौर पर जहां एक बड़ा वर्ग असंतुलन होता है, झूठी नकारात्मक त्रुटियां और झूठी सकारात्मक त्रुटि समान रूप से खराब नहीं होती हैं, और इसे क्लासिफायर डिज़ाइन में बनाना एक अच्छा विचार है (जिसे उप द्वारा पूरा किया जा सकता है -Sampling या भार वर्ग से संबंधित पैटर्न)।