सहज ज्ञान युक्त तर्क ब्लॉगपोस्ट में समझाया गया है:
यदि हमारा लक्ष्य भविष्यवाणी है, तो यह एक निश्चित पूर्वाग्रह पैदा करेगा। और इससे भी बदतर, यह एक स्थायी पूर्वाग्रह होगा, इस अर्थ में कि हमारे पास सुसंगत अनुमान नहीं होंगे क्योंकि नमूना आकार बढ़ता है।
तो, यकीनन (कृत्रिम रूप से) संतुलित डेटा की समस्या असंतुलित मामले से भी बदतर है।
संतुलित डेटा वर्गीकरण के लिए अच्छा है, लेकिन आप स्पष्ट रूप से उपस्थिति आवृत्तियों के बारे में ढीली जानकारी देते हैं, जो सटीकता मेट्रिक्स को प्रभावित करने जा रहा है, साथ ही साथ उत्पादन प्रदर्शन भी।
मान लीजिए कि आप अंग्रेजी वर्णमाला (26 अक्षर) से हाथ से लिखे गए अक्षरों को पहचान रहे हैं। प्रत्येक अक्षर उपस्थिति को असंतुलित करने से हर अक्षर को वर्गीकृत किया जाएगा (सही ढंग से या नहीं) लगभग 1/26, इसलिए क्लासिफायर मूल नमूने में पत्रों के वास्तविक वितरण के बारे में भूल जाएगा। और यह ठीक है जब उच्च सटीकता के साथ हर अक्षर को सामान्य बनाने और पहचानने में सक्षम है ।
लेकिन अगर सटीकता और सबसे महत्वपूर्ण रूप से सामान्यीकरण "इतना उच्च" नहीं है (मैं आपको एक परिभाषा नहीं दे सकता - आप इसे "सबसे खराब स्थिति" के रूप में सोच सकते हैं) - मिसकॉलिफाइड अंक सबसे अधिक संभावना सभी पत्रों के बीच समान रूप से वितरित करेंगे , कुछ इस तरह:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
बिना संतुलन के विरोध के रूप में (यह मानते हुए कि "A" और "C" की पाठ में उपस्थिति की बहुत अधिक संभावनाएं हैं)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
इसलिए लगातार मामलों में कम गर्भपात होगा। यह अच्छा है या नहीं यह आपके कार्य पर निर्भर करता है। प्राकृतिक पाठ मान्यता के लिए, कोई यह तर्क दे सकता है कि उच्च आवृत्तियों वाले अक्षर अधिक व्यवहार्य हैं, क्योंकि वे मूल पाठ के शब्दार्थों को संरक्षित करेंगे, मान्यता कार्य को भविष्यवाणी के करीब लाएँगे (जहाँ शब्दार्थ प्रवृत्ति का प्रतिनिधित्व करते हैं )। लेकिन अगर आप ईसीडीएसए-की- स्क्रीनशॉट (अधिक एंट्रोपी -> कम भविष्यवाणी) जैसे स्क्रीनशॉट को पहचानने की कोशिश कर रहे हैं - तो डेटा को असंतुलित रखने से मदद नहीं मिलेगी। तो, फिर से, यह निर्भर करता है।
सबसे महत्वपूर्ण अंतर यह है कि सटीकता का अनुमान, स्वयं, पक्षपाती हो रहा है (जैसा कि आप संतुलित वर्णमाला उदाहरण में देख सकते हैं), इसलिए आप नहीं जानते कि मॉडल का व्यवहार सबसे दुर्लभ या सबसे लगातार बिंदुओं से कैसे प्रभावित हो रहा है।
PS आप पहले प्रेसिजन / रिकॉल मेट्रिक्स के साथ असंतुलित वर्गीकरण के प्रदर्शन को ट्रैक कर सकते हैं और यह तय कर सकते हैं कि आपको संतुलन जोड़ने की जरूरत है या नहीं।
p(xi|θ)p(xi|θ^)θ^i−θi, यह कभी-कभी जनसंख्या या तो बड़े नमूने (इस प्रकार बेहतर अनुमानक) से ज्ञात मापदंडों के अनुसार पुनर्संतुलन वर्गों के लिए अनुशंसित है । हालांकि, व्यवहार में इस बात की कोई गारंटी नहीं है कि "बड़ा नमूना" प्रत्येक चरण पर पक्षपाती डेटा प्राप्त करने के जोखिम के कारण अनौपचारिक रूप से वितरित किया जाता है (मान लीजिए कि तकनीकी साहित्य बनाम कथा साहित्य बनाम संपूर्ण पुस्तकालय से एकत्र किए गए पत्र) इसलिए संतुलन अभी भी हानिकारक हो सकता है।
इस जवाब में संतुलन के लिए प्रयोज्यता मानदंड भी स्पष्ट होना चाहिए:
वर्ग असंतुलन की समस्या अल्पसंख्यक वर्ग से संबंधित पर्याप्त प्रतिमान न होने के कारण होती है, न कि अपने आप में सकारात्मक और नकारात्मक प्रतिमानों के अनुपात से। आम तौर पर यदि आपके पास पर्याप्त डेटा है, तो "क्लास असंतुलन समस्या" उत्पन्न नहीं होती है
निष्कर्ष के रूप में, कृत्रिम संतुलन शायद ही कभी उपयोगी होता है यदि प्रशिक्षण सेट काफी बड़ा हो। बड़े पैमाने पर वितरित किए गए नमूने से सांख्यिकीय डेटा की अनुपस्थिति भी कृत्रिम संतुलन (विशेष रूप से भविष्यवाणी के लिए) की आवश्यकता नहीं है, अन्यथा अनुमानक की गुणवत्ता "डायनासोर को पूरा करने की संभावना" जितनी अच्छी है:
सड़क पर एक डायनासोर के बाहर मिलने की संभावना क्या है?
1/2 आप या तो एक डायनासोर से मिलते हैं या आप एक डायनासोर से नहीं मिलते हैं