मान लीजिए मैं एक क्लासिफायर सीखना चाहता हूं जो ईमेल स्पैम होने पर भविष्यवाणी करता है। और मान लीजिए कि केवल 1% ईमेल स्पैम हैं।
सबसे आसान बात यह है कि तुच्छ क्लासिफायरियर सीखना होगा जो कहता है कि कोई भी ईमेल स्पैम नहीं है। यह क्लासिफायर हमें 99% सटीकता देगा, लेकिन यह कुछ भी दिलचस्प नहीं सीखेगा, और झूठे नकारात्मक की 100% दर होगी।
इस समस्या को हल करने के लिए, लोगों ने मुझे "downsample" के लिए कहा है, या डेटा के सबसेट पर सीखें जहां 50% उदाहरण स्पैम हैं और 50% स्पैम नहीं हैं।
लेकिन मैं इस दृष्टिकोण के बारे में चिंतित हूं, क्योंकि एक बार जब हम इस क्लासिफायर का निर्माण करते हैं और इसे ईमेल के वास्तविक कॉर्पस पर उपयोग करना शुरू कर देते हैं (जैसा कि 50/50 परीक्षण सेट के विपरीत), तो यह भविष्यवाणी कर सकता है कि बहुत सारे ईमेल स्पैम हैं जब वे ' वास्तव में नहीं। सिर्फ इसलिए क्योंकि यह वास्तव में डाटासेट में है की तुलना में बहुत अधिक स्पैम देखने के लिए उपयोग किया जाता है।
तो हम इस समस्या को कैसे ठीक करते हैं?
("Upsampling," या सकारात्मक प्रशिक्षण के उदाहरणों को बार-बार दोहराते हैं इसलिए 50% डेटा सकारात्मक प्रशिक्षण उदाहरण हैं, समान समस्याओं से ग्रस्त हैं।)