हमें एक डेटासेट को असंतुलित कब मानना ​​चाहिए?


10

मैं ऐसी स्थिति का सामना कर रहा हूं, जहां एक डेटासेट में सकारात्मक और नकारात्मक उदाहरणों की संख्या असंतुलित है।

मेरा प्रश्न यह है कि क्या अंगूठे के कोई नियम हैं जो हमें बताते हैं कि जब हम डेटासेट में किसी प्रकार का संतुलन बनाने के लिए बड़ी श्रेणी को छोड़ दें।

उदाहरण:

  • यदि सकारात्मक उदाहरणों की संख्या 1,000 है और नकारात्मक उदाहरणों की संख्या 10,000 है, तो क्या मुझे पूर्ण डेटासेट पर अपने वर्गीकरण का प्रशिक्षण लेने के लिए जाना चाहिए या मुझे नकारात्मक उदाहरणों को कम करना चाहिए?
  • 1,000 सकारात्मक उदाहरण और 100,000 नकारात्मक के लिए एक ही सवाल।
  • 10,000 सकारात्मक और 1,000 नकारात्मक के लिए एक ही सवाल।
  • आदि...

डेटासेट के साथ कुछ भी गलत नहीं है जो न तो पूरी तरह से प्रति मध्य नीचे विभाजित होता है। आप किस मॉडलिंग तकनीक का उपयोग कर रहे हैं? यदि तकनीक "संतुलित" डेटा पर निर्भर करती है, तो आप गलत तकनीक का उपयोग कर सकते हैं।
डी

1
नीना ज़ुमेल यहां विभिन्न अनुमानकों पर संतुलन के प्रभावों की जांच करती है , इससे दूसरों को भी मदद मिल सकती है। वह बेतरतीब जंगल, एसवीएम और एक लोगो का अनुमान लगाती है।
सीएफएम 12

जवाबों:


9

मुझे लगता है कि आधार स्तर पर वर्ग असंतुलन को नियंत्रित करने के लिए सबसामलिंग (डाउनसमलिंग) एक लोकप्रिय तरीका है, जिसका अर्थ है कि यह समस्या की जड़ को ठीक करता है। इसलिए आपके सभी उदाहरणों के लिए, बेतरतीब ढंग से वर्ग के 1,000 का चयन करते हुए हर बार काम करेगा। आप 10 मॉडल (1,000 बहुमत बनाम 1,000 अल्पसंख्यक के 10 गुना) बनाने के साथ भी खेल सकते हैं ताकि आप अपने पूरे डेटा सेट का उपयोग करेंगे। आप इस विधि का उपयोग कर सकते हैं, लेकिन फिर से आप 9,000 नमूनों को फेंकने की तरह हैं, जब तक कि आप कुछ पहनावा के तरीकों की कोशिश नहीं करते। आसान फिक्स, लेकिन अपने डेटा के आधार पर एक इष्टतम मॉडल प्राप्त करने के लिए कठिन।

वर्ग असंतुलन के लिए आपको जिस डिग्री पर नियंत्रण करने की आवश्यकता है, वह काफी हद तक आपके लक्ष्य पर आधारित है। यदि आप शुद्ध वर्गीकरण के बारे में परवाह करते हैं, तो असंतुलन 50% संभावना को प्रभावित करेगा जो अधिकांश तकनीकों के लिए कट जाता है, इसलिए मैं डाउनसमलिंग पर विचार करूंगा। यदि आप केवल वर्गीकरण के आदेश की परवाह करते हैं (सकारात्मकता नकारात्मक से अधिक सकारात्मक चाहते हैं) और एयूसी जैसे उपाय का उपयोग करें, तो वर्ग असंतुलन केवल आपकी संभावनाओं को पूर्वाग्रह करेगा, लेकिन अधिकांश तकनीकों के लिए सापेक्ष क्रम शालीनतापूर्वक स्थिर होना चाहिए।

लॉजिस्टिक रिग्रेशन क्लास के असंतुलन के लिए अच्छा है क्योंकि जब तक आपके पास> अल्पसंख्यक वर्ग के 500 हैं, मापदंडों का अनुमान पर्याप्त सटीक होगा और एकमात्र प्रभाव इंटरसेप्ट पर होगा, जिसे ठीक किया जा सकता है, यदि आप कुछ ऐसा कर सकते हैं चाहते हैं। लॉजिस्टिक रिग्रेशन सिर्फ कक्षाओं के बजाय संभावनाओं को मॉडल करता है, इसलिए आप अपनी आवश्यकताओं के अनुरूप अधिक मैनुअल समायोजन कर सकते हैं।

बहुत सारी वर्गीकरण तकनीकों में एक वर्ग वजन तर्क भी है जो आपको अल्पसंख्यक वर्ग पर अधिक ध्यान केंद्रित करने में मदद करेगा। यह एक सच्चे अल्पसंख्यक वर्ग के मिस क्लासिफिकेशन को दंडित करेगा, इसलिए आपकी समग्र अभिवृद्धि को थोड़ा नुकसान होगा लेकिन आप अधिक अल्पसंख्यक वर्गों को देखना शुरू कर देंगे जो सही ढंग से वर्गीकृत हैं।


क्या आप "जब तक आपके पास अल्पसंख्यक वर्ग के 500 हैं" के अपने मार्गदर्शन पर विस्तार कर सकते हैं? आपको यह 500 नंबर कहां से मिला? क्या यह आपके अनुभव पर आधारित है? मुझे आपके उत्तर से एक प्रतिशत की उम्मीद थी।
जस

2

असंतुलन को औपचारिक रूप से परिभाषित नहीं किया गया है, लेकिन संतुलन तकनीक का उपयोग करने से लाभ के लिए आमतौर पर 1 से 10 का अनुपात असंतुलित होता है।

दो प्रकार के असंतुलन, सापेक्ष और निरपेक्ष हैं। सापेक्ष में बहुसंख्यक और अल्पसंख्यक वर्गों के बीच अनुपात असंतुलित है। पूर्ण रूप से आपके पास अल्पसंख्यक नमूनों की एक छोटी संख्या भी है। असंतुलन अनुपात जितना अधिक होगा, आप पूर्ण असंतुलन पर भी पहुंचेंगे।

कृपया ध्यान दें कि असंतुलित डेटासेट के साथ सामना करने के लिए सीधे आगे की सबसामलिंग एक इष्टतम तरीका नहीं है। ऐसा इसलिए है क्योंकि आपको एक क्लासिफायर का निर्माण करना चाहिए जो आपके मूल डेटासेट पर अच्छा प्रदर्शन करेगा। असंतुलित डेटासेट पर क्लासिफायर बनाने की तकनीक के लिए यहां देखें । अपने वर्गीकरण का मूल्यांकन करने के लिए यहां देखें ।


2

डेटा असंतुलन की समस्या ?? सिद्धांत रूप में, यह केवल संख्याओं के बारे में है। भले ही अंतर 1 नमूना है यह डेटा असंतुलन है

व्यावहारिक रूप में, यह कहना कि यह डेटा असंतुलन की समस्या है तीन चीजों द्वारा नियंत्रित किया जाता है: 1. आपके पास नमूने की संख्या और वितरण 2. एक ही वर्ग के भीतर भिन्नता 3. विभिन्न वर्गों के बीच समानताएं

अंतिम दो बिंदु बदलते हैं कि हम अपनी समस्या पर कैसे विचार करते हैं।

इसे समझाने के लिए मैं एक उदाहरण देता हूं: कक्षा ए = १०० नमूने कक्षा बी = १० ०००

यदि वर्ग बी के भीतर भिन्नता बहुत कम है तो डाउन सैंपलिंग पर्याप्त होगी, कोई डेटा असंतुलन समस्या नहीं है

यदि वर्ग बी के भीतर भिन्नता बहुत अधिक है, तो नीचे नमूनाकरण से सूचना हानि हो सकती है और नमूना नीचे लागू करना खतरनाक है

एक अन्य बिंदु, बहुत सारे नमूने (मुख्य रूप से अल्पसंख्यक वर्ग के लिए) डेटा असंतुलन की समस्या को शांत करेंगे और इससे निपटने के लिए आसान बना देंगे

जैसे 10: 100. बनाम। 1000: 10 000

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.