असंतुलित डेटा कब मशीन लर्निंग में एक समस्या है?


52

लॉजिस्टिक रिग्रेशन , एसवीएम , डिसीजन ट्री , बैगिंग और इसी तरह के कई अन्य सवालों का उपयोग करते समय हमारे पास असंतुलित डेटा के बारे में पहले से ही कई सवाल थे , जो इसे बहुत लोकप्रिय विषय बनाता है! दुर्भाग्य से, प्रत्येक प्रश्न एल्गोरिदम-विशिष्ट प्रतीत होता है और मुझे असंतुलित डेटा से निपटने के लिए कोई सामान्य दिशानिर्देश नहीं मिला।

मार्क क्लेन द्वारा जवाबों में से एक को उद्धृत करना , असंतुलित डेटा से निपटना

(...) अधिगम पद्धति पर बहुत अधिक निर्भर करता है। ज्यादातर सामान्य उद्देश्य दृष्टिकोणों से निपटने के लिए एक (या कई) तरीके हैं।

लेकिन वास्तव में हमें असंतुलित डेटा की चिंता कब करनी चाहिए? कौन से एल्गोरिदम ज्यादातर इससे प्रभावित होते हैं और जो इससे निपटने में सक्षम हैं? डेटा को संतुलित करने के लिए हमें किन एल्गोरिदम की आवश्यकता होगी? मुझे पता है कि प्रत्येक एल्गोरिदम पर चर्चा करना Q & A साइट पर इस तरह असंभव होगा, मैं एक सामान्य दिशानिर्देश की तलाश कर रहा हूं जब यह समस्या हो सकती है।



@MatthewDrury धन्यवाद, यह एक दिलचस्प सवाल है, लेकिन IMHO, इसकी एक अलग गुंजाइश है। जब मैं पूछ रहा हूं कि यह वास्तव में एक समस्या है, तो दिशानिर्देशों के लिए क्या है निश्चित रूप से जवाब देने क्यों सवाल का जवाब देने के लिए होता है जब सवाल है, लेकिन मैं के लिए सटीक जवाब के लिए देख रहा हूँ जब सवाल।
टिम

9
काफी उचित! मैं तुम्हारे साथ हूँ। इस पर "साहित्य" सभी को लगता है कि किसी समस्या को कैसे ठीक किया जाए, आपको यह समझाने के लिए परेशान किए बिना कि वास्तव में एक समस्या का हल होना है, या यह भी बताएं कि कोई समस्या क्या होती है या नहीं। मेरे लिए विषय के सबसे निराशाजनक भागों में से एक।
मैथ्यू डॉरी

2
@MatthewDrury जो वास्तव में समस्या है!
टिम

1
विधियों का कुल सर्वेक्षण एसई प्रश्न के दायरे में नहीं है। क्या आप प्रश्न को परिष्कृत करना चाहते हैं?
एडमो

जवाबों:


28

एक सीधा जवाब नहीं है, लेकिन यह ध्यान देने योग्य है कि सांख्यिकीय साहित्य में असंतुलित डेटा के खिलाफ कुछ पूर्वाग्रह ऐतिहासिक जड़ें हैं।

कई शास्त्रीय मॉडल संतुलित डेटा की धारणा के तहत बड़े करीने से सरल करते हैं, विशेष रूप से एनोवा जैसे तरीकों के लिए जो प्रयोगात्मक डिजाइन से निकटता से संबंधित हैं - सांख्यिकीय विधियों को विकसित करने के लिए एक पारंपरिक / मूल प्रेरणा।

लेकिन सांख्यिकीय / संभाव्य अंकगणित असंतुलित डेटा के साथ, बहुत जल्दी, काफी बदसूरत हो जाता है। कंप्यूटरों के व्यापक रूप से अपनाने से पहले, उप-हाथ की गणना इतनी व्यापक थी कि असंतुलित डेटा पर मॉडल का अनुमान लगाना असंभव था।

बेशक, कंप्यूटरों ने मूल रूप से इसे एक गैर-मुद्दा बना दिया है। इसी तरह, हम बड़े पैमाने पर डेटासेट पर मॉडल का अनुमान लगा सकते हैं, उच्च-आयामी अनुकूलन समस्याओं को हल कर सकते हैं, और विश्लेषणात्मक रूप से सहज संयुक्त संभाव्यता वितरण से नमूने आकर्षित कर सकते हैं, जो सभी पचास साल पहले कार्यात्मक रूप से असंभव थे।

यह एक पुरानी समस्या है, और शिक्षाविदों ने समस्या पर काम करने में बहुत समय व्यतीत किया है ... इस बीच, कई लागू समस्याओं ने उस शोध को आगे बढ़ाया / खारिज कर दिया, लेकिन पुरानी आदतें कठिन हो जाती हैं ...

जोड़ने के लिए संपादित करें:

मुझे लगता है कि मैं बाहर नहीं आया था और बस यह कहता हूं: असंतुलित डेटा का उपयोग करने के साथ निम्न स्तर की समस्या नहीं है। मेरे अनुभव में, "असंतुलित डेटा से बचने" की सलाह या तो एल्गोरिथ्म-विशिष्ट है, या विरासत में मिली ज्ञान है। मैं एडमो से सहमत हूं कि सामान्य तौर पर, असंतुलित डेटा एक अच्छी तरह से निर्दिष्ट मॉडल के लिए कोई वैचारिक समस्या नहीं है।


4
जबकि मुझे आपकी बात सही लगती है, आपके परिसर में उनके पास तर्क देने की कमी है। क्या आप पूर्वाग्रह पर कुछ तर्क और / या उदाहरण दे सकते हैं और मशीन सीखने को कैसे प्रभावित किया है?
टिम

1
जबकि तुम क्या कहना ज्यादातर सच है, यह है भी मामला है कि एनोवा तरह के तरीकों संतुलित डेटा के साथ और अधिक मजबूत है, nonnormality संतुलित डेटा, उदाहरण के लिए के साथ कोई समस्या नहीं रह जाती है। लेकिन मेरा मानना ​​है कि इस सवाल के इरादे से यह सब कुछ है ...
kjetil b halvorsen

7
मुझे लगता है कि मैं बाहर नहीं आया था और सिर्फ यह कहता हूं: असंतुलित डेटा का उपयोग करने के साथ निम्न स्तर की समस्या नहीं है। मेरे अनुभव में, "असंतुलित डेटा से बचने" की सलाह या तो एल्गोरिथ्म-विशिष्ट है, या विरासत में मिली ज्ञान है। मैं एडमो से सहमत हूं कि सामान्य तौर पर, असंतुलित डेटा एक अच्छी तरह से निर्दिष्ट मॉडल के लिए कोई वैचारिक समस्या नहीं है।
हेनरी

1
@ M.HenryL। यह टिप्पणी पूर्णता के लिए आपके उत्तर को जोड़ने के लायक है।
टिम

16

WLOG आप "डेटा स्पार्सिटी", या छोटे सेल काउंट्स की अधिक बारीक अवधारणा के बजाय एक कारक में असंतुलन पर ध्यान केंद्रित कर सकते हैं।

सांख्यिकीय विश्लेषण में सीखने पर ध्यान केंद्रित नहीं किया जाता है, हम अक्सर पाते हैं कि छोटे समूह को बड़े समूह से मिलान करने के लिए प्रवृत्ति स्कोर का उपयोग करते समय समान या बेहतर शक्ति खर्च की जाती है । यह आंशिक रूप से है क्योंकि मिलान समूह सदस्यता के निर्धारकों को "संतुलन" करने के मामले में कन्फ्यूडर समायोजन के लिए एक समान उद्देश्य प्रदान करता है, इस प्रकार उनके भ्रमित प्रभावों को रोकता है। एक बहुभिन्नरूपी विश्लेषण में संभावित रूप से समायोजित करने के लिए कन्फ़्यूडर की संख्या के लिए तर्क नमूना आकार पर निर्भर करता है। अंगूठे के कुछ नियम कहते हैं कि प्रत्येक 10 से 20 प्रेक्षणों में से एक चर है। असंतुलित डेटा में, आप भोलेपन से मानते हैं कि आपका डेटा पर्याप्त रूप से बड़ा है, लेकिन दुर्लभ स्थिति वाले लोगों की संख्या के साथ: विचरण मुद्रास्फीति बहुत कम हो जाती है। आप वास्तव में, समायोजन से अधिक हैं।

इसलिए, कम से कम प्रतिगमन में (लेकिन मुझे सभी परिस्थितियों में संदेह है), असंतुलित डेटा के साथ एकमात्र समस्या यह है कि आपके पास प्रभावी रूप से छोटा नमूना आकार है । यदि कोई विधि दुर्लभ वर्ग के लोगों की संख्या के लिए उपयुक्त है, तो कोई अनुपात नहीं होना चाहिए अगर उनकी अनुपात सदस्यता असंतुलित हो।


13

असंतुलित डेटा केवल आपके आवेदन के आधार पर एक समस्या है। यदि उदाहरण के लिए आपका डेटा इंगित करता है कि A 99.99% समय और 0.01% समय बी होता है और आप एक निश्चित परिणाम की भविष्यवाणी करने की कोशिश करते हैं तो शायद आपका एल्गोरिथम हमेशा कहेगा कि A. यह बिल्कुल सही है! 99.99% से बेहतर भविष्यवाणी सटीकता प्राप्त करने के लिए आपकी विधि की संभावना नहीं है। हालांकि कई अनुप्रयोगों में हम सिर्फ भविष्यवाणी की शुद्धता में रुचि नहीं रखते हैं, लेकिन यह भी कि बी कभी-कभी क्यों होता है। यह वह जगह है जहाँ असंतुलित डेटा एक समस्या बन जाता है। क्योंकि आपके तरीके को समझाना कठिन है कि यह 99.99% से बेहतर अनुमान लगा सकता है। तरीका सही है लेकिन आपके सवाल के लिए नहीं। इसलिए असंतुलित डेटा को हल करना मूल रूप से आपके डेटा को सटीक परिणामों के बजाय दिलचस्प परिणाम प्राप्त करने के लिए जानबूझकर पूर्वाग्रह कर रहा है।

सामान्य तौर पर तीन मामले होते हैं:

  1. आपकी शुद्ध रूप से सटीक भविष्यवाणी में दिलचस्पी है और आपको लगता है कि आपका डेटा पुनर्मुद्रण है। इस मामले में आपको बिल्कुल भी सही करने की आवश्यकता नहीं है, अपने 99.99% सटीक भविष्यवाणियों की महिमा में बस्क :)।

  2. आप भविष्यवाणी में रुचि रखते हैं लेकिन आपका डेटा एक निष्पक्ष नमूने से है लेकिन किसी तरह आपने कई अवलोकन खो दिए हैं। यदि आप पूरी तरह से यादृच्छिक तरीके से टिप्पणियों को खो चुके हैं तो आप अभी भी ठीक हैं। यदि आपने उन्हें पक्षपाती तरीके से खो दिया है, लेकिन आप नहीं जानते कि कैसे पक्षपाती हैं, तो आपको नए डेटा की आवश्यकता होगी। हालाँकि यदि ये अवलोकन केवल एक वर्णानुक्रम के आधार पर खो जाते हैं। (उदाहरण के लिए आपने ए और बी में परिणामों को क्रमबद्ध किया लेकिन किसी अन्य तरीके से नहीं बल्कि बी का आधा खो दिया) Ypu आपके डेटा को बूटस्ट्रैप कर सकता है।

  3. आप सटीक वैश्विक भविष्यवाणी में दिलचस्पी नहीं रखते हैं, लेकिन केवल एक दुर्लभ मामले में। इस मामले में आप डेटा को बूटस्ट्रैप करके उस मामले के डेटा को बढ़ा सकते हैं या यदि आपके पास अन्य मामलों के डेटा को फेंकने के लिए पर्याप्त डेटा है। ध्यान दें कि यह आपके डेटा और परिणामों को पूर्वाग्रह करता है और इसलिए संभावना और उस तरह के परिणाम गलत हैं!

सामान्य तौर पर यह ज्यादातर इस बात पर निर्भर करता है कि लक्ष्य क्या है। कुछ लक्ष्य असंतुलित डेटा से ग्रस्त हैं, अन्य नहीं। सभी सामान्य भविष्यवाणी विधियाँ इससे ग्रस्त हैं क्योंकि अन्यथा वे सामान्य रूप से भयानक परिणाम देते हैं।


7
जब हम अपने मॉडल को संभावित रूप से विकसित करते हैं तो यह कहानी कैसे बदल जाती है?
मैथ्यू डॉरी

@MatthewDrury मूल मॉडल से संभावनाएं ज्यादातर मामलों 1 और 3 के लिए सही हैं। मुद्दा यह है कि केवल बहुत बड़े डेटासेट के साथ B, A से सही ढंग से अलग हो जाता है और B की संभावना धीरे-धीरे उसके वास्तविक मूल्य में परिवर्तित हो जाती है। अपवाद यह है कि यदि बी को स्पष्ट रूप से ए से अलग किया जाता है या ए से पूरी तरह से यादृच्छिक रूप से अलग किया जाता है, तो प्रोब्लेबिलिटी क्रमशः लगभग तुरंत या कभी नहीं बदलेगी।
ज़ेन

@ शेन्ज़ेन मैं इससे असहमत हूं कि लॉजिस्टिक रिग्रेशन कम असुरक्षित है। लॉजिस्टिक रिग्रेशन डेटा असंतुलन के लिए काफी असुरक्षित है, यह छोटे नमूने के पूर्वाग्रह बनाता है और लॉग ऑड्स अनुपात 2. के कारक की ओर जाता है। सशर्त लॉजिस्टिक रिग्रेशन पूर्वाग्रह के बिना उसी ओआरएस का अनुमान लगाने का एक विकल्प है।
एडम

@AdamO हाँ लॉजिस्टिक प्रतिगमन अभी भी असुरक्षित है। लेकिन पेड़ों के लिए छोटे मामलों को पूरी तरह से नजरअंदाज किया जा सकता है। यह सिर्फ छोटे नमूने के आकार का नहीं है। यहां तक ​​कि बड़े एन के लिए और उदाहरण के लिए विकल्प पेड़ों के बीच 80% -20% वितरण अभी भी 80% विकल्प चुनने का विकल्प चुन सकता है, भले ही 20% विकल्प का अंश स्पष्ट रूप से कुछ चर x के साथ बढ़ता हो। यदि कोई नया अधिक चरम अवलोकन पाया जाता है या यदि किसी चरम बिंदु के लिए शाखाओं की संख्या कम है, तो पेड़ 80% विकल्प का अनुमान लगाएगा जबकि लॉजिस्टिक प्रतिगमन ऐसा करने की संभावना कम होगी। आप सशर्त लॉजिस्टिक रिग्रेशन के बारे में सही हैं
zen

2
@MatthewDrury स्टीफन सन् की इस बात के बारे में एक उत्कृष्ट चर्चा है कि एक पेपर में मैं अक्सर पढ़ता हूँ । Heuristically, प्रविष्टियाँ abcd के साथ 2x2 तालिका से ऑड्स अनुपात ad / (bc) द्वारा अनुमानित किया गया है और इसमें 1 / a + 1 / b + 1 / c + 1 / d है। आप मनमाने ढंग से कुछ मामलों (ए और सी) का नमूना ले सकते हैं और बाधाओं का अनुपात अभी भी निष्पक्ष है, लेकिन विचरण अनंत तक जाता है। यह एक सटीक मुद्दा है।
15

8

मान लेते हैं कि हमारे पास दो वर्ग हैं:

  • A , 99.99% आबादी का प्रतिनिधित्व करता है
  • B , 0.01% आबादी का प्रतिनिधित्व करता है

मान लेते हैं कि हम वर्ग बी तत्वों की पहचान करने में रुचि रखते हैं, जो एक दुर्लभ बीमारी या धोखेबाज से प्रभावित व्यक्ति हो सकते हैं।

बस अनुमान लगाने से एक शिक्षार्थी अपने नुकसान-कार्यों पर उच्च स्कोर करेगा और बहुत कम गलत तरीके से वर्गीकृत तत्व स्थानांतरित नहीं हो सकते हैं, संख्यात्मक रूप से, सुई (इस मामले में, एक बाधा में)। यह उदाहरण वर्ग असंतुलन समस्या को कम करने के लिए "ट्रिक्स" में से एक के पीछे अंतर्ज्ञान लाता है: लागत फ़ंक्शन को ट्विक करना।

मुझे लगता है कि असंतुलित डेटा एक समस्या है जब मॉडल निकट-शून्य संवेदनशीलता और निकट-एक विशिष्टता दिखाते हैं। "समस्या की अनदेखी" अनुभाग के तहत इस लेख में उदाहरण देखें ।

समस्याओं का अक्सर समाधान होता है। उपरोक्त चाल के साथ, अन्य विकल्प भी हैं । हालांकि, वे एक मूल्य पर आते हैं: मॉडल में वृद्धि और कम्प्यूटेशनल जटिलता।

प्रश्न पूछता है कि कौन से मॉडल निकट-शून्य संवेदनशीलता और निकट-एक विशिष्टता पर बसने की संभावना रखते हैं। मुझे लगता है कि यह कुछ आयामों पर निर्भर करता है:

  • कम क्षमता, हमेशा की तरह।
  • कुछ लागत कार्य दूसरों की तुलना में अधिक संघर्ष कर सकते हैं: मतलब चुकता त्रुटि (एमएसई) ह्यूबर की तुलना में कम उजागर होती है - एमएसई को गलत तरीके से वर्गीकृत बी श्रेणी के तत्वों के प्रति कम सौम्य होना चाहिए ।

1
इसका अर्थ यह माना जाता है कि हम जिस KPI को अधिकतम करने का प्रयास करते हैं वह सटीकता है, और (2) सटीकता सटीकता वर्गीकरण मॉडल के मूल्यांकन के लिए एक उपयुक्त KPI है। यह नहीं है।
एस। कोलासा - मोनिका जूल

5

यदि आप इसके बारे में सोचते हैं: पूरी तरह से अलग-अलग अत्यधिक असंतुलित डेटा सेट पर, लगभग कोई भी एल्गोरिदम त्रुटियों के बिना प्रदर्शन करेगा।

इसलिए, यह डेटा में शोर की अधिक समस्या है और किसी विशेष एल्गोरिथ्म से कम बंधा हुआ है। और आप पहले से नहीं जानते हैं कि कौन सा एल्गोरिदम एक विशेष प्रकार के शोर के लिए सबसे अच्छा मुआवजा देता है।

अंत में आपको बस अलग-अलग तरीकों को आज़माना होगा और क्रॉस वेलिडेशन द्वारा निर्णय लेना होगा।


मुझे लगता है कि यह टिप्पणी थोड़ा सा प्रशंसनीय है। मैं बस किसी को यह समझाने में थोड़ा समय बिताता हूं कि वर्ग असंतुलन हमेशा एक समस्या नहीं है।
आरडीके

इस सवाल का जवाब नहीं है। असंतुलित कक्षाएं "डेटा में शोर की अधिक समस्या" कैसे हैं?
एस। कोलासा - मोनिका

2
@StephanKolassa यह एक उत्तर है, क्योंकि यह कहता है कि असंतुलित डेटा एक समस्या नहीं है (सीधे)। इसलिए आप यह नहीं पूछ सकते कि यह कैसे है। अधिक सामान्य प्रश्न के लिए "डेटा विश्लेषण में शोर की समस्याओं से कैसे निपटें", इसका उत्तर यह है कि यह व्यक्तिगत डेटा सेट के लिए विशिष्ट है और आप जो भी कर सकते हैं, वह सत्यापन सेट है और जो भी काम करता है उसे आज़माएं। यदि आप वास्तव में कुछ चर्चा चाहते हैं, तो मेरा मानना ​​है कि ele.uri.edu/facademy/he/PDFfiles/ImbalancedLearning.pdf में विचार हैं। लेकिन अंत में आप नमूना / पुन: लोड / थ्रेशोल्ड करेंगे और यह जानने लायक नहीं है कि इस डेटा सेट में वास्तव में क्या हुआ था।
जेरेनुक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.