लॉजिस्टिक रिग्रेशन करते समय असंतुलित नमूना क्या मायने रखता है?


81

ठीक है, इसलिए मुझे लगता है कि मेरे पास एक अच्छा नमूना है, जिसमें अंगूठे के 20: 1 नियम को ध्यान में रखा गया है: कुल 7 उम्मीदवार पूर्वसूचक चरों के लिए काफी बड़ा नमूना (एन = 374)।

मेरी समस्या निम्नलिखित है: जो भी मैं भविष्यवाणियों के सेट का उपयोग करता हूं, वर्गीकरण 100% की विशिष्टता और 0% की संवेदनशीलता से बेहतर कभी नहीं मिलता है। हालांकि असंतोषजनक, यह वास्तव में सबसे अच्छा संभव परिणाम हो सकता है, उम्मीदवार भविष्यवक्ता चर का सेट (जिससे मैं विचलन नहीं कर सकता) दिया गया।

लेकिन, मैं मदद नहीं कर सकता, लेकिन मुझे लगता है कि मैं बेहतर कर सकता था, इसलिए मैंने देखा कि आश्रित चर की श्रेणियां काफी असमान रूप से संतुलित थीं, लगभग 4: 1। क्या अधिक संतुलित ग्राहकी वर्गीकरण को बेहतर बना सकती है?


5
यह कल्पना करना कठिन है कि यह कैसे हो सकता है। शायद आप 0.5 पर अनुमानित संभावना में कटौती कर रहे हैं? यदि हां, तो कटऑफ अलग-अलग करके देखें।
अनीको

4
आरओसी-वक्र के तहत क्षेत्र .585 है, बल्कि खराब परिणाम है। इसका मतलब यह है कि वास्तव में एक कटऑफ मूल्य नहीं है जहां विशिष्टता / संवेदनशीलता व्यापार-बंद इसके लायक है। कटऑफ के साथ फ़िडलिंग में वर्गीकरण में बहुत सुधार नहीं होगा, क्योंकि यह संवेदनशीलता को बढ़ाते हुए लगभग विशिष्टता को कम कर देगा।
मिकेल

3
क्या कोई वैरिएबल गुणांक से काफी अलग है (पांच मानक त्रुटियों से अधिक)? यदि आपकी समस्या यह नहीं हो सकती है कि आपके पास चर के सेट के साथ बहुत अधिक व्याख्यात्मक शक्ति नहीं है। 0
संभाव्यताविषयक

2
यह भी ध्यान दें कि अच्छी भविष्यवाणियाँ करने के मामले में आपके नमूने का आकार वास्तव में भविष्यवक्ता चर में अद्वितीय पैटर्न की संख्या है, न कि नमूना व्यक्तियों की संख्या। उदाहरण के लिए, दो स्तरों वाला एक एकल श्रेणीबद्ध भविष्यवक्ता चर वाला मॉडल केवल दो मापदंडों (प्रत्येक श्रेणी के लिए एक) के साथ एक लॉजिस्टिक रिग्रेशन मॉडल फिट कर सकता है, भले ही नमूने में लाखों लोग हों।
probabilityislogic

जवाबों:


75

प्रशिक्षण सेट में संतुलन

लॉजिस्टिक रिग्रेशन मॉडल के लिए असंतुलित प्रशिक्षण डेटा केवल मॉडल इंटरसेप्ट के अनुमान को प्रभावित करता है (हालांकि यह निश्चित रूप से सभी अनुमानित संभावनाओं को छोड़ देता है, जो बदले में आपकी भविष्यवाणियों को समझौता करता है)। सौभाग्य से अवरोधन सुधार सीधा है: बशर्ते आप जानते हैं, या अनुमान लगा सकते हैं, 0s और 1s का सही अनुपात और पता है कि प्रशिक्षण सेट में अनुपात आप अवरोधन के लिए एक दुर्लभ घटना सुधार लागू कर सकते हैं। विवरण किंग और ज़ेंग (2001) [ पीडीएफ ] में हैं।

ये 'दुर्लभ घटना सुधार' केस कंट्रोल रिसर्च डिज़ाइन के लिए तैयार किए गए थे, जिनका उपयोग ज्यादातर महामारी विज्ञान में किया जाता था, जो कि निश्चित, आमतौर पर संतुलित संख्या में 0 मामलों और 1 मामलों का चयन करके मामलों का चयन करते हैं, और फिर परिणामस्वरूप नमूना चयन पूर्वाग्रह के लिए सही करने की आवश्यकता होती है। वास्तव में, आप अपने क्लासिफायरवर को उसी तरह प्रशिक्षित कर सकते हैं। एक अच्छा संतुलित नमूना चुनें और फिर इस तथ्य को ध्यान में रखते हुए कि आपने एक यादृच्छिक नमूने की तुलना में दुर्लभ कक्षाओं के बारे में अधिक जानने के लिए आश्रित चर पर चयन किया है, को बताने के लिए अवरोधन को ठीक करें।

भविष्यवाणी बनाना

संबंधित लेकिन विशिष्ट विषय पर: यह मत भूलो कि भविष्यवाणी करने के लिए आपको समझदारी से थ्रेसहोल्ड होना चाहिए। मॉडल की संभावना 0.5 से अधिक होने पर 1 की भविष्यवाणी करना हमेशा सबसे अच्छा नहीं होता है। एक और सीमा बेहतर हो सकती है। इसके लिए आपको अपने क्लासिफायर के रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक (ROC) कर्व्स पर गौर करना चाहिए, न कि डिफॉल्ट प्रोबेबिलिटी थ्रेशोल्ड के साथ इसकी प्रेडिक्टिव सक्सेस।


8
यदि आपको परिचालन वर्ग की आवृत्तियों का पता नहीं है, तो उन्हें परीक्षण / परिचालन नमूनों के लेबल को जाने बिना ईएम द्वारा अनुमान लगाया जा सकता है। विवरण Saerens et al में हैं। "नई प्रियोरी संभावनाओं के लिए एक क्लासिफायर के आउटपुट को समायोजित करना: एक सरल प्रक्रिया", तंत्रिका संगणना, वॉल्यूम। 14, नहीं। 1, पीपी। 21-41 , 2002 ( dx.doi.org/10.1162/089976602753284446 )। मैंने इसे एक-दो बार इस्तेमाल किया है और इस बात से प्रभावित हुआ कि यह कितनी अच्छी तरह काम कर रहा है। हालांकि ध्यान दें कि सैद्धांतिक सुधार सामान्य रूप से इष्टतम नहीं है, और उदाहरण के लिए इसे क्रॉस-सत्यापन के माध्यम से सेट करना अक्सर बेहतर होता है।
डिक्रान मार्सुपियल

हाँ, मुझे उल्लेख करना चाहिए कि आरओसी-वक्र के परिणाम भी आश्वस्त नहीं थे। इस मामले में मुझे लगता है कि ऐसा कोई परिणाम नहीं है जो संतोषजनक परिणाम देता हो।
मिकिएल

भविष्यवाणियां करने के बारे में: मैं 0 और 1 परिणामों के लिए अपने प्रशिक्षण सेट का आकार कैसे ले सकता हूं? मैं वास्तव में 0.5 की दहलीज का उपयोग नहीं करना चाहता हूं, लेकिन यह सुनिश्चित नहीं करना है कि आर में यह कैसे किया जाए
पर्नलिका

1
@Perlnika विवरण पेपर लिंक में हैं (सबसे सरल स्थिति में आप अनुमानित अवरोधन बदलते हैं)। 0.5 पर सीमा नहीं है, बस predictप्रत्येक संभावित के लिए उपयोग की जाने वाली गणना करें और गणना करें कि क्या यह नई सीमा से अधिक है।
कंजुगेटपायर

1
@ सस्साएनएफ यह सच है कि एक अवरोधन बदलाव एक सीमा परिवर्तन द्वारा ऑफसेट किया जा सकता है। हालाँकि, उस जोड़े ने त्रुटियों (हानि कार्य) की सापेक्ष लागत के लिए आपकी संभाव्यता का अनुमान (अनुमान) लगाया है, जबकि बाद वाले अनुप्रयोगों में भिन्न हो सकते हैं। उदाहरण के लिए, जब एक 0 के लिए 1 को गलत करने की लागत एक बार 1 के लिए 0 को गलत करने की लागत है, तो आप अपनी अनुमानित संभावना को 1 / (1 + C) से कम करना चाहेंगे।
conjugateprior

41

समस्या यह नहीं है कि कक्षाएं प्रति से असंतुलित होती हैं, यह है कि अल्पसंख्यक वर्ग से संबंधित पर्याप्त पैटर्न नहीं हो सकते हैं ताकि इसके वितरण का पर्याप्त रूप से प्रतिनिधित्व किया जा सके। इसका मतलब यह है कि समस्या किसी भी क्लासिफायरियर के लिए उत्पन्न हो सकती है (भले ही आपके पास सिंथेटिक समस्या हो और आपको पता हो कि आपके पास सच्चा मॉडल है), न कि केवल लॉजिस्टिक रिग्रेशन। अच्छी बात यह है कि जैसे-जैसे अधिक डेटा उपलब्ध होता है, "क्लास असंतुलन" की समस्या आमतौर पर दूर हो जाती है। कहा जाता है कि, 4: 1 असंतुलित नहीं है।

यदि आप एक संतुलित डाटासेट का उपयोग करते हैं, तो महत्वपूर्ण बात यह याद रखना है कि मॉडल का आउटपुट अब ए-पोस्टवर्डी संभावना का अनुमान है, यह मानते हुए कि कक्षाएं समान रूप से सामान्य हैं, और इसलिए आप मॉडल को बहुत दूर तक बायपास कर सकते हैं। मैं प्रत्येक कक्षा से संबंधित पैटर्न को अलग तरह से मापता हूं और सही संचालन वर्ग आवृत्तियों के साथ एक परीक्षण सेट पर क्रॉस-एन्ट्रापी को कम करके वजन चुनता हूं।


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
ज़ुर्बर्ब

2

दो नमूनों के अंतर्निहित वितरण के बारे में सोचें। क्या आपके पास छोटे नमूने में पूर्वाग्रह की एक बड़ी मात्रा के बिना दोनों उप-आबादी को मापने के लिए पर्याप्त नमूना है?

लंबी स्पष्टीकरण के लिए यहां देखें।

https://statisticalhorizons.com/logistic-regression-for-rare-events


5
इस सवाल का जवाब नहीं लगता है।
माइकल चेरिक

ऐसा इसलिए है क्योंकि कोई निश्चित उत्तर नहीं है! यह इस बारे में है कि आप इसे कैसे लागू करते हैं और पूर्वाग्रह की राशि अनुमान प्रक्रिया में अनुमति देने के लिए तैयार है।
पॉल टुलोच

1
मुझे लगता है कि यह बहुत अच्छा जवाब है। जहाँ तक मैं समझता हूँ कि असंतुलन को ठीक करने के सभी प्रयास प्रयोग में न आने वाले कुछ बाहरी ज्ञान पर निर्भर हैं। विशेष रूप से अंतर्निहित वितरण को सुधार के साथ जानने में मदद मिलेगी।
user1700890
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.