जब परिणाम चर 5% - 95% विभाजित होता है तो एक लॉजिस्टिक रिग्रेशन पक्षपाती होता है?


10

मैं एक उपयोगिता क्लाइंट के लिए लॉजिस्टिक रिग्रेशन का उपयोग कर एक प्रॉपर्टीज मॉडल का निर्माण कर रहा हूं। मेरी चिंता यह है कि कुल नमूने में से मेरे 'खराब' खाते सिर्फ 5% हैं, और बाकी सभी अच्छे हैं। मैं am खराब ’की भविष्यवाणी कर रहा हूं।

  • क्या परिणाम का पक्षपात होगा?
  • एक अच्छा मॉडल बनाने के लिए इष्टतम 'खराब से अच्छे अनुपात' क्या है?

मुझे लगता है कि अंगूठे के नियम के अनुसार 50% सामान और 50% खराब होना हमेशा बेहतर होता है। मॉडल के बाहर नमूना पर पक्षपाती नहीं होना चाहिए।

जवाबों:


7

मैं टिप्पणियों में अन्य उत्तरों से असहमत था, इसलिए यह उचित है कि मैं अपना खुद का जवाब दूं। चलो प्रतिक्रिया (अच्छा / बुरा खाते) हो सकता है, और covariates हो।एक्सYX

लॉजिस्टिक रिग्रेशन के लिए, मॉडल निम्नलिखित है:

log(p(Y=1|X=x)p(Y=0|X=x))=α+i=1kxiβi

इस बारे में सोचें कि डेटा कैसे एकत्र किया जा सकता है:

  • आप कुछ काल्पनिक "जनसंख्या" से बेतरतीब ढंग से टिप्पणियों का चयन कर सकते हैं
  • आप आधार पर डेटा का चयन कर सकते हैं , और देख सकते हैं कि क्या मूल्य हैं।वाईXY

उपरोक्त मॉडल के लिए ये दोनों ठीक हैं, क्योंकि आप केवल के वितरण की मॉडलिंग कर रहे हैं । इन्हें एक संभावित अध्ययन कहा जाएगा ।Y|X

वैकल्पिक रूप से:

  • आप आधार पर टिप्पणियों का चयन कर सकते हैं (प्रत्येक के 100 कहते हैं), और के सापेक्ष प्रसार देखें (यानी आप पर स्तरीकरण कर रहे हैं )। इसे पूर्वव्यापी या केस-कंट्रोल अध्ययन कहा जाता है ।X YXY

(आप और कुछ चर पर आधारित डेटा का चयन भी कर सकते हैं : यह एक स्तरीकृत केस-कंट्रोल अध्ययन होगा, और इसके साथ काम करने के लिए और अधिक जटिल है, इसलिए मैं यहां नहीं जाऊंगा)।एक्सYX

महामारी विज्ञान से एक अच्छा परिणाम है ( प्रेंटिस और पाइके (1979) देखें ) कि केस-कंट्रोल अध्ययन के लिए, लॉजिस्टिक रिग्रेशन द्वारा भावी मॉडल का उपयोग कर लॉजिस्टिक रिग्रेशन द्वारा लिए अधिकतम संभावना अनुमान लगाया जा सकता है।β

तो यह आपकी समस्या के लिए कैसे प्रासंगिक है?

ठीक है, इसका मतलब है कि यदि आप अधिक डेटा एकत्र करने में सक्षम हैं, तो आप केवल खराब खातों को देख सकते हैं और फिर भी अनुमान के लिए लॉजिस्टिक रिग्रेशन का उपयोग कर सकते हैं (लेकिन आपको ओवर के लिए खाते में को समायोजित करने की आवश्यकता होगी प्रतिनिधित्व)। यह कहें कि प्रत्येक अतिरिक्त खाते के लिए इसकी लागत $ 1 है, तो यह अधिक लागत प्रभावी हो सकती है और फिर सभी खातों को देख सकता है। αβiα

लेकिन दूसरी तरफ, आप पहले से ही सभी संभव डेटा है, तो वहाँ stratifying को कोई मतलब नहीं है: आप बस डेटा दूर फेंक दिया जाएगा (बदतर अनुमान दे रही है), और फिर अनुमान लगाने के लिए कोशिश कर रहा है की समस्या से नहीं छोड़ा जा सकता ।α


यह केवल तभी सत्य है यदि आपके पास अल्पसंख्यक वर्ग का पर्याप्त रूप से प्रतिनिधित्व करने के लिए पर्याप्त डेटा है (जो आमतौर पर समस्या है जहां एक बड़ा वर्ग असंतुलन है - समस्या प्रति से असंतुलन है, लेकिन आपके पास अल्पसंख्यक से पर्याप्त नमूने नहीं हैं कक्षा)। उस मामले में सकारात्मक और नकारात्मक वर्गों के क्रॉस-वेलिडेशन आधारित अंतर भारांक, अल्फा का समायोजन, या गुणात्मक समायोजन (सभी समकक्ष IIRC) अल्पसंख्यक वर्ग को बढ़ावा देने के लिए एक अच्छा विचार होगा। डेटा को स्तरीकृत करना एक सस्ता और हंसमुख समकक्ष होगा।
डिक्रान मार्सुपियल

@ डिक्रान: मैं यह नहीं देखता कि इस मामले में कोई भी विफल कैसे हो सकता है: आपको अल्पसंख्यक वर्ग का प्रतिनिधित्व करने की आवश्यकता नहीं है, आपको बस बहुमत के सापेक्ष अंतर का प्रतिनिधित्व करने की आवश्यकता है। यदि आपके पास उसके लिए पर्याप्त डेटा नहीं है, तो बहुमत से टिप्पणियों को फेंकना मदद करने वाला नहीं है।
साइमन बायरन

@ साइमन, मैं आपके साथ सहमत हूं कि स्तरीकरण एक अच्छा विचार नहीं है जब तक आप अल्फा को समायोजित नहीं करना चाहते हैं, पैटर्न को फिर से लोड करें या मॉडल के आउटपुट को समायोजित करें। जैसा कि मैंने कहा कि वर्ग असंतुलन के साथ समस्या प्रति असंतुलन नहीं है, लेकिन यह कि अल्पसंख्यक वर्ग के लिए "बहुमत के सापेक्ष अंतर" को पर्याप्त रूप से परिभाषित करने के लिए अपर्याप्त डेटा है। जब ऐसा होता है, तो औसतन यह बहुसंख्यक वर्ग की ओर उत्पादन को बढ़ाता है, और इसलिए उस पूर्वाग्रह की भरपाई के लिए कुछ करना सहायक होता है। स्तरीकरण ऐसा करने का एक तरीका है, लेकिन लगभग सर्वोत्तम नहीं है।
डिक्रान मार्सुपियल

@Simon, Prentice और Pyke संदर्भ के लिए BTW धन्यवाद, यह उपयोगी लगता है।
डिक्रान मार्सुपियल

1
@ डिक्रान: यह अन्य मॉडलों के लिए अच्छी तरह से पक्षपाती हो सकता है, लेकिन लॉजिस्टिक प्रतिगमन के लिए नहीं, यह संपूर्ण बिंदु है।
साइमन बायरन

3

असंगत रूप से, नकारात्मक पैटर्न के लिए सकारात्मक का अनुपात अनिवार्य रूप से अप्रासंगिक है। समस्या मुख्य रूप से तब उत्पन्न होती है जब आपके पास अल्पसंख्यक वर्ग के बहुत कम नमूने होते हैं जो इसके सांख्यिकीय वितरण का पर्याप्त वर्णन करते हैं। डेटासेट को बड़ा बनाना आमतौर पर समस्या को हल करता है (जहां यह संभव है)।

यदि यह संभव नहीं है, तो सबसे अच्छी बात यह है कि संतुलित डेटासेट प्राप्त करने के लिए डेटा को फिर से नमूना लेना है, और फिर प्रशिक्षण सेट और परिचालन रिश्तेदार वर्ग आवृत्तियों के बीच अंतर की भरपाई करने के लिए क्लासिफायरियर के आउटपुट में गुणक समायोजन लागू करना है। हालांकि, आप (asymptotically) इष्टतम समायोजन कारक की गणना कर सकते हैं, व्यवहार में यह क्रॉस-वैलिडेशन का उपयोग करके समायोजन को ट्यून करने के लिए सबसे अच्छा है (जैसा कि हम एक असममित एक के बजाय एक परिमित व्यावहारिक मामले से निपट रहे हैं)।

इस तरह की स्थिति में, मैं अक्सर मॉडल की एक समिति का उपयोग करता हूं, जहां प्रत्येक को सभी अल्पसंख्यक पैटर्न और अल्पसंख्यक पैटर्न के समान आकार के बहुमत पैटर्न के एक अलग यादृच्छिक नमूने पर प्रशिक्षित किया जाता है। यह बहुमत पैटर्न के एक सबसेट के चयन में बुरी किस्मत के खिलाफ गार्ड है।


2
लेकिन क्या यह तर्कवादी प्रतिगमन के लिए उचित है? हमें किसी भी वर्ग के सांख्यिकीय वितरण का वर्णन करने की आवश्यकता नहीं है, बस रिश्तेदार बाधाओं अनुपात (देखें मेरी टिप्पणी @Henry)।
साइमन बायरन

एक उदाहरण में शायद, लेकिन यदि आपके पास एक से अधिक व्याख्यात्मक चर हैं, तो आपको "विवेकशील" को सही ढंग से उन्मुख करने के लिए पैटर्न के वितरण के बारे में जानकारी की आवश्यकता है।
डिक्रान मार्सुपियल

लॉजिस्टिक फ़ंक्शन लागू होने से पहले लॉग ऑड्स स्पेस में गुणा समायोजन लागू करना बेहतर नहीं होगा?
rm999

IIRC, assymptitically इष्टतम समायोजन प्रशिक्षण सेट क्लास आवृत्तियों के लिए परिचालन के अनुपात से गुणा करना है, यह बेयस नियम पर आधारित है, इसलिए इसे लॉग-ऑड अनुपात के बजाय संभावनाओं पर लागू किया जाता है। हालाँकि, जैसा कि हम अनुमान में गणितीय रूप से अट्रैक्टिव डिफिशिएंसी के लिए सही करने का प्रयास कर रहे हैं, यह संभवतः बहुत ज्यादा मायने नहीं रखता है कि समायोजन कैसे किया जाता है, यह वास्तव में सिर्फ एक "ठगना-कारक" है।
डिक्रान मार्सुपियल

@ डिक्रान: मुझे समझ में नहीं आता है कि "विवेकशील" को सही ढंग से उन्मुख करने के बारे में आपका क्या मतलब है। यहां तक ​​कि बहुभिन्नरूपी मामले में, लॉजिस्टिक प्रतिगमन अभी भी सापेक्ष बाधाओं अनुपात की गणना कर रहा है।
साइमन बायरन

1

सिद्धांत रूप में, आप बेहतर भेदभाव करने में सक्षम होंगे यदि "अच्छे" और "बुरे" के अनुपात लगभग समान हैं। आप स्तरीकृत नमूनाकरण, खराब मामलों की निगरानी और फिर बाद में सही अनुपात में लौटने के लिए पुन: लोड करके इस ओर बढ़ने में सक्षम हो सकते हैं।

यह कुछ जोखिम वहन करती है। विशेष रूप से आपके मॉडल को "संभावित रूप से खराब" के रूप में व्यक्तियों को लेबल करने की संभावना है - संभवतः वे जो देय होने पर अपने उपयोगिता बिलों का भुगतान नहीं कर सकते हैं। यह महत्वपूर्ण है कि ऐसा करते समय त्रुटियों का प्रभाव ठीक से पहचाना जाता है: विशेष रूप से कितने "अच्छे ग्राहकों" को मॉडल द्वारा "संभावित रूप से खराब" लेबल दिया जाएगा, और यदि आपके द्वारा विकृत नहीं किया गया है, तो आपको फिर से गलत होने की संभावना कम है स्तरीकृत नमूने द्वारा मॉडल।


वास्तव में, मुझे नहीं लगता कि लॉजिस्टिक रिग्रेशन के लिए यह सही है: ऑड-रेशो पैरामीटर (जो भेदभाव करता है) प्रतिक्रिया चर पर स्तरीकरण के लिए अपरिवर्तनीय है। यही कारण है कि इसका उपयोग केस-कंट्रोल अध्ययन के लिए किया जा सकता है।
साइमन बायरन

@ साइमन: मैं आपके अनुपात के बारे में आपकी टिप्पणी से असहमत नहीं हूं, लेकिन मैंने देखा है कि जब लोग दूसरे मामलों में ऐसा कर चुके होते हैं तो स्तरीकृत सैंपलिंग के बाद लोगों को इस परिणाम के लिए सही तरीके से वापस लेने में असफल रहते हैं। उदाहरण के लिए, यदि आप पाते हैं कि कौन से कारक A के लिए लोग सही हैं, तो कारक A के बिना दो बार "खराब" होने की संभावना है, यह स्तरीकृत नमूने के साथ नहीं बदलना चाहिए, लेकिन यदि आप जानना चाहते हैं कि जनसंख्या का अनुपात क्या होगा अनावश्यक रूप से प्रभावित यदि आप कारक ए वाले लोगों को लक्षित करते हैं, तो आपको अपने नमूनों से जानकारी को सावधानीपूर्वक वजन करने की आवश्यकता है।
हेनरी

क्षमा करें, यह थोड़ा मैं असहमत नहीं था। यह पहला बिट था: अदर्शन का एक परिणाम यह है कि एक बार जब आपके पास डेटा होता है, तो स्तरीकरण का कोई मतलब नहीं है, आप बस डेटा को फेंक रहे हैं। (जब डेटा एकत्र करने की लागत की बात आती है तो कहानी अलग होती है, इसलिए केस-कंट्रोल स्टडीज का अस्तित्व)।
साइमन बायरन

@ साइमन: जब आप "केस-कंट्रोल स्टडी" कहते हैं, तो क्या आपका मतलब यह है कि आप मूल रूप से "खराब" मामलों का नमूना और "अच्छे" मामलों का नमूना लेने की योजना बनाते हैं? जनसंख्या में छोटे अनुपात की तुलना में "खराब" मामलों के उच्च अनुपात के साथ? यदि ऐसा है, तो मैंने अपने उत्तर में "स्तरीकृत नमूनाकरण, बुरे मामलों की निगरानी के द्वारा" का इरादा किया है।
हेनरी

हां, ठीक यही मेरा भी मतलब था। यह प्रश्न प्रतीत होता है कि उनके पास पहले से ही डेटा है, इसलिए स्तरीकरण का कोई मतलब नहीं होगा।
साइमन बायरन

0

ऐसे कई तरीके हैं जिनसे आप लॉजिस्टिक रिग्रेशन के बारे में सोच सकते हैं। मेरा पसंदीदा तरीका यह है कि आपकी प्रतिक्रिया चर, , प्रायिकता साथ बर्नौली वितरण का अनुसरण करती है । एक , बदले में, कुछ भविष्यवक्ताओं का एक कार्य है। अधिक औपचारिक रूप से:p i i p iyipipi

पी मैं = logit - 1 ( एक + 1 एक्स 1 + + n एक्स एन ) logit - 1 = exp ( एक्स )

yiBernoulli(pi)
pi=logit1(a+b1x1+...+bnxn)
जहांlogit1=exp(X)1+exp(x)

अब इससे कोई फर्क नहीं पड़ता कि आपके पास विफलताओं (खराब खातों) का अनुपात कम है? वास्तव में नहीं, जब तक कि आपका नमूना डेटा संतुलित है, जैसा कि कुछ लोग पहले ही इंगित कर चुके हैं। हालाँकि, यदि आपका डेटा संतुलित नहीं है, तो कुछ चयन प्रभाव आप पर ध्यान नहीं दे रहे हैं, तो अधिक डेटा प्राप्त करना लगभग बेकार हो सकता है। इस मामले में, आपको मिलान का उपयोग करना चाहिए, लेकिन संतुलन की कमी मिलान को बहुत बेकार कर सकती है। एक अन्य रणनीति एक प्राकृतिक प्रयोग खोजने की कोशिश कर रही है, इसलिए आप इंस्ट्रूमेंटल वेरिएबल या रिग्रेशन डिसकिन्युइटी डिजाइन का उपयोग कर सकते हैं।

अंतिम, लेकिन कम से कम, यदि आपके पास एक संतुलित नमूना है या कोई चयन पूर्वाग्रह नहीं है, तो आप इस तथ्य से चिंतित हो सकते हैं कि खराब खाता दुर्लभ है। मुझे नहीं लगता कि 5% दुर्लभ है, लेकिन सिर्फ मामले में, गैरी किंग द्वारा एक दुर्लभ घटना लॉजिस्टिक चलाने के बारे में कागज पर एक नज़र डालें । ज़ेलिग पैकेज में, आर में, आप एक दुर्लभ घटना लॉजिस्टिक चला सकते हैं।


0

ठीक है इसलिए मैं धोखाधड़ी जांच में काम करता हूं इसलिए इस तरह की समस्या मेरे लिए नई नहीं है। मुझे लगता है कि मशीन सीखने वाले समुदाय के पास असंतुलित डेटा के बारे में कहने के लिए काफी कुछ है (जैसे कि कक्षाएं असंतुलित हैं)। तो वहाँ कुछ आसान रणनीति है कि मुझे लगता है कि पहले से ही उल्लेख किया गया है, और स्वच्छ विचारों के एक जोड़े, और वहाँ से बाहर किसी तरह के एक जोड़े हैं। मैं यह जानने का नाटक भी नहीं करने जा रहा हूं कि आपकी समस्या के लिए स्पर्शोन्मुख दवाओं का क्या अर्थ है, लेकिन यह हमेशा मुझे लॉजिस्टिक रिग्रेशन में उचित परिणाम देता है। वहाँ एक कागज हो सकता है वहाँ, हालांकि यकीन नहीं है।

यहाँ मैं देख रहा हूँ के रूप में अपने विकल्प हैं:

  1. अल्पसंख्यक वर्ग को प्रभावित करना। जब तक आपके पास बहुसंख्यक वर्ग के रूप में टिप्पणियों की संख्या नहीं होती, तब तक अल्पसंख्यक वर्ग को बदलने के लिए यह मात्रा होती है। ऐसा करने के लिए फैंसी तरीके हैं ताकि आप अवलोकन मूल्यों को घबराने जैसे काम करें, ताकि आपके पास मूल के करीब मान हों, लेकिन सही प्रतियां नहीं हैं, आदि।
  2. अंडरसम्प्लिमेंट, यह वह जगह है जहाँ आप बहुसंख्यक वर्ग की सदस्यता लेते हैं। ऐसा करने के लिए फिर से फैंसी तरीके ताकि आप बहुमत के नमूनों को हटा रहे हैं जो निकटतम पड़ोसी एल्गोरिदम का उपयोग करते हुए अल्पसंख्यक नमूनों के सबसे करीब हैं।
  3. कक्षाएं फिर से कराएं। लॉजिस्टिक रिग्रेशन के लिए मैं यही करता हूं। अनिवार्य रूप से, आप एक मिसकॉलिफाइड माइनॉरिटी केस को दंडित करने के लिए नुकसान फ़ंक्शन को बदल रहे हैं और एक मिसकॉलिफाइड बहुसंख्यक वर्ग की तुलना में बहुत अधिक है। लेकिन फिर आप तकनीकी रूप से अधिकतम संभावना नहीं कर रहे हैं।
  4. डेटा का अनुकरण करें। बहुत साफ-सुथरे विचारों के साथ जो मैंने यहां खेला है। आप नए नमूने तैयार करने के लिए जेनरेटर भाग, कर्नेल घनत्व अनुमानक का उपयोग करते हुए डेटा, जनरेटिव एडवरसियरी नेटवर्क, ऑटोएन्कोडर्स उत्पन्न करने के लिए एसएमओटीई का उपयोग कर सकते हैं।

किसी भी दर पर, मैंने इन सभी विधियों का उपयोग किया है, लेकिन मुझे लगता है कि सबसे सरल है, वैसे भी लॉजिस्टिक प्रतिगमन के लिए समस्या का फिर से वजन करना। एक बात आप अपने मॉडल की जाँच कर सकते हैं, हालांकि इसे लेना है:

-Intercept/beta

किसी दिए गए चर ceteris paribus पर निर्णय सीमा (या तो कक्षा में होने की 50% संभावना) होनी चाहिए । यदि यह समझ में नहीं आता है, उदाहरण के लिए निर्णय सीमा एक चर पर एक नकारात्मक संख्या है जो कड़ाई से सकारात्मक है, तो आपको अपने लॉजिस्टिक प्रतिगमन में पूर्वाग्रह मिला है जिसे ठीक करने की आवश्यकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.