लॉजिस्टिक रिग्रेशन में श्रेणीबद्ध भविष्यवक्ताओं का WOE परिवर्तन क्यों करना चाहिए?


10

प्रमाणिक भारों के साक्ष्य (WOE) परिवर्तन का वजन कब उपयोगी होता है?

उदाहरण WOE परिवर्तन में देखा जा सकता है

(तो एक प्रतिक्रिया के लिए , और के साथ एक स्पष्ट भविष्यवक्ता कश्मीर श्रेणियों, और y जे से बाहर सफलताओं एन जे भीतर परीक्षणों j इस भविष्यवक्ता की श्रेणी वें, के लिए शोक जे वीं श्रेणी के रूप में परिभाषित किया गया हैykyjnjjj

logyjjkyjjk(njyj)njyj

और परिवर्तन में निरंतर नए भविष्यवक्ता के रूप में अपने WOE के साथ श्रेणीबद्ध भविष्यवक्ता की प्रत्येक श्रेणी को कोडित करना शामिल है।)

मैं इस कारण को सीखना चाहूंगा कि डब्ल्यूओई परिवर्तन लॉजिस्टिक प्रतिगमन में मदद करता है। इसके पीछे क्या सिद्धांत है?

जवाबों:


6

आपके द्वारा लिंक किए गए उदाहरण में, श्रेणीबद्ध भविष्यवक्ता उस स्तर पर प्रतिक्रिया के देखे गए लॉग ऑड्स के बराबर प्रत्येक स्तर के लिए मान ले रहे एक एकल सतत चर द्वारा दर्शाया गया है (साथ ही एक स्थिर):

logyjnjyj+logjk(njyj)jkyj

यह आक्षेप किसी भी उद्देश्य की पूर्ति नहीं करता है, जिसके बारे में मैं सोच सकता हूं: आपको उसी तरह की अनुमानित प्रतिक्रिया मिलेगी जैसे कि आपने सामान्य डमी कोडिंग का उपयोग किया था; लेकिन स्वतंत्रता की डिग्री गलत है, मॉडल के बारे में निष्कर्ष के कई उपयोगी रूपों को अमान्य करना।

कई प्रतिगमन में, कई स्पष्ट भविष्यवाणियों को बदलने के लिए, मुझे लगता है कि आप सीमांत लॉग इन का उपयोग करके प्रत्येक के लिए WOE की गणना करेंगे। यह अनुमानित प्रतिक्रियाओं को बदल देगा; लेकिन जैसा कि भ्रम की स्थिति को ध्यान में नहीं रखा गया है - सशर्त लॉग ऑड्स सीमांत लॉग ऑड्स का एक रैखिक कार्य नहीं हैं - मैं इसे सुधार का अनुमान लगाने के लिए कोई कारण नहीं देख सकता हूं, और संभावित समस्याएं बनी हुई हैं।


क्या आप बता सकते हैं कि डब्ल्यूओई के साथ स्वतंत्रता की डिग्री क्यों गलत है? यह सिर्फ एक परिवर्तन सही है? इसके अलावा क्या होगा अगर हमारे पास कई श्रेणीगत चर हैं, और हमें एक-एक करके प्रत्येक के लिए WOE मिला है? मेरे अनुभव में जब आपके पास कई श्रेणीबद्ध चर होते हैं, तो विभिन्न चर के बीच कुछ बाल्टियाँ बहुत ओवरलैप होती हैं, और आपको कुछ गुणांक दिखाई देने लगते हैं जो महत्वहीन होते हैं। और आपको कई गुणांक रखने की भी जरूरत है।
adam

1
(1) एक परिवर्तन जो प्रतिक्रिया के लिए भविष्यवक्ताओं के संबंध का मूल्यांकन करने पर निर्भर करता है - ऐसा कुछ जिसे प्रतिगमन के लिए छोड़ दिया जाना चाहिए। इसलिए जैसे संभावना अनुपात परीक्षण आँकड़ा समान वितरण नहीं होगा जब एक परिवर्तन पूर्व निर्दिष्ट है। (२) अच्छी बात! WOE पर एक एकाधिक प्रतिगमन डमी वैरिएबल्स (जब तक कि मॉडल संतृप्त नहीं हैं) के बराबर नहीं होगा। (३) तो क्या? (4) गुणांक WOE से अधिक भारी नहीं होते हैं।
Scortchi - को पुनः स्थापित मोनिका

मुझे लगता है कि WoE ऐसे समय से बचा हुआ है जहां गणना आज की तुलना में अधिक समस्या है। तो शायद, MANY स्तरों के साथ श्रेणीबद्ध भविष्यवाणियों के साथ, एक संख्यात्मक चर में परिवर्तित करना एक उज्ज्वल विचार था!
kjetil b halvorsen

1

एविडेंस (WoE) के वजन के माप का उपयोग करते हुए मोटे वर्गीकरण के निम्नलिखित लाभ हैं- WoE ऑड्स अनुपात के प्राकृतिक लघुगणक के साथ एक रैखिक संबंध प्रदर्शित करता है जो लॉजिस्टिक प्रतिगमन में निर्भर चर है।
इसलिए, जब हम वेरिएबल के वास्तविक मानों के बजाय WoE का उपयोग करते हैं तो मॉडल मिसकैरेज का प्रश्न लॉजिस्टिक रिग्रेशन में नहीं आता है।

ln(p/1p)αβWoE(Var1)γWoE(Var2)ηWoE(Var3)

स्रोत: पीपीटी में से एक में मेरे प्रशिक्षक ने मुझे कंपनी के प्रशिक्षण के दौरान दिखाया।


2
जब हम वैरिएबल के वास्तविक मूल्यों के बजाय WoE का उपयोग करते हैं, तो लॉजिस्टिक रिग्रेशन में मॉडल मिसकैपिफिकेशन उत्पन्न नहीं होता है। क्या आप इसे गणितीय रूप से समझा / प्रमाणित कर सकते हैं?
एडीएम

मैं जोखिम विश्लेषिकी पृष्ठभूमि से नहीं कर रहा हूँ, लेकिन स्नातकोत्तर इस पुस्तक के 131,132 इतना कहने लगता books.google.co.in/...
श्रीकांत Guhan

साथ ही यह लिंक उसी का दावा करता है, हालांकि कोई भी गणित विश्लेषणात्मक
।forum/topics/…

1
लिंक के लिए धन्यवाद, लेकिन यह स्पष्ट रूप से असत्य है कि सीवीई के लिए सीमांत लॉग ऑड आनुपातिक है सशर्त लॉग ऑड्स के साथ एक रैखिक संबंध है जिसके साथ लॉजिस्टिक प्रतिगमन चिंताएं हैं। अन्य भविष्यवक्ताओं के साथ कन्फ़्यूज़न करना भी वीईई ऑर्डरिंग श्रेणियों को अलग तरीके से परिणाम दे सकता है।
Scortchi - को पुनः स्थापित मोनिका

1

WOE परिवर्तनों में मदद मिलती है जब आपके पास संख्यात्मक और श्रेणीबद्ध डेटा दोनों होते हैं जिन्हें आपको उन सभी मूल्यों को संयोजित करने और गायब करने की आवश्यकता होती है जिन्हें आप से निकालना चाहते हैं। सब कुछ WOE में बदलने से एक ही लॉग ऑड पैमाने पर कई अलग-अलग प्रकार के डेटा (यहां तक ​​कि लापता डेटा) को "मानकीकृत" करने में मदद मिलती है। यह ब्लॉग पोस्ट चीजों को बहुत अच्छी तरह से समझाती है: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

कहानी की कमी यह है कि WOE के साथ लॉजिस्टिक रिग्रेशन, बस होना चाहिए (और है) जिसे सेमी-नेव बेयसियन क्लासिफायर (एसएनबीसी) कहा जाता है। यदि आप एल्गोरिथ्म को समझने की कोशिश कर रहे हैं, तो एसएनबीसी नाम मेरे लिए, कहीं अधिक जानकारीपूर्ण है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.