लॉजिस्टिक रिग्रेशन में वीओई (साक्ष्य का वजन) द्वारा चर की जगह


14

यह मेरे कुछ सहयोगियों द्वारा पालन की जाने वाली एक प्रथा या विधि के बारे में एक प्रश्न है। लॉजिस्टिक रिग्रेशन मॉडल बनाते समय, मैंने देखा है कि लोग अपने संबंधित वज़न ऑफ़ एविडेंस (WoE) के साथ श्रेणीबद्ध चर (या निरंतर चर जो द्वैध हैं) को प्रतिस्थापित करते हैं। यह माना जाता है कि प्रतिपक्षी और आश्रित चर के बीच एक मोनोटोनिक संबंध स्थापित करता है। अब जहां तक ​​मैं समझता हूं, एक बार मॉडल बनाने के बाद, समीकरण में चर नहीं डेटासेट में चर होते हैं। बल्कि, समीकरण में चर अब निर्भर चर को अलग करने में चर के महत्व या वजन की तरह हैं !

मेरा सवाल है: अब हम मॉडल या मॉडल गुणांक की व्याख्या कैसे करते हैं? निम्न समीकरण के लिए उदाहरण के लिए:

लॉग(पी1-पी)=β0+β1एक्स1

हम कह सकते हैं कि है चर में 1 यूनिट वृद्धि के लिए की अजीब अनुपात में रिश्तेदार वृद्धि एक्स 1exp(β1) एक्स1

लेकिन अगर चर को उसके WoE द्वारा बदल दिया जाता है, तो व्याख्या को बदल दिया जाएगा: चर के महत्व / वजन में 1 इकाई की वृद्धि के लिए विषम अनुपात में सापेक्ष वृद्धि

मैंने इंटरनेट में इस अभ्यास को देखा है, लेकिन कहीं भी मुझे इस प्रश्न का उत्तर नहीं मिला। इस समुदाय का यह लिंक स्वयं कुछ इसी तरह के प्रश्न से संबंधित है जहां किसी ने लिखा है:

WoE ऑड्स अनुपात के प्राकृतिक लघुगणक के साथ एक रैखिक संबंध प्रदर्शित करता है जो लॉजिस्टिक रिग्रेशन में आश्रित चर है। इसलिए, जब हम वेरिएबल के वास्तविक मानों के बजाय WoE का उपयोग करते हैं तो लॉजिस्टिक रिग्रेशन में मॉडल मिसकैसीफिकेशन का सवाल ही नहीं उठता।

लेकिन मुझे अभी भी स्पष्टीकरण नहीं मिला है। कृपया मुझे समझने में मदद करें कि मैं क्या याद कर रहा हूं।


बाधाओं डब्ल्यू जुड़े अनुपात / में एक 1 यूनिट वृद्धि हुई है एक्स 1 , नहीं "रिश्तेदार वृद्धिw में / एक 1 यूनिट वृद्धि जुड़े बाधाओं अनुपात में एक्स 1 "। exp(β1)एक्स1एक्स1
गंग -

नहीं। जाहिर है क्रम में से छुटकारा पाने के आप घातांक के बाद एलएचएस के अनुपात रखना चाहिएβ0
SamRoy

बाधाओं p / (1-p) हैं, इसलिए यदि p (x) = exp (are0 + 𝛽1x) और p (x + 1) = exp (𝛽0 + 𝛽1x + )1) ध्यान दें कि p (x + 1) = exp (𝛽0 + 𝛽1x) ऍक्स्प ()1) और अंत में ऑड्स अनुपात p (x + 1) / p (x) = exp ( 𝛽1
users/

जवाबों:


12

वाह विधि दो चरणों के होते हैं:

1 - कुछ श्रेणियों में या समूह (एक असतत) चर को कुछ श्रेणियों में विभाजित करने के लिए (एक निरंतर) चर को विभाजित करने के लिए (और दोनों ही मामलों में आप मानते हैं कि एक श्रेणी के सभी टिप्पणियों का आश्रित चर पर "समान" प्रभाव है)
- 2 की गणना करने के लिए प्रत्येक श्रेणी का मान (तब मूल x मानों को WoE मानों द्वारा बदल दिया जाता है)

WoE परिवर्तन में (कम से कम) तीन सकारात्मक प्रभाव हैं:
1) यह एक स्वतंत्र चर को परिवर्तित कर सकता है ताकि यह आश्रित चर के लिए एकरस संबंध स्थापित करे। वास्तव में यह इस से अधिक है - एकरस रिश्ते को सुरक्षित करने के लिए यह किसी भी ऑर्डर किए गए उपाय (उदाहरण के लिए 1,2,3,4 ...) को "रीकोड" करने के लिए पर्याप्त होगा, लेकिन Wo परिवर्तन वास्तव में "लॉजिस्टिक" पर श्रेणियों का आदेश देता है "पैमाना जो लॉजिस्टिक रिग्रेशन
2 के लिए स्वाभाविक है ) बहुत अधिक (कम आबादी वाले) असतत मान वाले चरों के लिए, इन्हें श्रेणियों (घनी आबादी) में बांटा जा सकता है और पूरी श्रेणी के लिए सूचना को व्यक्त करने के लिए WoE का उपयोग किया जा सकता है।
3) आश्रित चर पर प्रत्येक श्रेणी का (एकतरफा) प्रभाव केवल श्रेणियों और चर के पार तुलना किया जा सकता है क्योंकि WoE मानकीकृत मूल्य है (उदाहरण के लिए आप विवाहित लोगों के WoE की तुलना मैनुअल कर्मचारियों के WoE से कर सकते हैं)

इसमें कुछ कम से कम (कम से कम) तीन कमियां भी हैं:
1) कुछ श्रेणियों के द्वैत के कारण सूचना (भिन्नता) का नुकसान
2) यह एक "अविभाज्य" उपाय है, इसलिए यह स्वतंत्र चर
3 के बीच संबंध को ध्यान में नहीं रखता है ) यह आसान है हेरफेर (ओवरफिट) श्रेणियों के निर्माण के अनुसार चर का प्रभाव

परम्परागत रूप से, प्रतिगमन के बीट (जहाँ x को WoE द्वारा प्रतिस्थापित किया गया है) की प्रति व्याख्या नहीं की जाती है, लेकिन उन्हें "स्कोर" प्राप्त करने के लिए WoE से गुणा किया जाता है (उदाहरण के लिए वैरिएबल "वैवाहिक स्थिति" के लिए WoE से गुणा किया जा सकता है) विवाहित लोगों के स्कोर को देखने के लिए "विवाहित लोग" समूह; चर "व्यवसाय" के लिए बीटा को "मैनुअल श्रमिकों" के WoE द्वारा गुणा किया जा सकता है ताकि मैनुअल श्रमिकों के स्कोर को देखा जा सके। तब यदि आप विवाहित मैनुअल श्रमिकों के स्कोर में रुचि रखते हैं। आप इन दो अंकों को जोड़ते हैं और देखते हैं कि परिणाम पर कितना प्रभाव पड़ता है)। स्कोर जितना अधिक होगा, परिणाम 1 के बराबर होने की संभावना अधिक होती है।


1
(+1) प्रतिक्रिया के साथ एक मोनोटोनिक संबंध रखने के लिए भविष्यवक्ता को फिर से बताने का एक फायदा क्यों है?
Scortchi - को पुनः स्थापित मोनिका

1
@Scortchi मैं एक उदाहरण के बारे में सोच सकता हूं - स्वतंत्र चर लोगों की ऊंचाई (सेमी में मापा जाता है) है, लोग अच्छे कपड़ों की खरीदारी कर रहे हैं, आश्रित चर एक द्विआधारी घटना होगी - चाहे वे उपयुक्त और आरामदायक कपड़े खरीद सकते हैं या नहीं। स्पष्ट रूप से बहुत छोटे और बहुत लम्बे लोगों को उपयुक्त कपड़े खरीदने में कठिनाई होगी, जबकि बीच के लोग इसे आसानी से कर सकते थे। सरल (अंतर्क्रियाओं के बिना और परिवर्तनों के बिना) प्रतिगमन आप केवल मॉडल कर सकते हैं कि उपयुक्त कपड़े खरीदने की संभावना या तो बढ़ जाती है या लोगों की ऊंचाई के साथ घट जाती है
ब्रानो कुचरन

1
लोग आमतौर पर भविष्यवाणियों के गैर-मोनोटोनिक परिवर्तनों का उपयोग नहीं करते हैं - वैसे भी अनुभवजन्य मॉडलिंग में नहीं। सहित अन्य गैर-मोनोटोनिक रिश्तों को सशर्त गैर-मोनोटोनिक रिश्तों को हटा या पेश कर सकता है। लेकिन एक बहुपद या तख़्ता आधार समारोह के साथ एक भविष्यवक्ता का प्रतिनिधित्व करना उनके लिए अनुमति देने का एक सीधा तरीका है; और एक अन्य इसे कम कर रहा है और उदाहरण के लिए-स्तर कोडिंग का उपयोग करते हुए इसे स्पष्ट रूप से मानता है। अंतिम, कम से कम, इस WoE परिवर्तन की तुलना में काफी सरल है; किसी को भी बांटना नहीं ...
Scortchi - Monica

1
... प्रतिक्रिया के संदर्भ में एक भविष्यवक्ता को परिभाषित करने से उत्पन्न होने वाली अनुमान और व्याख्या; & सभी एक गैर-मोनोटोनिक सशर्त संबंध को तब भी मॉडल करने की अनुमति देते हैं जब सीमांत संबंध मोनोटोनिक (या इसके विपरीत) हो। मुझे लगता है कि मुझे जो मिल रहा है वह यह है कि WoE परिवर्तन मुझे एक समस्या की तलाश में एक समाधान लगता है। क्या ऐसी परिस्थितियों का एक वर्ग है जहां यह अधिक व्यापक रूप से उपयोग किए जाने वाले तरीकों की तुलना में बेहतर भविष्यवाणियां करता है? - हालांकि यह एक अलग सवाल है कि आपने यहां जो उत्तर दिया है (शायद आँकड़ें ।stackexchange.com/q/166816/17230 )।
Scortchi - को पुनः स्थापित मोनिका

यदि आपके पास पहले से ही श्रेणीबद्ध डेटा है तो क्या होगा? तो फिर एक ही फायदा है "एक मोनोटोनिक संबंध स्थापित करने के लिए"? ऐसा लगता है हाय के महत्वपूर्ण घटक की तरह binning प्रक्रिया में वास्तव में है
information_interchange

7

लॉजिस्टिक रिग्रेशन में WOE का उपयोग करने के लिए तर्क यह है कि कभी-कभी सेमी-नाइव बेयसियन क्लासिफायर (SNBC) कहा जाता है। इस ब्लॉग पोस्ट की शुरुआत चीजों को बहुत अच्छी तरह से समझाती है: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

मॉडल में बीटा पैरामीटर प्रत्येक भोले प्रभाव (उर्फ वेट-ऑफ-प्रूफ) के रैखिक पूर्वाग्रह हैं जो अन्य भविष्यवक्ताओं की उपस्थिति के कारण हैं और उन्हें विशेष भविष्यवक्ताओं की लॉग ऑड्स में रैखिक परिवर्तन के रूप में व्याख्या की जा सकती है। अन्य भविष्यवक्ता।


1

वज़न ऑफ़ एविडेंस (WoE) चर परिवर्तन और चयन करने के लिए शक्तिशाली तकनीक है। इसका उपयोग अच्छे बनाम बुरे ग्राहकों के पृथक्करण को मापने के लिए क्रेडिट स्कोरिंग में किया जाता है। (चर)। लाभ :: - अनुपलब्ध मानों को संभालता है आउटलेयर्स परिवर्तन वितरण के लॉगरिदमिक मूल्य पर आधारित है। डाइनिंग वैरिएबल्स की कोई आवश्यकता नहीं है उचित बाइनिंग तकनीक का उपयोग करके यह मोनोटोनिक संबंध स्थापित कर सकता है जो स्वतंत्र और आश्रित है।

mono_bin () = संख्यात्मक चर के लिए उपयोग किया जाता है। वर्ण चर के लिए char_bin () = का उपयोग किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.