अन्य रजिस्ट्रारों पर लॉजिस्टिक रिग्रेशन रेजिड्यूल्स को पुनःप्राप्त करना


9

ओएलएस प्रतिगमन निरंतर प्रतिक्रिया पर लागू होने के साथ, प्रत्येक कोवरिएट पर अवशिष्ट के क्रमिक रूप से चल रहे रजिस्टरों द्वारा एक से अधिक प्रतिगमन समीकरण का निर्माण किया जा सकता है। मेरा सवाल यह है कि क्या लॉजिस्टिक रिग्रेशन रेजीड्यूल्स के माध्यम से लॉजिस्टिक रिग्रेशन के साथ ऐसा करने का कोई तरीका है ?

यही है, अगर मैं मानक सामान्यीकृत रैखिक मॉडलिंग दृष्टिकोण का उपयोग करके का अनुमान लगाना चाहता हूं, तो क्या एक्स के खिलाफ लॉजिस्टिक प्रतिगमन चलाने और छद्म अवशिष्ट R_1 प्राप्त करने का एक तरीका है , तो R_1 को z पर पुनः प्राप्त करें। लॉजिस्टिक रिग्रेशन गुणांक के एक निष्पक्ष अनुमानक प्राप्त करें। पाठ्यपुस्तकों या साहित्य के संदर्भ की सराहना की जाएगी।Pr(Y=1|x,z)xR1R1z


मेरा अनुमान है कि यह उसी कारण से काम नहीं करने वाला है जब REML GLMs तक विस्तारित नहीं होता है; कम से कम वर्गों का जादू खो गया है। मुझे आश्चर्य है कि अगर यह पूरी तरह से बायेसियन संदर्भ में काम करेगा जहां आपने सिम के हिस्से के रूप में अव्यक्त चर का नमूना लिया था। ऐसा करने का मेरा कारण यही था, इसलिए मैं विभिन्न वर्गों के चर पर ग्लमैनेट चला सकता था और वर्गों के लिए नियमितीकरण के विभिन्न मात्रा प्राप्त कर सकता था - बेशक इस प्रभाव को प्राप्त करने के अन्य तरीके हैं।
बेन ओगोरक

क्या यह लॉजिस्टिक रिग्रेशन के लिए बैक-फिटिंग एल्गोरिथ्म का उपयोग करने के समान है?
us --r11852

मैंने नीचे एक टिप्पणी में इसका उल्लेख किया है, लेकिन कई कार्यान्वयनों में आप 'बेस' की भविष्यवाणी (ग्लमैनेट में ऑफसेट पैरामीटर) को पारित कर सकते हैं, इसलिए हो सकता है कि यह आश्रित संस्करण को फिर से प्राप्त करने के बाद संभव हो। @BenOgorek क्या आप मुख्य पाठ में उद्देश्य जोड़ना चाहते हैं
seanv507

@ seanv507 मुझे चिंता है कि नियमितीकरण के हिस्से में जोड़ने से गुंजाइश बहुत बढ़ जाएगी, खासकर अब जब कि नीचे कुछ अच्छे उत्तर हैं। इसके बाद Q & A रैप अप करता है, मैं एक अलग प्रश्न बनाऊंगा जहां ऑफसेट वास्तव में हमारा मित्र हो सकता है।
बेन ओगोरक

यह एक उत्तर नहीं है, लेकिन मेरे पास टिप्पणी करने के लिए पर्याप्त प्रतिष्ठा नहीं है। प्रश्न अवशिष्ट पर अवशिष्ट को पुनः प्राप्त करने के बजाय अन्य प्रतिगामी (यानी, पूर्वसूचक ) पर अवशिष्ट को पुनः प्राप्त करने के बारे में है । मैं जवाबों से भ्रमित हूं।
टी वू

जवाबों:


3

मानक मल्टीपल लीनियर रिग्रेशन में, दो-चरणों में साधारण-न्यूनतम-वर्ग (ओएलएस) अनुमान लगाने की क्षमता फ्रिस्क-वॉ-लवेल प्रमेय से आती है । इस प्रमेय से पता चलता है कि कई रैखिक मॉडल में किसी विशेष भविष्यवक्ता के लिए गुणांक का अनुमान, प्रतिक्रिया अवशिष्ट (रेजीड्यूल्स के एक प्रतिगमन से रिस्पांस वेरिएबल के दूसरे रेजिडेंट वेरिएबल के खिलाफ) के पूर्वानुमान के अवशेषों के विरुद्ध प्राप्त करने वाले अनुमान के बराबर है। अन्य व्याख्यात्मक चर के खिलाफ पूर्वसूचक चर के एक प्रतिगमन से )। जाहिर है, आप इस प्रमेय की उपमा मांग रहे हैं जिसका उपयोग लॉजिस्टिक रिग्रेशन मॉडल में किया जा सकता है।

इस प्रश्न के लिए, लॉजिस्टिक रिग्रेशन के अव्यक्त-चर लक्षण वर्णन को याद रखना उपयोगी है :

Yi=I(Yi>0)Yi=β0+βXxi+βZzi+εiεiIID Logistic(0,1).

मॉडल के इस लक्षण वर्णन में, अव्यक्त प्रतिक्रिया चर है, और इसके बजाय हम संकेतक निरीक्षण करते हैं जो हमें बताता है कि अव्यक्त प्रतिक्रिया सकारात्मक है या नहीं। मॉडल का यह रूप कई रैखिक प्रतिगमन के समान दिखता है, सिवाय इसके कि हम थोड़ी अलग त्रुटि वितरण (सामान्य वितरण के बजाय लॉजिस्टिक वितरण) का उपयोग करते हैं, और इससे भी महत्वपूर्ण बात यह है कि हम केवल एक संकेतक दिखाते हैं कि अव्यक्त प्रतिक्रिया सकारात्मक है या नहींYiYi

यह मॉडल के दो-चरण फिट बनाने के किसी भी प्रयास के लिए एक मुद्दा बनाता है। यह फ्रिश्च-वॉ-लवेल प्रमेय अन्य व्याख्यात्मक चर के खिलाफ लिया गया, ब्याज की प्रतिक्रिया और भविष्यवक्ता के लिए मध्यवर्ती अवशेष प्राप्त करने की क्षमता पर टिका है। वर्तमान मामले में, हम केवल "वर्गीकृत" प्रतिक्रिया चर से अवशिष्ट प्राप्त कर सकते हैं। लॉजिस्टिक रिग्रेशन के लिए दो-चरणीय फिटिंग प्रक्रिया बनाना आपको अंतर्निहित अव्यक्त प्रतिक्रिया तक पहुँच के बिना, इस श्रेणीबद्ध प्रतिक्रिया चर से प्रतिक्रिया अवशिष्ट का उपयोग करने की आवश्यकता होगी। यह मुझे एक बड़ी बाधा की तरह लगता है, और जब यह असंभव साबित नहीं होता है, तो दो चरणों में मॉडल को फिट करना संभव नहीं लगता है।

नीचे मैं आपको एक लॉजिस्टिक प्रतिगमन फिट करने के लिए दो-चरणीय प्रक्रिया खोजने के लिए क्या आवश्यक होगा, इसका लेखा-जोखा दूंगा। मुझे यकीन नहीं है कि अगर इस समस्या का कोई समाधान है, या यदि असंभवता का प्रमाण है, लेकिन यहां की सामग्री आपको समझने के लिए कुछ रास्ता निकालना चाहिए जो आवश्यक है।


टू-स्टेप लॉजिस्टिक रिग्रेशन फिट कैसा दिखेगा? मान लीजिए कि हम एक लॉजिस्टिक रिग्रेशन मॉडल के लिए दो-चरण फिट का निर्माण करना चाहते हैं, जहां मापदंडों का अनुमान प्रत्येक चरण पर अधिकतम-संभावना अनुमान के माध्यम से लगाया जाता है। हम चाहते हैं कि प्रक्रिया में एक मध्यवर्ती कदम शामिल हो जो निम्नलिखित दो मॉडलों को फिट करता है:

Yi=I(Yi>0)Yi=α0+αXxi+τiτiIID Logistic(0,1),  Zi=γ0+γXxi+δiδiIID g.

हम इन मॉडलों के गुणांक (MLEs के माध्यम से) का अनुमान लगाते हैं और इससे इंटरमीडिएट फिटेड वैल्यूज _ । फिर दूसरे चरण में हम मॉडल फिट करते हैं:α^0,α^X,γ^0,γ^X

Yi=logistic(α^0+α^1xi)+βZ(ziγ^0γ^Xxi)+ϵiϵiIID f.

जैसा कि निर्दिष्ट किया गया है, प्रक्रिया में बहुत सारे निश्चित तत्व हैं, लेकिन इन चरणों में घनत्व फ़ंक्शन और अनिर्दिष्ट हैं (हालांकि उन्हें शून्य-अर्थ वितरण होना चाहिए जो डेटा पर निर्भर नहीं होते हैं)। इन बाधाओं के तहत दो-चरण फिटिंग विधि प्राप्त करने के लिए हमें यह सुनिश्चित करने के लिए और को चुनने की आवश्यकता है कि इस दो-चरण मॉडल-फिट एल्गोरिथ्म में MLE for वही है जो MLE वन-स्टेप लॉजिस्टिक मॉडल से प्राप्त किया गया है ऊपर।gfgfβZ

यह देखने के लिए कि क्या यह संभव है, हम पहले चरण से पहले सभी अनुमानित मापदंडों को लिखते हैं:

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

Let ताकि दूसरे चरण के लिए लॉग-लाइबिलिटी फ़ंक्शन हो:ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

हमें आवश्यकता है कि इस फ़ंक्शन का अधिकतम मान कई लॉजिस्टिक रिग्रेशन मॉडल का MLE हो। दूसरे शब्दों में, हमें आवश्यकता है:

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

मैं यह निर्धारित करने के लिए दूसरों को छोड़ देता हूं कि क्या इस समस्या का समाधान है, या कोई समाधान नहीं है। मुझे संदेह है कि लॉजिस्टिक प्रतिगमन में अव्यक्त प्रतिक्रिया चर के "श्रेणीकरण" से दो-चरणीय प्रक्रिया को खोजना असंभव हो जाएगा।


1
हाय @, मुझे फ्रिस-वॉ-लॉवेल प्रमेय के बारे में सिखाने के लिए धन्यवाद। मैंने इसे धमाकेदार तरीके से उड़ा दिया - सोचा "समाप्त हो गया" का मतलब यह था कि इसे विज्ञापित होने से रोक दिया गया। उसके लिए माफ़ करना। मुझे आपका संभावना आधारित विचार पसंद है। इसे बाहर या कुछ इसी तरह की कोशिश और नीचे पोस्ट कर सकते हैं।
बेन ओगोरक

@ बीन ओगोरक: इनाम पर कोई चिंता नहीं। ख़ुशी से जवाब मिला।
बेन -

@ बीन ओगोरक: (बाउंटी के खोए हुए 25 बिंदुओं के लिए, जो ईथर में गायब हो जाता है, बस साइट पर घूमें और किसी भी 3 उत्तरों को वोट करें। तब आपका कर्म बहाल हो जाता है!)
बेन -

1
किया हुआ! (और मैंने उन्हें पहले पढ़ा)।
बेन ओगोरक

3

मैं प्रश्न का गलत अर्थ निकाल सकता हूं। मुझे संदेह है कि आप ओपी निर्दिष्ट तरीके से अवशिष्ट पर प्रतिगमन द्वारा रैखिक प्रतिगमन समीकरण का निर्माण कर सकते हैं । ओपी की विधि केवल तभी काम करेगी जब भविष्यवक्ता एक-दूसरे से स्वतंत्र हों।

यह काम करने के लिए, मान परिणाम वेक्टर है, मॉडल में भविष्यवक्ताओं पहले से ही के लिए मॉडल मैट्रिक्स है और आप शामिल करना चाहते । आप के प्रतिगमन का अवशिष्ट वापसी करने के लिए की जरूरत है पर के प्रतिगमन का अवशिष्ट के खिलाफ पर के लिए OLS गुणांक प्राप्त करने के लिए ।yXx1yXx1Xx1

यहाँ एक सरल उदाहरण दिया गया है:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

फिट मॉडल के साथ OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

अवशिष्टों पर प्रतिगमन:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

यह गलत है, आपको फिट होने की आवश्यकता है:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

जो x2 के लिए सही गुणांक देता है, यह x2 में y दिए गए अंतरों में अपेक्षित अंतर के साथ संरेखित करता है, X1 स्थिरांक (इसे y और X1 दोनों से बाहर ले जाता है)।

एक तरफ, लॉजिस्टिक रिग्रेशन में, यह और भी अधिक समस्याग्रस्त होगा क्योंकि लॉजिस्टिक रिग्रेशन गुणांक, उलझे हुए वैरिएबल पूर्वाग्रह से ग्रस्त होते हैं, यहां तक ​​कि भ्रमित संबंधों के अभाव में, यहां और यहां देखें , इसलिए जब तक कि परिणाम के सभी भविष्यवाणियां मॉडल में नहीं होतीं, कोई प्राप्त नहीं कर सकता है। वास्तविक जनसंख्या मापदंडों का निष्पक्ष अनुमान। इसके अलावा, मुझे उस मॉडल से किसी भी अवशिष्ट के बारे में नहीं पता है जो 0 और 1 के बीच पड़े सभी मूल्यों के साथ एक दूसरे लॉजिस्टिक प्रतिगमन के लिए उत्तरदायी होगा।

अवशिष्ट पर प्रतिगमन पर कुछ संदर्भ:

  • मैक्सवेल, एसई, डेलाने, एचडी, और मैनहेमर, जेएम (1985)। एनोवा ऑफ रेजिड्यूल्स एंड एंकोवा: मॉडल कंपेरिजन एंड ग्राफ्स का उपयोग करके एक भ्रम को ठीक करना। जर्नल ऑफ़ एजुकेशनल स्टैटिस्टिक्स, 10 (3), 197-209। से लिया गया http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
  • फ्रीकलेटन, आरपी (2002), पारिस्थितिकी में अवशिष्ट के दुरुपयोग पर: अवशिष्ट के प्रतिगमन बनाम एकाधिक प्रतिगमन। जर्नल ऑफ़ एनिमल इकोलॉजी, 71 , 542-545। डोई: 10.1046 / j.1365-2656.2002.00618.x

मुझे लगता है कि आपके पहले दो पैराग्राफ थोड़े भ्रामक / अस्पष्ट हैं ... यह बेहतर होगा यदि आप शुरू करते हैं कि आप वास्तव में 'अवशिष्ट के साथ रैखिक प्रतिगमन' कैसे करते हैं .. (+ 1) और आप इसे सांख्यिकीय शिक्षा के तत्वों में पा सकते हैं ( एकल प्रतिगमन उपधारा से कई प्रतिगमन?)
seanv507

कई कार्यान्वयनों में आप एक 'आधार' की भविष्यवाणी (ग्लमैनेट में ऑफसेट पैरामीटर) को पारित कर सकते हैं, इसलिए हो सकता है कि यह निर्भर
var

@ seanv507 मैं पहले से ही इसे अपने उत्तर में शामिल करता हूं। मेरे पास अंतिम कोड प्रदर्शन है। यह ओपी द्वारा बताए गए तरीके से संभव नहीं है, एक भविष्यवक्ता पर अवशिष्टों को फिर से दर्ज करना। लेकिन मैं इसे फिर से शुरू से उचित रास्ता दिखाने के लिए फिर से लिख सकता हूं अगर आपका मतलब है।
हेटेरोसेडस्टिक जिम

हां मेरा मतलब था कि इसे फिर से शुरू से उचित रास्ता दिखाने के लिए फिर से लिखना होगा,
seanv507

@ seanv507 को यह पता नहीं है कि आप क्या मतलब रखते हैं कि आप आधार भविष्यवाणी कर सकते हैं? और आश्रित चर को पुनः प्राप्त करना?
Heteroskedastic जिम

1

मुझे आशा है कि मैं आपके प्रश्न का गलत अर्थ नहीं निकाल रहा हूं, क्योंकि मेरा उत्तर कुछ हद तक इस बात को बदलने वाला है कि आपने अपने विषय को कैसे बनाया।

मुझे लगता है कि आप जो करने की कोशिश कर रहे हैं वह एक समय में एक स्वतंत्र चर जोड़कर अपने प्रतिगमन मॉडल का निर्माण करता है। और, आप ऐसा करते हैं कि किस संभावित चर का Y और X1 के बीच आपके पहले प्रतिगमन के अवशिष्ट के साथ उच्चतम सहसंबंध है। तो, इस पहले अवशिष्ट के साथ उच्चतम सहसंबंध वाला चर X2 होगा। तो, अब आपके पास दो स्वतंत्र चर X1 & X2 के साथ एक मॉडल है। और, आप X3, X4, आदि का चयन करने के लिए इस सटीक प्रक्रिया को जारी रखते हैं। यह एक चरणबद्ध आगे की प्रक्रिया है।

आप साधारण तर्क के लिए लॉजिस्टिक रिग्रेशन के साथ सटीक एक ही काम कर सकते हैं कि लॉजिस्टिक रिग्रेशन बहुत अधिक ओएलएस रिग्रेशन है जहां पर निर्भर चर विषम (या लॉगिट) का लॉग है। लेकिन, वाई एक लॉजिट है या नहीं, ऊपर बताई गई स्टेप वाइज आगे की प्रक्रिया को प्रभावित नहीं करता है।

ओएलएस वास्तविक डेटा को फिट करने के लिए वर्ग त्रुटियों का योग कम करता है। लॉगिट रिग्रेशन एक अधिकतम संभावना प्रक्रिया का उपयोग करता है जो एक फिट उत्पन्न करता है जो ओएलएस से अलग नहीं है। और, वह भी (फिटिंग तंत्र) स्टेप वाइज आगे की प्रक्रिया को प्रभावित नहीं करना चाहिए जो आपको अपने कई रिग्रेशन मॉडल बनाने की अनुमति देता है, चाहे बाद वाला ओएलएस रिग्रेशन हो या लॉज रिग्रेशन।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.