मानक मल्टीपल लीनियर रिग्रेशन में, दो-चरणों में साधारण-न्यूनतम-वर्ग (ओएलएस) अनुमान लगाने की क्षमता फ्रिस्क-वॉ-लवेल प्रमेय से आती है । इस प्रमेय से पता चलता है कि कई रैखिक मॉडल में किसी विशेष भविष्यवक्ता के लिए गुणांक का अनुमान, प्रतिक्रिया अवशिष्ट (रेजीड्यूल्स के एक प्रतिगमन से रिस्पांस वेरिएबल के दूसरे रेजिडेंट वेरिएबल के खिलाफ) के पूर्वानुमान के अवशेषों के विरुद्ध प्राप्त करने वाले अनुमान के बराबर है। अन्य व्याख्यात्मक चर के खिलाफ पूर्वसूचक चर के एक प्रतिगमन से )। जाहिर है, आप इस प्रमेय की उपमा मांग रहे हैं जिसका उपयोग लॉजिस्टिक रिग्रेशन मॉडल में किया जा सकता है।
इस प्रश्न के लिए, लॉजिस्टिक रिग्रेशन के अव्यक्त-चर लक्षण वर्णन को याद रखना उपयोगी है :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
मॉडल के इस लक्षण वर्णन में, अव्यक्त प्रतिक्रिया चर है, और इसके बजाय हम संकेतक निरीक्षण करते हैं जो हमें बताता है कि अव्यक्त प्रतिक्रिया सकारात्मक है या नहीं। मॉडल का यह रूप कई रैखिक प्रतिगमन के समान दिखता है, सिवाय इसके कि हम थोड़ी अलग त्रुटि वितरण (सामान्य वितरण के बजाय लॉजिस्टिक वितरण) का उपयोग करते हैं, और इससे भी महत्वपूर्ण बात यह है कि हम केवल एक संकेतक दिखाते हैं कि अव्यक्त प्रतिक्रिया सकारात्मक है या नहीं ।Y∗iYi
यह मॉडल के दो-चरण फिट बनाने के किसी भी प्रयास के लिए एक मुद्दा बनाता है। यह फ्रिश्च-वॉ-लवेल प्रमेय अन्य व्याख्यात्मक चर के खिलाफ लिया गया, ब्याज की प्रतिक्रिया और भविष्यवक्ता के लिए मध्यवर्ती अवशेष प्राप्त करने की क्षमता पर टिका है। वर्तमान मामले में, हम केवल "वर्गीकृत" प्रतिक्रिया चर से अवशिष्ट प्राप्त कर सकते हैं। लॉजिस्टिक रिग्रेशन के लिए दो-चरणीय फिटिंग प्रक्रिया बनाना आपको अंतर्निहित अव्यक्त प्रतिक्रिया तक पहुँच के बिना, इस श्रेणीबद्ध प्रतिक्रिया चर से प्रतिक्रिया अवशिष्ट का उपयोग करने की आवश्यकता होगी। यह मुझे एक बड़ी बाधा की तरह लगता है, और जब यह असंभव साबित नहीं होता है, तो दो चरणों में मॉडल को फिट करना संभव नहीं लगता है।
नीचे मैं आपको एक लॉजिस्टिक प्रतिगमन फिट करने के लिए दो-चरणीय प्रक्रिया खोजने के लिए क्या आवश्यक होगा, इसका लेखा-जोखा दूंगा। मुझे यकीन नहीं है कि अगर इस समस्या का कोई समाधान है, या यदि असंभवता का प्रमाण है, लेकिन यहां की सामग्री आपको समझने के लिए कुछ रास्ता निकालना चाहिए जो आवश्यक है।
टू-स्टेप लॉजिस्टिक रिग्रेशन फिट कैसा दिखेगा? मान लीजिए कि हम एक लॉजिस्टिक रिग्रेशन मॉडल के लिए दो-चरण फिट का निर्माण करना चाहते हैं, जहां मापदंडों का अनुमान प्रत्येक चरण पर अधिकतम-संभावना अनुमान के माध्यम से लगाया जाता है। हम चाहते हैं कि प्रक्रिया में एक मध्यवर्ती कदम शामिल हो जो निम्नलिखित दो मॉडलों को फिट करता है:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
हम इन मॉडलों के गुणांक (MLEs के माध्यम से) का अनुमान लगाते हैं और इससे इंटरमीडिएट फिटेड वैल्यूज _ । फिर दूसरे चरण में हम मॉडल फिट करते हैं:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
जैसा कि निर्दिष्ट किया गया है, प्रक्रिया में बहुत सारे निश्चित तत्व हैं, लेकिन इन चरणों में घनत्व फ़ंक्शन और अनिर्दिष्ट हैं (हालांकि उन्हें शून्य-अर्थ वितरण होना चाहिए जो डेटा पर निर्भर नहीं होते हैं)। इन बाधाओं के तहत दो-चरण फिटिंग विधि प्राप्त करने के लिए हमें यह सुनिश्चित करने के लिए और को चुनने की आवश्यकता है कि इस दो-चरण मॉडल-फिट एल्गोरिथ्म में MLE for वही है जो MLE वन-स्टेप लॉजिस्टिक मॉडल से प्राप्त किया गया है ऊपर।gfgfβZ
यह देखने के लिए कि क्या यह संभव है, हम पहले चरण से पहले सभी अनुमानित मापदंडों को लिखते हैं:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Let ताकि दूसरे चरण के लिए लॉग-लाइबिलिटी फ़ंक्शन हो:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
हमें आवश्यकता है कि इस फ़ंक्शन का अधिकतम मान कई लॉजिस्टिक रिग्रेशन मॉडल का MLE हो। दूसरे शब्दों में, हमें आवश्यकता है:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
मैं यह निर्धारित करने के लिए दूसरों को छोड़ देता हूं कि क्या इस समस्या का समाधान है, या कोई समाधान नहीं है। मुझे संदेह है कि लॉजिस्टिक प्रतिगमन में अव्यक्त प्रतिक्रिया चर के "श्रेणीकरण" से दो-चरणीय प्रक्रिया को खोजना असंभव हो जाएगा।