क्या लॉजिस्टिक रिग्रेशन पर विचार होता है?


18

क्या लॉजिस्टिक रिग्रेशन के प्रतिक्रिया चर पर आईआईडी की धारणा है?

उदाहरण के लिए, मान लें कि हमारे पास 1000 डेटा पॉइंट हैं। ऐसा लगता है कि प्रतिक्रिया बर्नौली वितरण से । इसलिए, हमारे पास अलग-अलग पैरामीटर साथ बर्नौली वितरण होना चाहिए ।पी मैं = logit ( β 0 + β 1 एक्स मैं ) 1000 पीYipi=logit(β0+β1xi)1000p

तो, वे "स्वतंत्र" हैं, लेकिन "समान" नहीं हैं।

क्या मैं सही हू?


पुनश्च। मैंने "मशीन लर्निंग" साहित्य से लॉजिस्टिक रिग्रेशन सीखा, जहां हम उद्देश्य फ़ंक्शन का अनुकूलन करते हैं और जांचते हैं कि क्या यह डेटा के परीक्षण में अच्छा है, मान्यताओं के बारे में बहुत अधिक बात किए बिना।

मेरा प्रश्न इस पोस्ट के साथ शुरू हुआ सामान्यीकृत रैखिक मॉडल में लिंक फ़ंक्शन को समझना जहां मैं सांख्यिकीय मान्यताओं पर अधिक जानने की कोशिश करता हूं।


1
एक "धारणा" एक ऐसी चीज है जो एक प्रमेय हो सकती है। रैखिक प्रतिगमन में iid त्रुटियों की "धारणा" होती है (यह नहीं है जिसे रैखिक प्रतिगमन में iid माना जाता है। यह त्रुटियां हैं) इस मायने में कि गॉस-मार्कोव प्रमेय की यह धारणा है। अब, क्या कोई प्रमेय है कि एक तार्किक तर्क के लिए एक मन है? यदि नहीं, तो "धारणाएं" नहीं हैं। y
अमीबा का कहना है कि मोनिका

7
@Amoeba, hxd ध्यान दें कि वितरण समान नहीं हैं: "iid" लागू नहीं होता है। यदि कोई केवल अपने फिट के लिए लॉजिस्टिक रिग्रेशन का उपयोग कर रहा है, तो (जैसा कि आप लिखते हैं) शायद कुछ मान्यताओं की आवश्यकता है; लेकिन जैसे ही एक बनाता है गुणांक या निर्माण भविष्यवाणी अंतराल के लिए इच्छाओं की अनुमानित सहप्रसरण मैट्रिक्स के रूप में उपयोग (या उस बात के लिए,, पार सत्यापित करें भविष्यवाणी मान), तो है कि संभाव्य मान्यताओं की आवश्यकता है। सामान्य यह है कि प्रतिक्रियाएं स्वतंत्र हैं।
whuber

4
@amoeba एक बार जब आप मापदण्डों के अनुमानों की गणना करने के बजाए inference (परिकल्पना परीक्षण, आत्मविश्वास अंतराल आदि) करना चाहते हैं, तो आप प्रासंगिक सुस्त वितरण को प्राप्त करने में सक्षम होने के लिए मान्यताओं (दूसरों की तुलना में कुछ अधिक महत्वपूर्ण) का एक निहत बना देंगे। वांछित कवरेज के साथ एक अंतराल के लिए सांख्यिकीय या आवश्यक गणना का परीक्षण करें। यहां तक ​​कि अपेक्षाकृत कम-धारणा प्रक्रियाओं में अभी भी धारणाएं हैं, और अगर हम अपने निष्कर्षों की परवाह करते हैं, तो हम इस बारे में परवाह करेंगे कि क्या उनके नाममात्र गुणों के पास कुछ होने की संभावना है।
Glen_b -Reinstate Monica

1
@amoeba, मुझे एक प्रमेय पसंद है जो MLE की स्पर्शोन्मुख सामान्यता को दर्शाता है। मुझे संभावना अनुपात परीक्षण भी पसंद है।
गमर

2
उनके सीमांत वितरण समान नहीं हैं, जब तक कि वे सभी में एक ही पूर्वसूचक मूल्य नहीं है, जिस स्थिति में आपके पास सिर्फ IID बर्नौली परीक्षण है। उनकी सशर्त वितरण (भविष्यवक्ता दिया) सभी एक ही हैं, लेकिन मुझे नहीं लगता कि आप सामान्य रूप से कहेंगे करते इस मामले में आईआईडी हैं। Yi
गमर

जवाबों:


11

अपने पिछले प्रश्न से आपने जाना कि GLM को प्रायिकता वितरण, लीनियर प्रेडिक्टर और लिंक फंक्शन g के रूप में वर्णित किया गया है और इसका वर्णन किया गया हैηg

η=XβE(Y|X)=μ=g1(η)

जहाँ एक लॉग लिंक फ़ंक्शन है और Y को बर्नौली वितरण का अनुसरण करने के लिए माना जाता हैgY

YiB(μi)

प्रत्येक के साथ Bernoulli वितरण इस प्रकार अपने आप मतलब μ मैं उस पर सशर्त है एक्स । हम यह नहीं मान रहे हैं कि प्रत्येक Y i समान वितरण के साथ आता है, एक ही माध्य (यह इंटरसेप्ट-ओनली मॉडल Y i = g - 1 ( μ ) ) होगा, लेकिन ये सभी के अलग-अलग साधन हैं। हम मानते हैं कि वाई मैं के हैं स्वतंत्र , यानी इस तरह के बाद के बीच ऑटो सहसंबंध के रूप में हम चीजों के बारे में चिंता करने की ज़रूरत नहीं Y मैं सम्मान करता आदिYi μiXYiYi=g1(μ)YiYi

आईआईडी धारणा रेखीय प्रतीपगमन (यानी गाऊसी GLM) है, जहां मॉडल है में त्रुटियों से संबंधित है

yi=β0+β1xi+εi=μi+εi

जहां , तो हम है आईआईडी शोर चारों ओर μ मैं । यही कारण है कि अवशेष डायग्नोस्टिक्स में रुचि रखते हैं और फिट किए गए अवशेषों पर ध्यान देते हैंεiN(0,σ2)μi भूखंड पर । अब, जीएलएम के लॉजिस्टिक रिग्रेशन के मामले में, यह इतना सरल नहीं है, क्योंकि गॉसियन मॉडल की तरह कोई एडिटिव नॉइज़ टर्म नहीं है ( यहां देखें , यहां और यहां देखें))। हम अभी भी अवशेषों को शून्य के आसपास "यादृच्छिक" होना चाहते हैं और हम उनमें कोई रुझान नहीं देखना चाहते हैं क्योंकि वे सुझाव देंगे कि कुछ प्रभाव हैं जो मॉडल के लिए जिम्मेदार नहीं हैं, लेकिन हम यह नहीं मानते हैं कि वे हैं सामान्य और / या iidसांख्यिकीय सीखने के धागे में आईआईडी धारणा के महत्व पर भी देखें ।

एक विचार के रूप में, ध्यान दें कि हम इस धारणा को भी छोड़ सकते हैं कि प्रत्येक समान वितरण से आता है। वहाँ (गैर GLM) मॉडल मान लेते हैं कि अलग अलग है कि कर रहे हैं वाई मैं के विभिन्न मापदंडों, यानी कि आप अपने डेटा एक से आता है के साथ विभिन्न वितरण हो सकता है विभिन्न वितरण का मिश्रण । ऐसे मामले में हम यह भी मानेंगे कि वाई i का मूल्य स्वतंत्र है , निर्भर मूल्यों के बाद से, विभिन्न मापदंडों (यानी विशिष्ट वास्तविक दुनिया डेटा) के साथ अलग-अलग वितरणों से आ रहा है, जो कि ज्यादातर मामलों में मॉडल से जटिल होता है (अक्सर असंभव) ।YiYiYi


6

जैसा कि कहा गया है, जबकि हम अक्सर आईड के मामले पर विचार करते हैं रैखिक प्रतिगमन में त्रुटियों हैं , इसमें अधिकांश सामान्यीकृत रैखिक मॉडल (लॉजिस्टिक प्रतिगमन सहित) में प्रत्यक्ष समकक्ष नहीं है। लॉजिस्टिक रिग्रेशन में, हम आम तौर पर ऐसे परिणामों की स्वतंत्रता की धारणा को नियोजित करते हैं जिनका सभी के बीच बहुत सख्त संबंध होता है (यानी लॉग संभावनाओं पर रैखिक प्रभाव)। लेकिन इनका परिणाम रैंडम वैरिएबल्स में होता है जो समान नहीं होते हैं, और न ही वे डीकोमोप्रोजेबल होते हैं जैसे कि एक स्थिर शब्द प्लस आईड एरर जैसा कि रैखिक रिग्रेशन के मामले में है।

अगर तुम वास्तव में यह दिखाना चाहते हैं कि प्रतिक्रियाओं में किसी प्रकार का आईड रिलेशन है, तो अगले पैराग्राफ के लिए मुझे फॉलो करें। बस पता है कि यह विचार पीटा मार्ग से थोड़ा दूर है; यदि आपके प्रोफेसर में धैर्य की कमी है तो आपको इस प्रतिक्रिया का पूरा श्रेय अंतिम रूप से नहीं मिल सकता है।

आप शायद यादृच्छिक चर उत्पन्न करने के लिए उलटा-सीएफडी विधि से परिचित हैं। यदि नहीं, तो यहाँ एक पुनश्चर्या है: यदि संचयी बंटन फ़ंक्शन है एफ एक्स , तो मैं यादृच्छिक उत्पादन कर सकते हैं से ड्रॉ एक्स ड्रॉ पहले यादृच्छिक लेने के द्वारा क्ष ~ वर्दी (0,1) तो की गणना एक्स = एफ - 1 एक्स ( क्ष )XFXXquniform(0,1)X=FX1(q)। यह लॉजिस्टिक रिग्रेशन से कैसे संबंधित है? ठीक है, हम सोच सकते हैं कि हमारी प्रतिक्रियाओं के लिए उत्पन्न करने की प्रक्रिया के दो भाग हैं; सफलता की संभावनाओं के लिए सहसंयोजकों से संबंधित एक निश्चित हिस्सा, और एक यादृच्छिक हिस्सा जो निश्चित भाग पर यादृच्छिक चर सशर्त के मूल्य को निर्धारित करता है। तय हिस्सा रसद प्रतिगमन, यानी की लिंक समारोह द्वारा परिभाषित किया गया । यादृच्छिक भाग के लिए, चलो F Y ( y | p ) को परिभाषित करते हैं कि प्रायिकता p के साथ बर्नौली वितरण के लिए cdf होना चाहिए । तब हम प्रतिक्रिया चर i के बारे में सोच सकते हैंp=expit(βo+β1x)FY(y|p)pYi निम्नलिखित तीन चरणों द्वारा उत्पन्न किया जा रहा है:

pi=expit(βo+β1xi)

qiuniform(0,1)

Yi=F1(qi|pi)

qi


1
qiYiB(pi)Yipiqi

@ समय: हाँ, उत्तर का दूसरा हिस्सा एक संक्षिप्त जवाब की तुलना में एक दिलचस्प पक्ष नोट का अधिक है। लेकिन यह इसे देखने का एक उपयोगी तरीका हो सकता है; आखिरकार, यह मूल रूप से आपका कंप्यूटर इन मॉडलों के डेटा का अनुकरण कैसे करता है!
एबी एबी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.