मॉडल भर में लॉजिस्टिक रिग्रेशन गुणांक की तुलना?


11

मैंने पार-अनुभागीय डेटा के छह अलग-अलग सेटों पर लागू होने के लिए एक लॉजिट मॉडल विकसित किया है। मैं जो उजागर करने की कोशिश कर रहा हूं वह यह है कि क्या अलग-अलग समय और समय पर अन्य स्पष्टीकरणों के लिए नियंत्रित आश्रित चर (DV) पर किसी दिए गए स्वतंत्र चर (IV) के मूल प्रभाव में परिवर्तन होते हैं।

मेरे प्रश्न हैं:

  • मैं IV और DV के बीच संबंध में आकार में वृद्धि / कमी का आकलन कैसे करूं?
  • क्या मैं बस मॉडल में गुणांक के विभिन्न परिमाण (आकार) को देख सकता हूं या क्या मुझे किसी अन्य प्रक्रिया से गुजरने की आवश्यकता है?
  • अगर मुझे कुछ और करने की आवश्यकता है, तो यह क्या है और यह किया जा सकता है / मैं इसे SPSS में कैसे करूँ?

    इसके अलावा, एक मॉडल के भीतर,

  • क्या मैं अनचाहे स्कोर के आधार पर स्वतंत्र चर के सापेक्ष आकार की तुलना कर सकता हूं यदि सभी को 0-1 कोडित किया गया है या क्या मुझे उन्हें मानकीकृत स्कोर में बदलने की आवश्यकता है?
  • क्या मानकीकृत स्कोर के साथ समस्याएं हैं?

2
यह लेख रुचि का हो सकता है, dx.doi.org/10.1093/esr/jcp006 , जाहिरा तौर पर लॉजिस्टिक मॉडल के बीच प्रभाव की तुलना करना ओएलएस मामले की तुलना में बहुत अधिक जटिल है!
एंडी डब्ल्यू

जवाबों:


13

मैं मुख्य रूप से आपके पहले तीन प्रश्नों पर ध्यान केंद्रित करूंगा। संक्षिप्त उत्तर हैं: (1) आपको IV के प्रभाव की तुलना DV पर प्रत्येक समय अवधि के लिए करने की आवश्यकता है लेकिन (2) केवल परिमाण की तुलना करने से गलत निष्कर्ष निकल सकते हैं, और (3) ऐसा करने के कई तरीके हैं कोई सहमति नहीं है, जिस पर कोई सही नहीं है।

नीचे मैं वर्णन करता हूं कि आप केवल गुणांक परिमाणों की तुलना क्यों नहीं कर सकते हैं और आपको कुछ समाधानों की ओर इशारा करते हैं जो अब तक सोचा गया है।

ऑलिसन (1999) के अनुसार, ओएलएस के विपरीत, लॉजिस्टिक रिग्रेशन गुणांक तब तक विषमता से प्रभावित होता है, जब ऐसी विषमता ब्याज के चर से संबंधित न हो।

जब आप एक लॉजिस्टिक रिग्रेशन फिट करते हैं जैसे:

ln(11pi)=β0+β1x1i

y1y

y=α0+α1x1i+σε

ε

αβ

βj=αjσj=1,...,J.

σβσ

ऐसा इसलिए है क्योंकि यदि समूह, देश या अवधि के बीच भिन्नता भिन्नता है तो तुलना गलत निष्कर्ष निकाल सकती है। दोनों विभिन्न मॉडलों का उपयोग करते हैं और एक ही मॉडल के भीतर बातचीत की शर्तों का उपयोग करते हुए इस समस्या से ग्रस्त हैं। लॉगिट के अलावा, यह अपने चचेरे भाई प्रोबिट, क्लॉग-लॉग, कैचिट और, विस्तार से, इन लिंक फ़ंक्शंस का उपयोग करके अनुमानित समय मॉडल को असतत करने के लिए भी लागू होता है। ऑर्डर किए गए लॉगिट मॉडल भी इससे प्रभावित होते हैं।

विलियम्स (2009) का तर्क है कि समाधान एक विषम विकल्प मॉडल (उर्फ, एक स्थान-पैमाने पर मॉडल) के माध्यम से बिना किसी बदलाव के मॉडल बनाना है, और oglm उस (विलियम्स 2010) के लिए बुलाया पर एक स्टैट ऐड प्रदान करता है । आर में, विषम विकल्प मॉडल पैकेज के hetglm()कार्य के साथ फिट हो सकते हैं glmx, जो सीआरएएन के माध्यम से उपलब्ध है। दोनों कार्यक्रमों का उपयोग करना बहुत आसान है। अंत में, विलियम्स (2009) ने PLUMइन मॉडलों को फिट करने के लिए SPSS की दिनचर्या का उल्लेख किया है , लेकिन मैंने कभी इसका उपयोग नहीं किया है और इसका उपयोग करने में कितना आसान है, इस बारे में कोई टिप्पणी नहीं कर सकता।

हालाँकि, वहाँ कम से कम एक वर्किंग पेपर है जो यह दर्शाता है कि विषम विकल्प मॉडल का उपयोग करने की तुलना और भी अधिक पक्षपाती हो सकती है यदि विचरण समीकरण गलत तरीके से बनाया गया है या माप त्रुटि है।

मूड (2010) अन्य समाधानों को सूचीबद्ध करता है जिसमें विचरण को शामिल नहीं किया जाता है, लेकिन अनुमानित संभाव्यता परिवर्तनों की तुलना का उपयोग करते हैं।

जाहिरा तौर पर यह एक ऐसा मुद्दा है जिसे सुलझाया नहीं जाता है और मैं अक्सर अपने क्षेत्र (समाजशास्त्र) के सम्मेलनों में इसके लिए विभिन्न समाधानों के साथ कागजात देखता हूं। मैं आपको सलाह दूंगा कि आपके क्षेत्र के लोग क्या करें और फिर यह तय करें कि इससे कैसे निपटा जाए।

संदर्भ


मैं आर में विलियम्स (2009) समाधान को लागू करने की कोशिश कर रहा हूं और ऐसा लगता है कि ग्लमेक्स पैकेज के नए संस्करणों में अब हेटप्रॉब () फ़ंक्शन नहीं है। बस यह जांचना चाहता था कि क्या आपको इसके लिए कोई विकल्प पता है?
एलिविविल

1
मैंने थोड़ी देर में glmx का उपयोग नहीं किया है और यह नहीं जानता कि यह बदल गया था। अब यह CRAN के माध्यम से उपलब्ध है, और हेरोस्कोडैस्टिक प्रोबिट के लिए उपयोग किए जाने वाले फ़ंक्शन को जाहिरा तौर पर हेटल्ग्म () कहा जाता है। मैं इस उत्तर को बाद में प्रतिबिंबित करने के लिए अपडेट करूंगा (यह यहां बिस्तर समय के बारे में है)। मुझे उम्मीद है कि यह अभी के लिए मदद करता है।
केंजी

3

क्या डेटा सेट में परिवर्तन हैं? मैं जवाब दे सकता हूं कि डेटा देखे बिना! हाँ। वहां। वो कितने बड़े है? वह कुंजी है। मेरे लिए, देखने का तरीका देखने से है। आपके पास प्रत्येक डेटा सेट के लिए प्रत्येक स्वतंत्र चर के लिए अनुपात होगा - क्या वे उन तरीकों से अलग हैं जो लोगों को दिलचस्प लगेंगे? अब, यह सच है कि प्रत्येक में एक मानक त्रुटि और इतने पर होगा, और शायद यह देखने के तरीके हैं कि क्या वे सांख्यिकीय रूप से एक दूसरे से काफी अलग हैं, लेकिन क्या यह वास्तव में एक दिलचस्प सवाल है? यदि यह है, तो सॉफ्टवेयर के साथ आसानी से परीक्षण करने का एक तरीका सभी अध्ययनों को संयोजित करना होगा, और एक अन्य स्वतंत्र चर के रूप में "अध्ययन" को शामिल करना होगा। यदि आप चाहते थे तो आप तब भी बातचीत का परीक्षण कर सकते थे। आप ऐसा करना चाहते हैं या नहीं, यह आपके ठोस सवालों पर निर्भर करता है।

एक मॉडल के भीतर चर की तुलना के रूप में, मानकीकृत स्कोर के साथ मुख्य समस्या यह है कि वे आपके विशेष नमूने पर मानकीकृत हैं। तो, पैरामीटर का अनुमान है और इसी तरह आपके विशेष नमूने में चर के मानक विचलन के संदर्भ में हैं। यहां तक ​​कि अगर आपका नमूना वास्तव में कुछ आबादी से यादृच्छिक नमूना है, तो इसमें अन्य यादृच्छिक नमूनों से अलग मानक विचलन होगा। इससे चीजें गड़बड़ हो जाती हैं।

दूसरी समस्या यह है कि "सापेक्ष आकार" का क्या अर्थ है। यदि आपकी IVs ऐसी चीजें हैं, जो अच्छी तरह से समझी जाती हैं, तो आप ORs की तुलना उन श्रेणियों में कर सकते हैं जिनका कुछ मतलब होता है।


यह उपयोगी है, धन्यवाद पीटर। मैंने जो पहला सवाल पूछा था, वह इसलिए है क्योंकि मैंने ठीक देखा है कि - नमूने के भीतर मॉडल में गुणांक की तुलना करना और विभिन्न नमूनों से मॉडल में तुलना करना - रेफरी पेपर में। मुझे नहीं लगा कि यह सही दृष्टिकोण था, और, जाहिर है, मैं सही हूं। तकनीकी विवरण के बारे में, क्या मैं सभी छह नमूनों पर एक मॉडल का अनुमान नहीं लगा सकता हूं और मुख्य भविष्यवक्ता के बीच एक बातचीत शब्द है जिसकी मैं तुलना करना चाहता हूं और एक चर प्रत्येक नमूने को निर्दिष्ट करता है (एक अलग समय अवधि का प्रतिनिधित्व करता है)? क्या आप जो कह रहे थे, वही है? क्या मुझे प्रत्येक s के लिए एक चर की आवश्यकता है
Ejs

हाय @जे। आपको किसी अन्य श्रेणीगत चर - डमी कोडिंग या प्रभाव कोडिंग या जो भी हो, उसी तरह "नमूना" कोड करने की आवश्यकता होगी।
पीटर Flom

बातचीत के बारे में .... हां, उनकी व्याख्या करना मुश्किल हो सकता है। मुझे यह दिखाने के लिए एक चित्रमय दृष्टिकोण पसंद है कि उनका क्या मतलब है।
पीटर Flom

3

गिलहर्मे यहाँ पैसे पर है। हालांकि अन्य प्रतिक्रियाएं उपयोगी हैं, कृपया ध्यान दें कि लॉजिस्टिक रिग्रेशन की तुलना में लॉजिस्टिक रिग्रेशन (और पोइसन जैसे सभी नॉनलाइनर रिग्रेशन) मूलभूत रूप से अलग हैं। छह अलग-अलग डेटा सेटों पर एक ही विश्लेषण चलाने और फिर संयुक्त डेटा सेट पर उस विश्लेषण को चलाने पर लॉग स्केल स्केलिंग कारक के साथ गंभीर समस्याएं हो सकती हैं। गुणांक में परिवर्तन का सार्थक मतभेदों (भले ही सांख्यिकीय रूप से महत्वपूर्ण या महत्वपूर्ण रूप से महत्वपूर्ण) से कोई लेना-देना न हो। वे नमूने भर में अप्रतिष्ठित विषमता के साथ सब कुछ कर सकते थे। आपको इसके लिए पूरी तरह से परीक्षण करना होगा। सामाजिक और नीति विज्ञान क्षेत्र के कई (यदि नहीं तो अधिकांश) शोधकर्ता इस बात की अनदेखी करते हैं। Guilherme इस पर सेमिनल लेख देता है कि मैं सभी को देखने की सलाह देता हूं। पीटर्स के सुझाव व्यावहारिक हैं, लेकिन डेटा से आने वाले नमूने के लिए बस एक डमी चर को कोडिंग करने से स्केलिंग कारक में इस विषमता का पता नहीं चलेगा। आप ऐसा कर सकते हैं कि रेखीय प्रतिगमन और विषमता आपके गुणांक को प्रभावित नहीं करना चाहिए, लेकिन यहां यह हो सकता है।

रेखीय बनाम रैखिक प्रतिगमन के लिए अद्वितीय अप्रतिष्ठित विषमता के प्रभाव का एक अन्य पहलू, प्रत्येक डेटा सेट में विभिन्न रजिस्टरों का प्रभाव है। यदि आपके पास समान चर नहीं हैं, या संभावना है कि यदि वे अलग-अलग मापे जाते हैं, तो आपके पास छोड़े गए चर पूर्वाग्रह का एक रूप है। रैखिक प्रतिगमन के विपरीत, आपके प्रमुख प्रतिगामी के लिए एक लोप किया गया चर ऑर्थोगोनल अभी भी आपके अनुमान को पूर्वाग्रह कर सकता है। जैसा कि क्रैमर कहते हैं:

तब भी, ऑर्थोगोनल रजिस्टरों के साथ, पूर्ण रूप से इसके मूल्य में अपेक्षाकृत कम मूल्य पर, वैरिएबल को डिप्रेस करता है th । दूसरे शब्दों में, असतत मॉडल का , बिना बोले हुए विषमता की सीमा के साथ भिन्न होता है। व्यावहारिक परिणाम यह है कि इस संबंध में भिन्न नमूनों से अनुमान सीधे तुलनात्मक नहीं हैं। ( http://dare.uva.nl/document/2/96199 )β^β^

Cramer यह भी बताता है कि एक चर को छोड़ते समय गुणांक अनुमान नीचे की ओर पक्षपाती हैं, आंशिक व्युत्पन्न नहीं हैं। यह काफी जटिल है और आपको अधिक स्पष्ट विवरण के लिए लेख को पढ़ना चाहिए - समग्र बिंदु यह है, विशेष रूप से लॉग-ऑड्स या ऑड्स अनुपात को न देखें। अनुमानित संभावनाओं और डेरिवेटिव पर विचार करें; अधिक जानकारी के लिए Stata में मार्जिन कमांड देखें। जेडी लांग के पास एक पेपर है जो यहां विस्तार में है।

अंत में, ऐसे कई कागजात हैं, जिनके लिए आप लॉग इन मॉडल में बातचीत की शर्तों पर चर्चा कर सकते हैं। मेरी समझ यह रही है कि एक गाइड के रूप में बातचीत पर लॉज गुणांक ले लो, लेकिन निश्चित नहीं, खासकर यदि आप गुणांक को घातांक बाधाओं के अनुपात के रूप में देखना पसंद करते हैं। अनुमानित संभावनाओं को देखते हुए और औसत सीमांत प्रभाव बेहतर है (फिर से, लॉगिट के लिए स्टैटा के मार्जिन कमांड पर प्रलेखन देखें, भले ही आप एसपीएसएस का उपयोग करें यह अभी भी उपयोगी होगा)।

मैं यह जानने के लिए SPSS के साथ पर्याप्त रूप से परिचित नहीं हूं कि यह पैकेज इन मुद्दों से कैसे निपट सकता है, लेकिन मैं यह कहूंगा: जब आप इस तरह के गहरे सांख्यिकीय मुद्दों में आते हैं, तो यह एक संकेत है कि यह आपके लिए और अधिक बढ़ने का समय है लचीला, परिष्कृत पैकेज जैसे स्टाटा या आर।


+1 सीमांत प्रभावों की सिफारिश करने और आर में जाने की सिफारिश करने के लिए
केनजी

1

एक और उपकरण जो उपयोगी हो सकता है वह है मानकीकृत प्रतिगमन गुणांक, या कम से कम एक रफ एंड-रेडी छद्म संस्करण। आप अपने प्राप्त गुणांक को भविष्यवक्ता के मानक विचलन से गुणा करके एक ऐसा संस्करण प्राप्त कर सकते हैं। (अन्य संस्करण और सर्वश्रेष्ठ के बारे में कुछ बहसें हैं, उदाहरण के लिए मेनार्ड 2002, एप्लाइड लॉजिस्टिक रिग्रेशन एनालिसिस ( Google पुस्तकें ) देखें)। यह आपको अध्ययनों में प्रभाव की ताकत का आकलन करने का एक तरीका देगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.