सामान्य स्वतंत्र चर के साथ लॉग इन करें


18

एक तर्क मॉडल में, क्या प्रत्येक स्तर के लिए डमी चर का उपयोग करने की तुलना में एक स्वतंत्र क्रमिक चर के प्रभाव को निर्धारित करने का एक स्मार्ट तरीका है?


क्या यह सॉफ्टवेयर पर निर्भर नहीं है?

1
अलग-अलग सॉफ्टवेयर अलग-अलग विकल्प की अनुमति दे सकते हैं, लेकिन एक राजसी उत्तर दिया जाना चाहिए, नहीं?
fgregg

1
ठीक है, बेवकूफ टिप्पणी, क्षमा करें।

जवाबों:


16

@ Dmk38 की प्रतिक्रिया में जोड़ने के लिए, "स्कोर का कोई भी सेट एक वैध परीक्षण देता है , बशर्ते वे प्रयोग के परिणामों के परामर्श के बिना निर्मित किए जाते हैं। यदि स्कोर का सेट खराब है, तो यह एक संख्यात्मक पैमाने को बुरी तरह से विकृत करता है जो वास्तव में होता है। आदेश दिया गया वर्गीकरण, परीक्षण संवेदनशील नहीं होगा। इसलिए स्कोर को उस तरीके के बारे में उपलब्ध सर्वोत्तम अंतर्दृष्टि को प्राप्त करना चाहिए, जिसमें वर्गीकरण का निर्माण और उपयोग किया गया था। " (कोचरन, 1954, एगेस्टी, 2002, पीपी 88-89 द्वारा उद्धृत)। दूसरे शब्दों में, एक ऑर्डर किए गए कारक को संख्यात्मक रूप से बनाए गए चर के रूप में मानना ​​एक मॉडलिंग मुद्दा है। बशर्ते यह समझ में आता है, यह केवल परिणाम की व्याख्या करने के तरीके को प्रभावित करेगा, और एक सामान्य चर के लिए सबसे अच्छा प्रतिनिधित्व कैसे चुनना है, इस पर अंगूठे का कोई निश्चित नियम नहीं है।

मातृ शराब की खपत और जन्मजात विकृति की उपस्थिति या अनुपस्थिति (अग्रेंजी, श्रेणीबद्ध डेटा विश्लेषण , तालिका 3.7 p.89) पर निम्नलिखित उदाहरण पर विचार करें :

            0    <1 1-2 3-5 6+
Absent  17066 14464 788 126 37
Present    48    38   5   1  1

इस विशेष मामले में, हम लॉजिस्टिक रिग्रेशन या सिंपल एसोसिएशन टेबल का उपयोग करके परिणाम को मॉडल कर सकते हैं। आर में करते हैं:

tab3.7 <- matrix(c(17066,48,14464,38,788,5,126,1,37,1), nr=2,
                 dimnames=list(c("Absent","Present"),
                               c("0","<1","1-2","3-5","6+")))
library(vcd)
assocstats(tab3.7)

हमेशा की तरह (12.08, पी = .०,१६,७५१) या एलआर (6.20, पी = .१,८४,५६२) आंकड़ा (4 df के साथ) शराब की खपत में आदेश दिया स्तरों के लिए खाते में नहीं है।χ2

समान रूप से स्थानिक अंकों के साथ दोनों चरों के अध्यादेश को मानते हुए (इसका बाइनरी चर के लिए कोई प्रभाव नहीं है, जैसे कि खराबी, और हम आधार रेखा को 0 = अनुपस्थित के रूप में चुनते हैं), हम रेखीय संघ द्वारा रैखिक के लिए परीक्षण कर सकते हैं। आइए सबसे पहले इस आकस्मिक तालिका के एक विस्फोटित संस्करण का निर्माण करें:

library(reshape)
tab3.7.df <- untable(data.frame(malform=gl(2,1,10,labels=0:1), 
                                alcohol=gl(5,2,10,labels=colnames(tab3.7))), 
                     c(tab3.7))
# xtabs(~malform+alcohol, tab3.7.df) # check

तब हम एक रेखीय संघ का उपयोग करके परीक्षण कर सकते हैं

library(coin)
#lbl_test(as.table(tab3.7))
lbl_test(malform ~ alcohol, data=tab3.7.df)

χ2(1)=1.83p=0.1764M2=(n1)r2

cor(sapply(tab3.7.df, as.numeric))[1,2]^2*(32574-1)

जैसा कि देखा जा सकता है, दो चर के बीच एक स्पष्ट जुड़ाव के ज्यादा सबूत नहीं हैं। एग्रेस्टी द्वारा किए गए अनुसार, यदि हम अल्कोहल के स्तर को {0,0.5,1.5,4,7,7} के रूप में फिर से चुनना चाहते हैं, जो कि अंतिम अंक के लिए मध्य-श्रेणी के मानों का उपयोग कर रहा है, जिसमें अंतिम स्कोर कुछ हद तक विशुद्ध रूप से मनमाना है, तो हम समाप्त कर देंगे। जन्मजात विकृति के विकास पर मातृ शराब की खपत का एक बड़ा प्रभाव:

lbl_test(malform ~ alcohol, data=tab3.7.df,         
         scores=list(alcohol=c(0,0.5,1.5,4,7)))

0.01037 के जुड़े पी-मूल्य के साथ 6.57 के एक परीक्षण सांख्यिकीय उपज।

ρr

जीएलएम दृष्टिकोण का उपयोग करते हुए, हम निम्नानुसार आगे बढ़ेंगे। लेकिन पहले जांचें कि आर में अल्कोहल को कैसे एनकोड किया गया है:

class(tab3.7.df$alcohol)

यह एक सरल अव्यवस्थित कारक ( "factor") है, इसलिए एक मामूली भविष्यवक्ता है। अब, यहाँ तीन मॉडल हैं जिन्हें हम अल्कोहल को नाममात्र, क्रमिक या निरंतर भविष्यवक्ता मानते हैं।

summary(mod1 <- glm(malform ~ alcohol, data=tab3.7.df, 
                    family=binomial))
summary(mod2 <- glm(malform ~ ordered(alcohol), data=tab3.7.df, 
                    family=binomial))
summary(mod3 <- glm(malform ~ as.numeric(alcohol), data=tab3.7.df, 
                    family=binomial))

β^exp(θ^)=exp(0.228)=1.256। वाल्ड परीक्षण सामान्य 5% के स्तर पर महत्वपूर्ण नहीं है। इस मामले में, डिज़ाइन मैट्रिक्स में केवल 2 कॉलम शामिल हैं: पहला इंटरसेप्ट के लिए 1 का एक स्थिर कॉलम है, दूसरा भविष्यवक्ता के लिए संख्यात्मक मान (1 से 5) है, जैसा कि एक साधारण रेखीय प्रतिगमन में है। संक्षेप में, यह मॉडल परिणाम पर (लॉगिट पैमाने पर) अल्कोहल के रैखिक प्रभाव के लिए परीक्षण करता है।

हालांकि, दो अन्य मामलों में ( mod1और mod2), हम अलग-अलग आउटपुट प्राप्त करते हैं, क्योंकि भविष्यवाणियों को मॉडल करने के लिए उपयोग किए गए डिज़ाइन मैट्रिक्स को अलग-अलग किया जाता है, जैसा कि उपयोग करके जांच की जा सकती है:

model.matrix(mod1)
model.matrix(mod2)

mod1k1mod2mod1mod2

आप अल्कोहल को नए स्कोर प्रदान करने का प्रयास कर सकते हैं और देख सकते हैं कि यह एक विकृति की अनुमानित संभावना को कैसे प्रभावित करेगा।


3
(+1) बहुत गहन उत्तर। मैं केवल यह जोड़ना चाहता हूं कि परीक्षण प्राप्त करना संभव है जो कि आइसोटोनिक रिग्रेशन का उपयोग करके क्रमिक चर को स्कोर दिए बिना खुराक-प्रतिक्रिया संबंध की केवल एकरसता का अनुमान लगाता है। हालांकि, परीक्षण सांख्यिकीय के वितरण को प्राप्त करने के लिए आमतौर पर सिमुलेशन या क्रमचय विधियों की आवश्यकता होती है। नल के नीचे। सलंती और उल्म 2003 dx.doi.org/10.1002/bimj.200390012 देखें ।
onstop

@onestop इस संदर्भ के लिए धन्यवाद। मैं इसे देखूंगा।
CHL

6

यदि स्तर सामान्य हैं, तो लॉगजीआई (या ओएलएस) प्रतिगमन मॉडल में एक श्रेणीबद्ध भविष्यवक्ता का उपयोग करना पूरी तरह से ठीक है। लेकिन अगर आपके पास प्रत्येक स्तर को असतत मानने का कारण है (या यदि वास्तव में आपका श्रेणीगत चर क्रमिक की बजाय नाममात्र है), तो, डमी कोडिंग के विकल्प के रूप में, आप ऑर्थोगोनल कंट्रास्ट कोडिंग का भी उपयोग कर सकते हैं। बहुत पूर्ण और सुलभ चर्चा के लिए, जूड, सीएम, मैक्लेलैंड, जीएच और रयान, सीएस डेटा विश्लेषण देखें: एक मॉडल तुलना दृष्टिकोण, एडन। 2। (रूटलेज / टेलर और फ्रांसिस, न्यूयॉर्क, एनवाई; 2008), या सिर्फ Google "कंट्रास्ट कोडिंग"


क्या आप इसे मॉडल में अंतराल डेटा के रूप में क्रमिक डेटा के इलाज के लिए ठीक कर रहे हैं? यदि हां, तो मैं गुणांक को कैसे रोक सकता हूं अगर मुझे स्तरों के बीच "दूरी" नहीं पता है?
fgregg

3
हाँ। गुणांक क्रमिक भविष्यवक्ता में परिवर्तन के प्रत्येक वेतन वृद्धि के लिए लॉग बाधाओं में परिवर्तन को दर्शाता है। यह (बहुत सामान्य) मॉडल विनिर्देशन मानता है कि भविष्यवक्ता के वेतन वृद्धि पर एक रैखिक प्रभाव पड़ता है। धारणा का परीक्षण करने के लिए, आप एक मॉडल की तुलना कर सकते हैं जिसमें आप एक एकल भविष्यवक्ता के रूप में अध्यादेशीय चर का उपयोग करते हैं, जिसमें आप प्रतिक्रियाओं को विवेक देते हैं और उन्हें कई भविष्यवाणियों के रूप में मानते हैं (जैसा कि आप चर नाममात्र थे); यदि बाद वाला मॉडल काफी बेहतर फिट नहीं होता है, तो प्रत्येक वेतन वृद्धि को एक रैखिक प्रभाव के रूप में व्यवहार करना उचित है।
dmk38

मैं आपको +1 देता हूं क्योंकि यह प्रतिक्रिया ठीक लगती है, और मुझे लगता है कि @fgregg ने ऐसा ही किया होगा (पर्याप्त प्रतिनिधि के साथ)।
CHL

मुझे यह भी लगता है कि यह एक आदर्श उदाहरण है, क्योंकि लॉग ऑड्स में परिवर्तन को क्रमिक चर के साथ व्याख्या किया जा सकता है।
स्मॉलचेयर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.