एक तर्क मॉडल में, क्या प्रत्येक स्तर के लिए डमी चर का उपयोग करने की तुलना में एक स्वतंत्र क्रमिक चर के प्रभाव को निर्धारित करने का एक स्मार्ट तरीका है?
एक तर्क मॉडल में, क्या प्रत्येक स्तर के लिए डमी चर का उपयोग करने की तुलना में एक स्वतंत्र क्रमिक चर के प्रभाव को निर्धारित करने का एक स्मार्ट तरीका है?
जवाबों:
@ Dmk38 की प्रतिक्रिया में जोड़ने के लिए, "स्कोर का कोई भी सेट एक वैध परीक्षण देता है , बशर्ते वे प्रयोग के परिणामों के परामर्श के बिना निर्मित किए जाते हैं। यदि स्कोर का सेट खराब है, तो यह एक संख्यात्मक पैमाने को बुरी तरह से विकृत करता है जो वास्तव में होता है। आदेश दिया गया वर्गीकरण, परीक्षण संवेदनशील नहीं होगा। इसलिए स्कोर को उस तरीके के बारे में उपलब्ध सर्वोत्तम अंतर्दृष्टि को प्राप्त करना चाहिए, जिसमें वर्गीकरण का निर्माण और उपयोग किया गया था। " (कोचरन, 1954, एगेस्टी, 2002, पीपी 88-89 द्वारा उद्धृत)। दूसरे शब्दों में, एक ऑर्डर किए गए कारक को संख्यात्मक रूप से बनाए गए चर के रूप में मानना एक मॉडलिंग मुद्दा है। बशर्ते यह समझ में आता है, यह केवल परिणाम की व्याख्या करने के तरीके को प्रभावित करेगा, और एक सामान्य चर के लिए सबसे अच्छा प्रतिनिधित्व कैसे चुनना है, इस पर अंगूठे का कोई निश्चित नियम नहीं है।
मातृ शराब की खपत और जन्मजात विकृति की उपस्थिति या अनुपस्थिति (अग्रेंजी, श्रेणीबद्ध डेटा विश्लेषण , तालिका 3.7 p.89) पर निम्नलिखित उदाहरण पर विचार करें :
0 <1 1-2 3-5 6+
Absent 17066 14464 788 126 37
Present 48 38 5 1 1
इस विशेष मामले में, हम लॉजिस्टिक रिग्रेशन या सिंपल एसोसिएशन टेबल का उपयोग करके परिणाम को मॉडल कर सकते हैं। आर में करते हैं:
tab3.7 <- matrix(c(17066,48,14464,38,788,5,126,1,37,1), nr=2,
dimnames=list(c("Absent","Present"),
c("0","<1","1-2","3-5","6+")))
library(vcd)
assocstats(tab3.7)
हमेशा की तरह (12.08, पी = .०,१६,७५१) या एलआर (6.20, पी = .१,८४,५६२) आंकड़ा (4 df के साथ) शराब की खपत में आदेश दिया स्तरों के लिए खाते में नहीं है।
समान रूप से स्थानिक अंकों के साथ दोनों चरों के अध्यादेश को मानते हुए (इसका बाइनरी चर के लिए कोई प्रभाव नहीं है, जैसे कि खराबी, और हम आधार रेखा को 0 = अनुपस्थित के रूप में चुनते हैं), हम रेखीय संघ द्वारा रैखिक के लिए परीक्षण कर सकते हैं। आइए सबसे पहले इस आकस्मिक तालिका के एक विस्फोटित संस्करण का निर्माण करें:
library(reshape)
tab3.7.df <- untable(data.frame(malform=gl(2,1,10,labels=0:1),
alcohol=gl(5,2,10,labels=colnames(tab3.7))),
c(tab3.7))
# xtabs(~malform+alcohol, tab3.7.df) # check
तब हम एक रेखीय संघ का उपयोग करके परीक्षण कर सकते हैं
library(coin)
#lbl_test(as.table(tab3.7))
lbl_test(malform ~ alcohol, data=tab3.7.df)
cor(sapply(tab3.7.df, as.numeric))[1,2]^2*(32574-1)
जैसा कि देखा जा सकता है, दो चर के बीच एक स्पष्ट जुड़ाव के ज्यादा सबूत नहीं हैं। एग्रेस्टी द्वारा किए गए अनुसार, यदि हम अल्कोहल के स्तर को {0,0.5,1.5,4,7,7} के रूप में फिर से चुनना चाहते हैं, जो कि अंतिम अंक के लिए मध्य-श्रेणी के मानों का उपयोग कर रहा है, जिसमें अंतिम स्कोर कुछ हद तक विशुद्ध रूप से मनमाना है, तो हम समाप्त कर देंगे। जन्मजात विकृति के विकास पर मातृ शराब की खपत का एक बड़ा प्रभाव:
lbl_test(malform ~ alcohol, data=tab3.7.df,
scores=list(alcohol=c(0,0.5,1.5,4,7)))
0.01037 के जुड़े पी-मूल्य के साथ 6.57 के एक परीक्षण सांख्यिकीय उपज।
जीएलएम दृष्टिकोण का उपयोग करते हुए, हम निम्नानुसार आगे बढ़ेंगे। लेकिन पहले जांचें कि आर में अल्कोहल को कैसे एनकोड किया गया है:
class(tab3.7.df$alcohol)
यह एक सरल अव्यवस्थित कारक ( "factor"
) है, इसलिए एक मामूली भविष्यवक्ता है। अब, यहाँ तीन मॉडल हैं जिन्हें हम अल्कोहल को नाममात्र, क्रमिक या निरंतर भविष्यवक्ता मानते हैं।
summary(mod1 <- glm(malform ~ alcohol, data=tab3.7.df,
family=binomial))
summary(mod2 <- glm(malform ~ ordered(alcohol), data=tab3.7.df,
family=binomial))
summary(mod3 <- glm(malform ~ as.numeric(alcohol), data=tab3.7.df,
family=binomial))
। वाल्ड परीक्षण सामान्य 5% के स्तर पर महत्वपूर्ण नहीं है। इस मामले में, डिज़ाइन मैट्रिक्स में केवल 2 कॉलम शामिल हैं: पहला इंटरसेप्ट के लिए 1 का एक स्थिर कॉलम है, दूसरा भविष्यवक्ता के लिए संख्यात्मक मान (1 से 5) है, जैसा कि एक साधारण रेखीय प्रतिगमन में है। संक्षेप में, यह मॉडल परिणाम पर (लॉगिट पैमाने पर) अल्कोहल के रैखिक प्रभाव के लिए परीक्षण करता है।
हालांकि, दो अन्य मामलों में ( mod1
और mod2
), हम अलग-अलग आउटपुट प्राप्त करते हैं, क्योंकि भविष्यवाणियों को मॉडल करने के लिए उपयोग किए गए डिज़ाइन मैट्रिक्स को अलग-अलग किया जाता है, जैसा कि उपयोग करके जांच की जा सकती है:
model.matrix(mod1)
model.matrix(mod2)
mod1
mod2
mod1
mod2
आप अल्कोहल को नए स्कोर प्रदान करने का प्रयास कर सकते हैं और देख सकते हैं कि यह एक विकृति की अनुमानित संभावना को कैसे प्रभावित करेगा।
यदि स्तर सामान्य हैं, तो लॉगजीआई (या ओएलएस) प्रतिगमन मॉडल में एक श्रेणीबद्ध भविष्यवक्ता का उपयोग करना पूरी तरह से ठीक है। लेकिन अगर आपके पास प्रत्येक स्तर को असतत मानने का कारण है (या यदि वास्तव में आपका श्रेणीगत चर क्रमिक की बजाय नाममात्र है), तो, डमी कोडिंग के विकल्प के रूप में, आप ऑर्थोगोनल कंट्रास्ट कोडिंग का भी उपयोग कर सकते हैं। बहुत पूर्ण और सुलभ चर्चा के लिए, जूड, सीएम, मैक्लेलैंड, जीएच और रयान, सीएस डेटा विश्लेषण देखें: एक मॉडल तुलना दृष्टिकोण, एडन। 2। (रूटलेज / टेलर और फ्रांसिस, न्यूयॉर्क, एनवाई; 2008), या सिर्फ Google "कंट्रास्ट कोडिंग"