अनियंत्रित श्रेणीबद्ध चर के साथ सहसंबंध


123

मेरे पास कई अवलोकन और कई चर के साथ एक डेटाफ्रेम है। उनमें से कुछ श्रेणीबद्ध (अव्यक्त) हैं और अन्य संख्यात्मक हैं।

मैं इन चरों के बीच संघों की तलाश कर रहा हूं। मैं संख्यात्मक चर (स्पीयरमैन के सहसंबंध) के लिए सहसंबंध की गणना करने में सक्षम हूं लेकिन:

  • मैं नहीं जानता कि कैसे अनियंत्रित श्रेणीबद्ध चर के बीच सहसंबंध को मापना है।
  • मैं नहीं जानता कि कैसे अनियंत्रित श्रेणीबद्ध चर और संख्यात्मक चर के बीच सहसंबंध को मापना है।

क्या किसी को पता है कि यह कैसे किया जा सकता है? यदि हां, तो क्या इन विधियों को लागू करने वाले आर कार्य हैं?


जवाबों:


113

यह निर्भर करता है कि आप किस संबंध में चाहते हैं। जब आप प्रोटोटाइप पियर्सन के उत्पाद क्षण सहसंबंध को चलाते हैं, तो आपको एसोसिएशन की ताकत का माप मिलता है और आपको उस एसोसिएशन के महत्व का परीक्षण मिलता है। आमतौर पर हालांकि, महत्व परीक्षण और प्रभाव आकार का माप भिन्न होता है।

महत्व परीक्षण:

प्रभाव आकार (संघ की ताकत):


5
निरंतर बनाम नाममात्र मामले का एक बहुत गहन विवरण यहां पाया जा सकता है: नाममात्र (IV) और एक सतत (DV) चर के बीच सहसंबंध
गंग

3
द्विआधारी बनाम अंतराल मामले में बिंदु-द्विभाषी सहसंबंध है
ग्लेन_ बी

बड़े नमूनों के लिए ची-स्क्वेर्ड टेस्ट से बेहतर विकल्प क्या होगा?
वाल्डिर लियोनसियो

2
पी<.055%

1
जैसा कि @gung ने बताया, नाममात्र (IV) और एक सतत (DV) चर के बीच सहसंबंध मिश्रित चर के लिए सहसंबंध कैसे हो सकता है, इसके लिए एक उत्कृष्ट लिंक है। Hmisc::rcorrयह खूबसूरती से करता है और हम इसे (एक मिश्रित चर डेटाफ्रेम के लिए) निम्नानुसार जांच सकते हैं:as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P) as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)
कार्तिक्स

15

मैंने पहले दिए गए निम्नलिखित चीटशीट को देखा है:

https://stats.idre.ucla.edu/other/mult-pkg/whatstat/

यह आपके लिए उपयोगी हो सकता है। यहां तक ​​कि यह विशिष्ट आर पुस्तकालयों के लिए लिंक है।


3
इस धोखाधड़ी के साथ मुद्दा यह है कि यह केवल श्रेणीबद्ध / क्रमिक / अंतराल चर की चिंता करता है। मैं जो देख रहा हूं वह एक विधि है जो मुझे संख्यात्मक और श्रेणीबद्ध स्वतंत्र चर दोनों का उपयोग करने की अनुमति देता है।
Clément F

6

यदि आप श्रेणीबद्ध चर का सहसंबंध मैट्रिक्स चाहते हैं, तो आप निम्न आवरण फ़ंक्शन ('vcd' पैकेज की आवश्यकता) का उपयोग कर सकते हैं:

catcorrm <- function(vars, dat) sapply(vars, function(y) sapply(vars, function(x) assocstats(table(dat[,x], dat[,y]))$cramer))

कहाँ पे:

vars श्रेणीबद्ध चर का एक स्ट्रिंग वेक्टर है जिसे आप सहसंबंधित करना चाहते हैं

dat वैरिएबल युक्त डेटाफ़्रेम है

परिणाम Cramer's V का एक मैट्रिक्स है।


6

एक्सटीमैंमैं=1,...,पीएक्सटीमैंआर2

इस तरह के विश्लेषण को कई पत्राचार विश्लेषण के सामान्यीकरण के रूप में देखा जा सकता है, और इसे कई नामों के तहत जाना जाता है, जैसे कि विहित सहसंबंध विश्लेषण, समरूपता विश्लेषण और कई अन्य। R में एक कार्यान्वयन homalsपैकेज (CRAN पर) में है। इस नाम में से कुछ के लिए googling जानकारी का खजाना देगा, एक पूरी किताब है: अल्बर्ट गिफी, "नॉनलाइनियर मल्टीवेरेट एनालिसिस"। सौभाग्य!


1
1

मैं इस टिप्पणी को ध्यान में रखते हुए संपादित करूंगा।
kjetil b halvorsen

2

मुझे इसी तरह की समस्या थी और मैंने सुझाव के रूप में ची-स्क्वेर-टेस्ट की कोशिश की, लेकिन NULL परिकल्पना के खिलाफ P-Values ​​का आकलन करने में मुझे बहुत उलझन हुई।

मैं समझाऊंगा कि कैसे मैंने श्रेणीबद्ध चर की व्याख्या की। मुझे यकीन नहीं है कि यह आपके मामले में कितना प्रासंगिक है। मेरे पास रिस्पांस वेरिएबल वाई और दो प्रीडिक्टर वेरिएबल्स एक्स 1 और एक्स 2 हैं जहां एक्स 2 दो स्तरों के साथ एक श्रेणीगत चर है 1 और 2 कहते हैं। मैं एक रैखिक मॉडल को फिट करने की कोशिश कर रहा था

ols = lm(Y ~ X1 + X2, data=mydata)

लेकिन मैं यह समझना चाहता था कि X2 का विभिन्न स्तर उपरोक्त समीकरण के अनुसार कैसे फिट बैठता है। मैं एक आर फ़ंक्शन द्वारा आया था ()

by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))

यह कोड क्या करता है, यह X2 के प्रत्येक स्तर के लिए रैखिक मॉडल में फिट होने की कोशिश कर रहा है। इसने मुझे सभी पी-मूल्य और आर-स्क्वायर, अवशिष्ट मानक त्रुटि दी, जिसे मैं समझता हूं और व्याख्या कर सकता हूं।

फिर से मुझे यकीन नहीं है कि यह वही है जो आप चाहते हैं। मैं Y की भविष्यवाणी करने में X2 के विभिन्न मूल्यों की तुलना करता हूं।


1

दो स्पष्ट चर के बीच लिंक की ताकत को मापने के लिए, मैं चिसकरे स्टेट के साथ एक क्रॉस टैब के उपयोग का सुझाव दूंगा

एक संख्यात्मक और एक श्रेणीगत चर के बीच लिंक की ताकत को मापने के लिए आप यह देखने के लिए कि क्या यह एक श्रेणी से दूसरे में अलग-अलग रूप में बदल सकता है, एक मतलब तुलना का उपयोग कर सकता है


2
साइट पर आपका स्वागत है, @DaSilvaLionel। आप देख सकते हैं कि ची-स्क्वेर्ड टेस्ट का उपयोग दो श्रेणीगत चर के साथ पहले ही ऊपर किया जा चुका है।
गंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.