मेरे पास नाममात्र चर (वार्तालाप के विभिन्न विषय, विषय 0 के रूप में कोडित = 0 आदि) और कई पैमाने चर (डीवी) जैसे कि एक वार्तालाप की लंबाई है।
मैं नाममात्र और स्केल चर के बीच सहसंबंध कैसे प्राप्त कर सकता हूं?
मेरे पास नाममात्र चर (वार्तालाप के विभिन्न विषय, विषय 0 के रूप में कोडित = 0 आदि) और कई पैमाने चर (डीवी) जैसे कि एक वार्तालाप की लंबाई है।
मैं नाममात्र और स्केल चर के बीच सहसंबंध कैसे प्राप्त कर सकता हूं?
जवाबों:
इस प्रश्न का शीर्षक एक मूलभूत गलतफहमी है। सहसंबंध का सबसे बुनियादी विचार है "जैसा कि एक चर बढ़ता है, क्या दूसरा चर बढ़ता है (सकारात्मक सहसंबंध), घटता है (नकारात्मक सहसंबंध), या समान (कोई सहसंबंध नहीं)" इस तरह के पैमाने के साथ पूर्ण सकारात्मक सहसंबंध है +1। कोई सहसंबंध 0 नहीं है, और सही नकारात्मक सहसंबंध -1 है। "पूर्ण" का अर्थ इस बात पर निर्भर करता है कि सहसंबंध के किस उपाय का उपयोग किया जाता है: पियर्सन सहसंबंध के लिए इसका मतलब है कि एक बिखरे हुए भूखंड पर बिंदु एक सीधी रेखा पर सीधे झूठ बोलते हैं (-1 के लिए ऊपर की तरफ और -1 के लिए नीचे की ओर), स्पीयर सहसंबंध के लिए कि रैंक्स बिल्कुल सहमत हैं (या बिल्कुल असहमत हैं, इसलिए पहले को अंतिम के साथ जोड़ा जाता है, -1 के लिए), और केंडल के ताऊ के लिएटिप्पणियों के सभी जोड़े में समवर्ती रैंक (या -1 के लिए कलह) है। यह कैसे व्यवहार में काम करता है के लिए एक अंतर्ज्ञान निम्नलिखित तितर बितर भूखंडों के लिए पियर्सन सहसंबंधों से चमकाया जा सकता है ( छवि क्रेडिट :
आगे की जानकारी अंसकोम्ब की चौकड़ी पर विचार करने से मिलती है, जहाँ सभी चार डेटा सेटों में पियर्सन सहसंबंध +0.816 है, भले ही वे "अलग-अलग तरीकों से छवि को बढ़ाते हैं , जैसे कि" बढ़ता है, बढ़ता है "( छवि क्रेडिट ):य
यदि आपका स्वतंत्र चर नाममात्र है, तो " बढ़ने पर" क्या होता है, इसके बारे में बात करने का कोई मतलब नहीं है । आपके मामले में, "बातचीत का विषय" में एक संख्यात्मक मूल्य नहीं है जो ऊपर और नीचे जा सकता है। इसलिए आप "बातचीत की अवधि" के साथ "बातचीत के विषय" को सहसंबंधित नहीं कर सकते। लेकिन जैसा कि @ttnphns ने टिप्पणियों में लिखा है, वहाँ संघ की ताकत के उपाय हैं जो आप उपयोग कर सकते हैं जो कुछ हद तक अनुरूप हैं। यहाँ कुछ नकली डेटा और साथ आर कोड है:
data.df <- data.frame(
topic = c(rep(c("Gossip", "Sports", "Weather"), each = 4)),
duration = c(6:9, 2:5, 4:7)
)
print(data.df)
boxplot(duration ~ topic, data = data.df, ylab = "Duration of conversation")
जो देता है:
> print(data.df)
topic duration
1 Gossip 6
2 Gossip 7
3 Gossip 8
4 Gossip 9
5 Sports 2
6 Sports 3
7 Sports 4
8 Sports 5
9 Weather 4
10 Weather 5
11 Weather 6
12 Weather 7
"टॉपिक" के लिए संदर्भ स्तर के रूप में "गॉसिप" का उपयोग करके, और "स्पोर्ट्स" और "वेदर" के लिए द्विआधारी डमी चर को परिभाषित करके , हम कई प्रतिगमन कर सकते हैं।
> model.lm <- lm(duration ~ topic, data = data.df)
> summary(model.lm)
Call:
lm(formula = duration ~ topic, data = data.df)
Residuals:
Min 1Q Median 3Q Max
-1.50 -0.75 0.00 0.75 1.50
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.5000 0.6455 11.619 1.01e-06 ***
topicSports -4.0000 0.9129 -4.382 0.00177 **
topicWeather -2.0000 0.9129 -2.191 0.05617 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.291 on 9 degrees of freedom
Multiple R-squared: 0.6809, Adjusted R-squared: 0.6099
F-statistic: 9.6 on 2 and 9 DF, p-value: 0.005861
हम अनुमानित अवरोधन की व्याख्या 7.5 मिनट के रूप में गपशप बातचीत की अवधि के रूप में कर सकते हैं, और डमी चरों के लिए अनुमानित गुणांक खेल बातचीत दिखाते हुए औसतन 4 मिनट गॉसिप वाले लोगों की तुलना में कम थे, जबकि मौसम की बातचीत गॉसिप की तुलना में 2 मिनट कम थी। आउटपुट का हिस्सा निर्धारण के गुणांक । इसकी एक व्याख्या यह है कि हमारा मॉडल वार्तालाप अवधि में 68% विचरण की व्याख्या करता है। की एक और व्याख्या यह है कि वर्गाकार-रूटिंग द्वारा, हम बहु सहसंबंध गुणांक पा सकते हैं ।आर 2 आर
> rsq <- summary(model.lm)$r.squared
> rsq
[1] 0.6808511
> sqrt(rsq)
[1] 0.825137
ध्यान दें कि 0.825 अवधि और विषय के बीच संबंध नहीं है - हम उन दो चर को सहसंबंधित नहीं कर सकते क्योंकि टॉपिक नाममात्र है। यह वास्तव में जो प्रतिनिधित्व करता है वह हमारे द्वारा प्रतिपादित प्रेक्षणों , और पूर्वानुमानित (सज्जित) के बीच सहसंबंध है । ये दोनों चर संख्यात्मक हैं इसलिए हम उन्हें सहसंबंधित करने में सक्षम हैं। वास्तव में फिट किए गए मान प्रत्येक समूह के लिए औसत अवधि हैं:
> print(model.lm$fitted)
1 2 3 4 5 6 7 8 9 10 11 12
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5
बस जांच करने के लिए, मनाया और सज्जित मूल्यों के बीच पियर्सन सहसंबंध है:
> cor(data.df$duration, model.lm$fitted)
[1] 0.825137
हम एक बिखरे हुए भूखंड पर इसकी कल्पना कर सकते हैं:
plot(x = model.lm$fitted, y = data.df$duration,
xlab = "Fitted duration", ylab = "Observed duration")
abline(lm(data.df$duration ~ model.lm$fitted), col="red")
इस संबंध की शक्ति नेत्रहीन एंस्कॉम्बे के चौकड़ी भूखंडों के समान है, जो कि आश्चर्यजनक है, क्योंकि इन सभी में पियरसन के संबंध 0.82 थे।
आपको आश्चर्य हो सकता है कि एक स्पष्ट स्वतंत्र चर के साथ, मैंने एक-तरफ़ा एनोवा के बजाय एक (एकाधिक) प्रतिगमन करने का विकल्प चुना । लेकिन वास्तव में यह एक समरूप दृष्टिकोण है।
library(heplots) # for eta
model.aov <- aov(duration ~ topic, data = data.df)
summary(model.aov)
यह समान एफ आंकड़ा और साथ एक सारांश देता पी -value:
Df Sum Sq Mean Sq F value Pr(>F)
topic 2 32 16.000 9.6 0.00586 **
Residuals 9 15 1.667
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
फिर से, एनोवा मॉडल समूह फिट बैठता है, जैसा कि प्रतिगमन ने किया था:
> print(model.aov$fitted)
1 2 3 4 5 6 7 8 9 10 11 12
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5
इसका मतलब यह है कि आश्रित चर के फिट और देखे गए मानों के बीच संबंध वैसा ही है जैसा कि कई प्रतिगमन मॉडल के लिए था। एकाधिक प्रतिगमन के लिए "विचरण के अनुपात को समझाया गया" माप ANOVA समतुल्य, (eta squared) है। हम देख सकते हैं कि वे मेल खाते हैं।η 2
> etasq(model.aov, partial = FALSE)
eta^2
topic 0.6808511
Residuals NA
इस अर्थ में, नाममात्र व्याख्यात्मक चर और निरंतर प्रतिक्रिया के बीच एक "सहसंबंध" का निकटतम एनालॉग , का वर्गमूल होगा , जो प्रतिगमन के लिए कई सहसंबंध गुणांक के बराबर है । यह इस टिप्पणी को स्पष्ट करता है कि "नाममात्र (IV के रूप में लिया गया) और एक पैमाना (DV के रूप में लिया गया) चर के बीच संबंध / सहसंबंध का सबसे प्राकृतिक उपाय है"। यदि आप स्पष्ट रूप से समझाए गए विचरण के अनुपात में अधिक रुचि रखते हैं , तो आप एटा वर्ग (या इसके प्रतिगमन बराबर ) के साथ चिपक सकते हैं । एनोवा के लिए, एक अक्सर आंशिक रूप से आता हैη 2 आर आर 2एटा वर्ग। चूंकि यह एनोवा वन-वे था (केवल एक श्रेणीबद्ध भविष्यवक्ता था), आंशिक एटा वर्ग एटा वर्ग के समान है, लेकिन मॉडल में अधिक पूर्वानुमान वाले चीजें बदल जाती हैं।
> etasq(model.aov, partial = TRUE)
Partial eta^2
topic 0.6808511
Residuals NA
हालांकि यह बहुत संभव है कि न तो "सहसंबंध" और न ही "अनुपात के अनुपात में समझाया गया" प्रभाव के आकार का माप है जिसे आप उपयोग करना चाहते हैं। उदाहरण के लिए, आपका ध्यान समूहों के बीच अंतर करने के तरीकों पर अधिक झूठ बोल सकता है। इस सवाल और जवाब में एटा वर्ग, आंशिक एटा वर्ग, और विभिन्न विकल्पों पर अधिक जानकारी है।