नाममात्र (IV) और एक सतत (DV) चर के बीच संबंध


77

मेरे पास नाममात्र चर (वार्तालाप के विभिन्न विषय, विषय 0 के रूप में कोडित = 0 आदि) और कई पैमाने चर (डीवी) जैसे कि एक वार्तालाप की लंबाई है।

मैं नाममात्र और स्केल चर के बीच सहसंबंध कैसे प्राप्त कर सकता हूं?


3
नाममात्र (IV के रूप में लिया गया) और एक पैमाना (DV के रूप में लिया गया) चर के बीच वर्गीकरण / सहसंबंध का सबसे प्राकृतिक उपाय है एटा।
ttnphns

अगर मैं सही ढंग से समझता हूं कि आप बातचीत के संबंध विषय के बारे में कुछ कहना चाहते हैं (IV के रूप में?) और बातचीत की अवधि (DV)। '' जैसे हाइपो = विषय 1 का अर्थ है विषय 2 की तुलना में काफी छोटी बातचीत '', यदि यह उदाहरण है कि आपका क्या मतलब है: आप इसके लिए एक एनोवा का उपयोग करेंगे (यदि अधिक DV का मैनोवा, या कई एनोवा का) क्या इसका मतलब है? आपके प्रश्न के साथ वाक्य काफी अस्पष्ट है ..
स्टीवन बी। Peutz


जवाबों:


160

इस प्रश्न का शीर्षक एक मूलभूत गलतफहमी है। सहसंबंध का सबसे बुनियादी विचार है "जैसा कि एक चर बढ़ता है, क्या दूसरा चर बढ़ता है (सकारात्मक सहसंबंध), घटता है (नकारात्मक सहसंबंध), या समान (कोई सहसंबंध नहीं)" इस तरह के पैमाने के साथ पूर्ण सकारात्मक सहसंबंध है +1। कोई सहसंबंध 0 नहीं है, और सही नकारात्मक सहसंबंध -1 है। "पूर्ण" का अर्थ इस बात पर निर्भर करता है कि सहसंबंध के किस उपाय का उपयोग किया जाता है: पियर्सन सहसंबंध के लिए इसका मतलब है कि एक बिखरे हुए भूखंड पर बिंदु एक सीधी रेखा पर सीधे झूठ बोलते हैं (-1 के लिए ऊपर की तरफ और -1 के लिए नीचे की ओर), स्पीयर सहसंबंध के लिए कि रैंक्स बिल्कुल सहमत हैं (या बिल्कुल असहमत हैं, इसलिए पहले को अंतिम के साथ जोड़ा जाता है, -1 के लिए), और केंडल के ताऊ के लिएटिप्पणियों के सभी जोड़े में समवर्ती रैंक (या -1 के लिए कलह) है। यह कैसे व्यवहार में काम करता है के लिए एक अंतर्ज्ञान निम्नलिखित तितर बितर भूखंडों के लिए पियर्सन सहसंबंधों से चमकाया जा सकता है ( छवि क्रेडिट :

विभिन्न तितर बितर भूखंडों के लिए पियर्सन सहसंबंध

आगे की जानकारी अंसकोम्ब की चौकड़ी पर विचार करने से मिलती है, जहाँ सभी चार डेटा सेटों में पियर्सन सहसंबंध +0.816 है, भले ही वे "अलग-अलग तरीकों से छवि को बढ़ाते हैं , जैसे कि" बढ़ता है, बढ़ता है "( छवि क्रेडिट ):xy

Anscombe की चौकड़ी के लिए स्कैटर प्लॉट

यदि आपका स्वतंत्र चर नाममात्र है, तो " बढ़ने पर" क्या होता है, इसके बारे में बात करने का कोई मतलब नहीं है । आपके मामले में, "बातचीत का विषय" में एक संख्यात्मक मूल्य नहीं है जो ऊपर और नीचे जा सकता है। इसलिए आप "बातचीत की अवधि" के साथ "बातचीत के विषय" को सहसंबंधित नहीं कर सकते। लेकिन जैसा कि @ttnphns ने टिप्पणियों में लिखा है, वहाँ संघ की ताकत के उपाय हैं जो आप उपयोग कर सकते हैं जो कुछ हद तक अनुरूप हैं। यहाँ कुछ नकली डेटा और साथ आर कोड है:x

data.df <- data.frame(
    topic = c(rep(c("Gossip", "Sports", "Weather"), each = 4)),
    duration  = c(6:9, 2:5, 4:7)
)
print(data.df)
boxplot(duration ~ topic, data = data.df, ylab = "Duration of conversation")

जो देता है:

> print(data.df)
     topic duration
1   Gossip        6
2   Gossip        7
3   Gossip        8
4   Gossip        9
5   Sports        2
6   Sports        3
7   Sports        4
8   Sports        5
9  Weather        4
10 Weather        5
11 Weather        6
12 Weather        7

फर्जी डेटा के लिए बॉक्स प्लॉट

"टॉपिक" के लिए संदर्भ स्तर के रूप में "गॉसिप" का उपयोग करके, और "स्पोर्ट्स" और "वेदर" के लिए द्विआधारी डमी चर को परिभाषित करके , हम कई प्रतिगमन कर सकते हैं।

> model.lm <- lm(duration ~ topic, data = data.df)
> summary(model.lm)

Call:
lm(formula = duration ~ topic, data = data.df)

Residuals:
   Min     1Q Median     3Q    Max 
 -1.50  -0.75   0.00   0.75   1.50 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)    7.5000     0.6455  11.619 1.01e-06 ***
topicSports   -4.0000     0.9129  -4.382  0.00177 ** 
topicWeather  -2.0000     0.9129  -2.191  0.05617 .  
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.291 on 9 degrees of freedom
Multiple R-squared: 0.6809,     Adjusted R-squared: 0.6099 
F-statistic:   9.6 on 2 and 9 DF,  p-value: 0.005861 

हम अनुमानित अवरोधन की व्याख्या 7.5 मिनट के रूप में गपशप बातचीत की अवधि के रूप में कर सकते हैं, और डमी चरों के लिए अनुमानित गुणांक खेल बातचीत दिखाते हुए औसतन 4 मिनट गॉसिप वाले लोगों की तुलना में कम थे, जबकि मौसम की बातचीत गॉसिप की तुलना में 2 मिनट कम थी। आउटपुट का हिस्सा निर्धारण के गुणांक । इसकी एक व्याख्या यह है कि हमारा मॉडल वार्तालाप अवधि में 68% विचरण की व्याख्या करता है। की एक और व्याख्या यह है कि वर्गाकार-रूटिंग द्वारा, हम बहु सहसंबंध गुणांक पा सकते हैं ।आर 2 आरR2=0.6809R2R

> rsq <- summary(model.lm)$r.squared
> rsq
[1] 0.6808511
> sqrt(rsq)
[1] 0.825137

ध्यान दें कि 0.825 अवधि और विषय के बीच संबंध नहीं है - हम उन दो चर को सहसंबंधित नहीं कर सकते क्योंकि टॉपिक नाममात्र है। यह वास्तव में जो प्रतिनिधित्व करता है वह हमारे द्वारा प्रतिपादित प्रेक्षणों , और पूर्वानुमानित (सज्जित) के बीच सहसंबंध है । ये दोनों चर संख्यात्मक हैं इसलिए हम उन्हें सहसंबंधित करने में सक्षम हैं। वास्तव में फिट किए गए मान प्रत्येक समूह के लिए औसत अवधि हैं:

> print(model.lm$fitted)
  1   2   3   4   5   6   7   8   9  10  11  12 
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5 

बस जांच करने के लिए, मनाया और सज्जित मूल्यों के बीच पियर्सन सहसंबंध है:

> cor(data.df$duration, model.lm$fitted)
[1] 0.825137

हम एक बिखरे हुए भूखंड पर इसकी कल्पना कर सकते हैं:

plot(x = model.lm$fitted, y = data.df$duration,
     xlab = "Fitted duration", ylab = "Observed duration")
abline(lm(data.df$duration ~ model.lm$fitted), col="red")

मनाया और सज्जित मूल्यों के बीच कई सहसंबंध गुणांक की कल्पना करें

इस संबंध की शक्ति नेत्रहीन एंस्कॉम्बे के चौकड़ी भूखंडों के समान है, जो कि आश्चर्यजनक है, क्योंकि इन सभी में पियरसन के संबंध 0.82 थे।

आपको आश्चर्य हो सकता है कि एक स्पष्ट स्वतंत्र चर के साथ, मैंने एक-तरफ़ा एनोवा के बजाय एक (एकाधिक) प्रतिगमन करने का विकल्प चुना । लेकिन वास्तव में यह एक समरूप दृष्टिकोण है।

library(heplots) # for eta
model.aov <- aov(duration ~ topic, data = data.df)
summary(model.aov)

यह समान एफ आंकड़ा और साथ एक सारांश देता पी -value:

            Df Sum Sq Mean Sq F value  Pr(>F)   
topic        2     32  16.000     9.6 0.00586 **
Residuals    9     15   1.667                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

फिर से, एनोवा मॉडल समूह फिट बैठता है, जैसा कि प्रतिगमन ने किया था:

> print(model.aov$fitted)
  1   2   3   4   5   6   7   8   9  10  11  12 
7.5 7.5 7.5 7.5 3.5 3.5 3.5 3.5 5.5 5.5 5.5 5.5 

इसका मतलब यह है कि आश्रित चर के फिट और देखे गए मानों के बीच संबंध वैसा ही है जैसा कि कई प्रतिगमन मॉडल के लिए था। एकाधिक प्रतिगमन के लिए "विचरण के अनुपात को समझाया गया" माप ANOVA समतुल्य, (eta squared) है। हम देख सकते हैं कि वे मेल खाते हैं।η 2R2η2

> etasq(model.aov, partial = FALSE)
              eta^2
topic     0.6808511
Residuals        NA

इस अर्थ में, नाममात्र व्याख्यात्मक चर और निरंतर प्रतिक्रिया के बीच एक "सहसंबंध" का निकटतम एनालॉग , का वर्गमूल होगा , जो प्रतिगमन के लिए कई सहसंबंध गुणांक के बराबर है । यह इस टिप्पणी को स्पष्ट करता है कि "नाममात्र (IV के रूप में लिया गया) और एक पैमाना (DV के रूप में लिया गया) चर के बीच संबंध / सहसंबंध का सबसे प्राकृतिक उपाय है"। यदि आप स्पष्ट रूप से समझाए गए विचरण के अनुपात में अधिक रुचि रखते हैं , तो आप एटा वर्ग (या इसके प्रतिगमन बराबर ) के साथ चिपक सकते हैं । एनोवा के लिए, एक अक्सर आंशिक रूप से आता हैη 2 आर आर 2ηη2RR2एटा वर्ग। चूंकि यह एनोवा वन-वे था (केवल एक श्रेणीबद्ध भविष्यवक्ता था), आंशिक एटा वर्ग एटा वर्ग के समान है, लेकिन मॉडल में अधिक पूर्वानुमान वाले चीजें बदल जाती हैं।

> etasq(model.aov, partial = TRUE)
          Partial eta^2
topic         0.6808511
Residuals            NA

हालांकि यह बहुत संभव है कि न तो "सहसंबंध" और न ही "अनुपात के अनुपात में समझाया गया" प्रभाव के आकार का माप है जिसे आप उपयोग करना चाहते हैं। उदाहरण के लिए, आपका ध्यान समूहों के बीच अंतर करने के तरीकों पर अधिक झूठ बोल सकता है। इस सवाल और जवाब में एटा वर्ग, आंशिक एटा वर्ग, और विभिन्न विकल्पों पर अधिक जानकारी है।


4
@ ज़ुर्बर्ब हार्ड पार्ट को फर्जी डेटा के लिए मिल रहा था ...R0.82
सिल्वरफ़िश

एक बहुत अच्छी तरह से समझाया जवाब के लिए +1! यहां आप तर्क देते हैं कि या का चिन्ह हमेशा सकारात्मक होता है, क्योंकि निश्चित रूप से किसी भी शालीनता से फिट मॉडल का परिणाम सकारात्मक रूप से (नकारात्मक के बजाय) DV के साथ संबद्ध होगा। शायद मैं जोड़ सकता हूं कि कुछ मामलों में संकेत को सार्थक रूप से को सौंपा जा सकता है , उदाहरण के लिए यदि IV का आदेश दिया गया है (मेरा मानना ​​है कि इसे "नाममात्र" के बजाय "क्रमिक" कहा जाता है), या कम से कम आंशिक रूप से आदेश दिया गया है। कल्पना कीजिए कि ओपी में कला से लेकर गणित तक के विषय हैं; तब हम nerdiness और DV के बीच सहसंबंध के संकेत का उपयोग कर सकते हैं और इसे को असाइन कर सकते हैं । आर η ηηRηη
अमीबा

@ यामोइबा हियरिन मुझे लगता है कि एक सूक्ष्म बिंदु है। मान लीजिए कि हम एक सरल रेखीय प्रतिगमन चलाते हैं और PMCC प्राप्त करते हैं - तो जैसे-जैसे x बढ़ता है, y घटता जाता है (यह आप जिस तरह के दिशात्मक प्रभाव के बारे में बात कर रहे हैं)। फिर भी इस तरह के एक प्रतिगमन के लिए कई सहसंबंध गुणांक अभी भी (जैसा कि y का फिट मूल्य बढ़ता है, मनाया मूल्य में वृद्धि होती है)। अब अधिक की तरह है से ...आर = 0.9 η आर आरr=0.9R=0.9ηRr
silverfish

यह सही है, लेकिन मुझे लगता है कि मैं जो कह रहा हूं वह यह है कि कभी-कभी यह "हस्ताक्षरित " पर विचार करने के लिए समझ में आता है जो की तरह तुलना में अधिक है । आर आरηrR
अमीबा

@amoeba, तो आप सिर्फ गुणा कर सकता द्वारा , लेकिन यह वास्तव में एक नया उपाय है कि आप हर बार समझाने के लिए होगा पैदा कर रही है, और मैं नहीं दिख रहा है कि कैसे यह वास्तव में आप के लिए कुछ भी सार्थक किया है । -1eta21
गंग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.