वाई और एक्स के सहसंबंध के लिए समझाया गया विचरण में लाभ कैसे प्रस्तुत करें?


11

मैं खोज कर रहा हूं कि (नेत्रहीन) प्रथम वर्ष के छात्रों को सरल रेखीय सहसंबंध कैसे समझाएं।

कल्पना करने का शास्त्रीय तरीका एक सीधा प्रतिगमन लाइन के साथ वाई ~ एक्स स्कैटर प्लॉट देना होगा।

हाल ही में, मुझे इस तरह के ग्राफिक्स को प्लॉट 3 और छवियों से जोड़कर, मुझे छोड़कर जाने का विचार आया: y ~ 1 का तितर बितर प्लॉट, फिर y ~ x, रेसिडेंस (y ~ x) ~ x और अंत में अवशिष्टों (y ~ x) ~ 1 (माध्य पर केंद्रित)

यहाँ इस तरह के एक दृश्य का एक उदाहरण है: वैकल्पिक शब्द

और इसका उत्पादन करने के लिए आर कोड:

set.seed(345)
x <- runif(50) * 10
y <- x +rnorm(50)


layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10))
plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)
plot(y~x, ylab = "", )
abline(lm(y~x), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~x, ylab = "", ylim = range(y))
abline(h =mean(y), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~rep(1, length(y)), axes = F, xlab = "", ylab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)

जो मुझे अपने प्रश्न की ओर ले जाता है: मैं इस सुझाव पर सराहना करूँगा कि इस ग्राफ़ को कैसे बढ़ाया जा सकता है (या तो पाठ, अंक, या किसी अन्य प्रकार के प्रासंगिक विज़ुअलाइज़ेशन के साथ)। प्रासंगिक R कोड जोड़ना भी अच्छा होगा।

एक दिशा आर ^ 2 की कुछ जानकारी जोड़ना है (या तो पाठ द्वारा, या किसी तरह एक्स की शुरूआत से पहले और बाद में विचरण की परिमाण को प्रस्तुत करने वाली रेखाओं को जोड़कर) एक और विकल्प एक बिंदु को उजागर करना है और यह दिखाना है कि यह कैसे "बेहतर है" समझाया "प्रतिगमन लाइन के लिए धन्यवाद। किसी भी इनपुट को सराहा जाएगा।


1
उसी समय आप दिखा रहे हैं कि रेखीय प्रतिगमन कितना अच्छा हो सकता है, कृपया अपने दर्शकों को यह भी दिखाएं कि यह उन स्थितियों में कैसे विफल होता है जहां रिश्तों को अच्छी तरह से सीधी रेखाओं द्वारा वर्णित नहीं किया जाता है:require(mlbench) ; cor( mlbench.smiley()$x ); plot(mlbench.smiley()$x)
डीडिन

Dwin करेंगे ... :-)
ताल गैली

जवाबों:


4

यहां कुछ सुझाव दिए गए हैं (आपके प्लॉट के बारे में, न कि मैं सहसंबंध / प्रतिगमन विश्लेषण का वर्णन कैसे करूंगा):

  • आपके द्वारा दाएं और बाएं हाशिये पर दिखाए गए दो अनवेरिडेट प्लॉट को कॉल के साथ सरलीकृत किया जा सकता है rug();
  • मुझे - या एक बॉक्सप्लेट का घनत्व प्लॉट दिखाने के लिए अधिक जानकारीपूर्ण लगता है , एक द्वि-सामान्यता धारणा के विचार के उत्तेजक होने का जोखिम है जो इस संदर्भ में कोई मतलब नहीं है;वाईXY
  • प्रतिगमन रेखा के अलावा, यह चलन के एक गैर-पैरामीट्रिक अनुमान को दर्शाने के लायक है, जैसे कि एक लोटे (यह अच्छा अभ्यास है और संभावित स्थानीय गैर रेखीय के बारे में अत्यधिक जानकारीपूर्ण है);
  • लीवरेज प्रभाव या कुक डिस्टेंस के अनुसार पॉइंट्स (अलग-अलग रंग या आकार के साथ) हाइलाइट किए जा सकते हैं, अर्थात उन उपायों में से कोई भी जो यह दर्शाता है कि अनुमानित रिग्रेशन लाइन पर व्यक्तिगत मूल्य कितने प्रभावशाली हैं। मैं दूसरी बार @ DWin की टिप्पणी करूंगा और मुझे लगता है कि यह उजागर करना बेहतर है कि व्यक्तिगत बिंदु "अच्छा" कैसे फिट होते हैं या रैखिकता धारणा से किसी प्रकार के प्रस्थान को प्रेरित करते हैं।

ध्यान दें, यह ग्राफ़ मानता है कि X और Y गैर-युग्मित डेटा हैं, अन्यथा मैं स्कैल्पलॉट के अलावा एक ब्लैंड-अल्टमैन प्लॉट ( खिलाफ ) से चिपक जाता।( एक्स + वाई ) / 2(XY)(X+Y)/2


1

ठीक आपके प्रश्न का जवाब देने के लिए नहीं है, लेकिन निम्नलिखित एक के आधार पर रैखिक सहसंबंध में से एक संभव ख़तरा visualizing द्वारा दिलचस्प हो सकता है जवाब से stackoveflow :

par(mfrow=c(2,1))

set.seed(1)
x <- rnorm(1000)
y <- rnorm(1000)
plot(y~x, ylab = "", main=paste('1000 random values (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

x <- c(x, 500)
y <- c(y, 500)
cor(x,y)
plot(y~x, ylab = "", main=paste('1000 random values and (500, 500) (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

वैकल्पिक शब्द

@Gavin सिम्पसन और @ बिल_080 के जवाब में एक ही विषय में सहसंबंध के अच्छे भूखंड भी शामिल हैं।


1

मेरे पास दो दो-पैनल प्लॉट होंगे, दोनों में बाईं तरफ xy प्लॉट और दाईं ओर एक हिस्टोग्राम है। पहले कथानक में, एक क्षैतिज रेखा को y के मध्य में रखा जाता है और रेखाएँ इस बिंदु से प्रत्येक बिंदु तक विस्तारित होती हैं, इस बीच से y मानों के अवशिष्टों का प्रतिनिधित्व करती हैं। इसके साथ हिस्टोग्राम बस इन अवशिष्टों को प्लॉट करता है। फिर अगली जोड़ी में, xy प्लॉट में रेखीय फिट का प्रतिनिधित्व करने वाली रेखा होती है और फिर से अवशिष्ट का प्रतिनिधित्व करने वाली ऊर्ध्वाधर रेखाएं होती हैं, जो दाईं ओर एक हिस्टोग्राम में दर्शायी जाती हैं। औसत "फिट" के सापेक्ष रैखिक फिट में निचले मूल्यों पर बदलाव को उजागर करने के लिए हिस्टोग्राम के एक्स अक्ष को स्थिर रखें।


1

मुझे लगता है कि आप जो प्रस्ताव देते हैं वह अच्छा है, लेकिन मैं इसे तीन अलग-अलग उदाहरणों में करूंगा

1) X और Y पूरी तरह से असंबंधित हैं। बस उस कोड से "x" हटा दें जो y (y1 <-rnorm (50)) उत्पन्न करता है।

2) आपके द्वारा पोस्ट किया गया उदाहरण (y2 <- x + rnorm (50))

3) X एक समान चर हैं। बस उस कोड से "rnorm (50)" को हटा दें जो y (y3 <-x) उत्पन्न करता है।

यह अधिक स्पष्ट रूप से दिखाएगा कि कैसे सहसंबंध बढ़ने से अवशिष्टों में परिवर्तनशीलता घट जाती है। आपको बस यह सुनिश्चित करने की आवश्यकता होगी कि ऊर्ध्वाधर धुरी प्रत्येक भूखंड के साथ नहीं बदलती है, जो तब हो सकता है जब आप डिफ़ॉल्ट स्केलिंग का उपयोग कर रहे हों।

तो आप तीन प्लॉटों आर 1 बनाम एक्स, आर 2 बनाम एक्स और आर 3 बनाम एक्स की तुलना कर सकते हैं। मैं क्रमशः y1, y2 और y3 का उपयोग करके फिट से अवशेषों को इंगित करने के लिए "r" का उपयोग कर रहा हूं।

साजिश रचने में मेरे आर कौशल काफी निराशाजनक हैं, इसलिए मैं यहां बहुत मदद की पेशकश नहीं कर सकता।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.