सहसंबंध और सरल रेखीय प्रतिगमन में क्या अंतर है?


99

विशेष रूप से, मैं पियरसन उत्पाद-पल सहसंबंध गुणांक का उल्लेख कर रहा हूं।


7
ध्यान दें कि प्रतिगमन और सहसंबंध के बीच संबंध पर एक परिप्रेक्ष्य को मेरे उत्तर से यहां समझा जा सकता है: y के साथ x बनाम x के साथ y पर रैखिक प्रतिगमन करने में क्या अंतर है?
गंग

जवाबों:


114

और Y के बीच सहसंबंध और X से Y की भविष्यवाणी करने वाले एक रेखीय प्रतिगमन में क्या अंतर है ?XYYX

सबसे पहले, कुछ समानताएँ :

  • मानकीकृत प्रतिगमन गुणांक पियर्सन के सहसंबंध गुणांक के समान है
  • पियर्सन के सहसंबंध गुणांक का वर्ग के समान हैR2
  • XY

दूसरा, कुछ अंतर :

  • a+bXYX
  • जबकि सहसंबंध आमतौर पर रैखिक संबंध को संदर्भित करता है, यह निर्भरता के अन्य रूपों को संदर्भित कर सकता है, जैसे बहुपद या सही मायने में रिश्तों को
  • जबकि सहसंबंध आमतौर पर पियर्सन के सहसंबंध गुणांक को संदर्भित करता है, वहाँ अन्य प्रकार के सहसंबंध हैं, जैसे कि स्पैनमैन।

हाय जेरेमी, आपकी व्याख्या के लिए धन्यवाद, लेकिन मेरे मन में अभी भी एक सवाल है: क्या होगा अगर मुझे भविष्यवाणियां करने की ज़रूरत नहीं है और सिर्फ यह जानना चाहता हूं कि दो चर कितने करीब हैं और किस दिशा / शक्ति में हैं? क्या इन दोनों तकनीकों का उपयोग करने के लिए अभी भी एक अलग है?
yue86231

3
@ yue86231 तो यह लगता है कि सहसंबंध का एक उपाय अधिक उपयुक्त होगा।
जेरोमी एंग्लिम

5
(+1) समानताओं के लिए परिकल्पना "सहसंबंध = 0" के उस मानक परीक्षण को जोड़ना उपयोगी हो सकता है या, इसके विपरीत, "ढलान = 0" (या तो क्रम में प्रतिगमन के लिए), जैसे कि द्वारा lmऔर cor.testमें किया गया R। समान पी-वैल्यू देगा।
whuber

3
मैं मानता हूँ कि @whuber से सुझाव जोड़ा जाना चाहिए, लेकिन एक बहुत ही बुनियादी स्तर पर मुझे लगता है कि उनका कहना है कि लायक है पर हस्ताक्षर प्रतिगमन ढलान के और सहसंबंध गुणांक बराबर हैं। यह शायद पहली चीजों में से एक है जो ज्यादातर लोग सहसंबंध और "सर्वश्रेष्ठ फिट की रेखा" के बीच संबंध के बारे में सीखते हैं (भले ही वे इसे "प्रतिगमन" न कहें) लेकिन मुझे लगता है कि यह ध्यान देने योग्य है। मतभेदों के लिए, तथ्य यह है कि आपको एक ही उत्तर सहसंबंध एक्स के साथ वाई या इसके विपरीत मिलता है, लेकिन यह कि एक्स पर वाई का प्रतिगमन एक्स पर वाई के साथ अलग है, एक उल्लेख का गुण भी हो सकता है।
सिल्वरफ़िश

36

यहाँ एक जवाब है जो मैंने graphpad.com वेबसाइट पर पोस्ट किया है :

सहसंबंध और रैखिक प्रतिगमन समान नहीं हैं। इन अंतरों पर विचार करें:

  • सहसंबंध वह मात्रा निर्धारित करता है जिससे दो चर संबंधित होते हैं। सहसंबंध डेटा के माध्यम से एक पंक्ति में फिट नहीं होता है।
  • सहसंबंध के साथ आपको कारण और प्रभाव के बारे में सोचने की ज़रूरत नहीं है। आप बस यह निर्धारित करते हैं कि दो चर एक दूसरे से कितने अच्छे हैं। प्रतिगमन के साथ, आपको कारण और प्रभाव के बारे में सोचना होगा क्योंकि प्रतिगमन रेखा को X से Y की भविष्यवाणी करने के सर्वोत्तम तरीके के रूप में निर्धारित किया जाता है।
  • सहसंबंध के साथ, यह कोई फर्क नहीं पड़ता कि आप किन दो चरों को "X" कहते हैं और जिसे आप "Y" कहते हैं। यदि आप दोनों को स्वैप करते हैं तो आपको समान सहसंबंध गुणांक मिलेगा। रैखिक प्रतिगमन के साथ, आप किस चर को "X" कहते हैं और जिसे आप "Y" कहते हैं, यह बहुत मायने रखता है, क्योंकि यदि आप दोनों को अदला-बदली करते हैं तो आपको एक अलग सर्वश्रेष्ठ-फिट रेखा मिलेगी। वह रेखा जो X से Y की सबसे अच्छी भविष्यवाणी करती है, वह वह रेखा नहीं है, जो X से Y की भविष्यवाणी करती है (जब तक कि आपके पास कोई बिखरने वाला सही डेटा न हो।)
  • जब आप दोनों चर मापते हैं तो सहसंबंध लगभग हमेशा उपयोग किया जाता है। यह शायद ही कभी उपयुक्त होता है जब एक चर कुछ ऐसा होता है जिसे आप प्रयोगात्मक रूप से हेरफेर करते हैं। रैखिक प्रतिगमन के साथ, एक्स चर आमतौर पर कुछ ऐसा होता है जिसे आप प्रयोगात्मक रूप से हेरफेर करते हैं (समय, एकाग्रता ...) और वाई चर कुछ ऐसा है जिसे आप मापते हैं।

13
"एक्स से वाई की भविष्यवाणी करने का सबसे अच्छा तरीका" का कारण और प्रभाव से कोई लेना-देना नहीं है: एक्स वाई या इसके विपरीत का कारण हो सकता है। एक कारण से प्रभाव (कटौती) या प्रभाव से कारण (अपहरण) तक हो सकता है।
नील जी

4
"यदि आप दो को स्वैप करते हैं तो आपको एक अलग-अलग सबसे अच्छी लाइन मिलेगी" थोड़ा भ्रामक है; मानकीकृत ढलान दोनों मामलों में समान होंगे।
xenocyon

26

रैखिक प्रतिगमन के एकल पूर्वसूचक मामले में, मानकीकृत ढलान का सहसंबंध गुणांक के समान मूल्य है। रैखिक प्रतिगमन का लाभ यह है कि रिश्ते को इस तरह से वर्णित किया जा सकता है कि आप भविष्यवाणी कर सकते हैं (दो चर के बीच संबंध के आधार पर) पूर्वानुमानित चर पर स्कोर पूर्वसूचक चर के किसी विशेष मूल्य को देखते हुए। विशेष रूप से जानकारी का एक टुकड़ा एक रैखिक प्रतिगमन आपको देता है कि एक सहसंबंध अवरोधन नहीं है, पूर्वानुमानित चर पर मूल्य जब भविष्यवक्ता 0 होता है।

संक्षेप में - वे समान परिणाम का कम्प्यूटेशनल रूप से उत्पादन करते हैं, लेकिन अधिक तत्व हैं जो सरल रेखीय प्रतिगमन में व्याख्या करने में सक्षम हैं। यदि आप केवल दो चर के बीच संबंध की परिमाण को चिह्नित करने में रुचि रखते हैं, तो सहसंबंध का उपयोग करें - यदि आप उन विशेष मूल्यों के संदर्भ में अपने परिणामों की भविष्यवाणी या व्याख्या करने में रुचि रखते हैं जो आप शायद प्रतिगमन चाहते हैं।


"विशेष रूप से जानकारी का एक टुकड़ा एक रैखिक प्रतिगमन आपको देता है कि एक सहसंबंध अवरोधन नहीं है" ... बहुत अंतर!
SIslam

ठीक है, उस पर वापस देखना, यह केवल सच है कि प्रतिगमन एक अवरोधन प्रदान करता है, क्योंकि यह ऐसा करने के लिए कई आँकड़े पैकेजों के लिए डिफ़ॉल्ट है। एक अवरोधन के बिना एक प्रतिगमन आसानी से गणना कर सकता है।
रसैलपिएर्स

हां, कोई आसानी से एक अवरोधन के बिना एक प्रतिगमन की गणना कर सकता है, लेकिन यह शायद ही कभी सार्थक होगा: आंकड़े.stackexchange.com/questions/102709/…
kjetil b halvorsen

@kjetilbhalvorsen को छोड़कर जब तक आप एक मानकीकृत ढलान को फिट कर रहे हैं, इस मामले में मैंने वर्णन किया है। एक मानकीकृत प्रतिगमन समीकरण में अवरोधन शब्द हमेशा 0. क्यों होता है? क्योंकि IV और DV दोनों को यूनिट स्कोर में मानकीकृत किया गया है - परिणामस्वरूप इंटरसेप्ट लगभग 0. है। ठीक उसी तरह जिस तरह का मामला आप अपने उत्तर में बताते हैं। (IV और DV के मानकीकरण के बराबर)। जब IV और DV दोनों को 0 में मानकीकृत किया गया है, तो अवरोधन मूल रूप से 0. है
russellpierce

11

सहसंबंध विश्लेषण केवल दो चर के बीच के संबंध को अनदेखा करता है जो निर्भर चर है और जो स्वतंत्र है। लेकिन appliyng प्रतिगमन से पहले आपको उस प्रभाव को शांत करना होगा जिस चर को आप दूसरे चर पर जांचना चाहते हैं।


9

अब तक दिए गए सभी उत्तर महत्वपूर्ण अंतर्दृष्टि प्रदान करते हैं, लेकिन यह नहीं भूलना चाहिए कि आप एक के मापदंडों को दूसरे में बदल सकते हैं:

y=mx+b

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

इसलिए आप अपने मापदंडों को स्केलिंग और शिफ्ट करके दोनों को एक दूसरे में बदल सकते हैं।

R में एक उदाहरण:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

सहसंबंध से हम केवल दो चरों के बीच रैखिक संबंध का वर्णन करने वाला एक सूचकांक प्राप्त कर सकते हैं; प्रतिगमन में हम दो से अधिक चर के बीच संबंध की भविष्यवाणी कर सकते हैं और इसका उपयोग यह पहचानने के लिए कर सकते हैं कि कौन सा चर x परिणाम चर y का अनुमान लगा सकता है ।


3

अल्टमैन डीजी का हवाला देते हुए, "चिकित्सा अनुसंधान के लिए व्यावहारिक आँकड़े" चैपमैन एंड हॉल, 1991, पृष्ठ 321: "सहसंबंध एक डेटा की एक संख्या को कम करता है जो वास्तविक डेटा से कोई सीधा संबंध नहीं रखता है। प्रतिगमन एक बहुत अधिक महत्वपूर्ण विधि है। परिणाम जो स्पष्ट रूप से प्राप्त माप से संबंधित हैं। संबंध की ताकत स्पष्ट है, और अनिश्चितता आत्मविश्वास अंतराल या भविष्यवाणी अंतराल से स्पष्ट रूप से देखी जा सकती है "


3
यद्यपि मैं ऑल्टमैन के साथ सहानुभूति रखता हूं - प्रतिगमन के तरीके अक्सर कई मामलों में सहसंबंध से अधिक उपयुक्त होते हैं - यह उद्धरण एक पुआल आदमी तर्क स्थापित कर रहा है। ओएलएस प्रतिगमन में उत्पादित जानकारी एक सहसंबंध गणना में जाने वाली जानकारी (सभी पहले और दूसरे द्विभाजन क्षणों और उनकी मानक त्रुटियों) के द्वारा वहन किए जाने के बराबर है और सहसंबंध गुणांक प्रतिगमन ढलान के समान जानकारी प्रदान करता है। दो दृष्टिकोण कुछ अंतर्निहित डेटा मॉडल में भिन्न होते हैं जो वे मानते हैं और उनकी व्याख्या में हैं, लेकिन Altman द्वारा दावा किए गए तरीकों में नहीं।
whuber

1

प्रतिगमन विश्लेषण दो चर के बीच एक संबंध के प्रभाव के कारण का अध्ययन करने की एक तकनीक है। जबकि, सहसंबंध विश्लेषण दो चरों के बीच संबंध को निर्धारित करता है।


6
CV में आपका स्वागत है! यह देखते हुए कि इस प्रश्न के बहुत सारे उत्तर पहले से ही हैं, क्या आप उन पर एक नज़र डालना चाहते हैं और देखना चाहते हैं कि क्या आपका कुछ भी नया है? यदि आप अधिक कहना चाहते हैं, तो आप ऐसा करने के लिए इसे संपादित कर सकते हैं।
Scortchi

0

सहसंबंध रिश्ते की मजबूती का एक सूचकांक (सिर्फ एक संख्या) है। प्रतिगमन एक विशेष कार्यात्मक संबंध की पर्याप्तता का एक विश्लेषण (उनके महत्व के एक मॉडल और सांख्यिकीय परीक्षण के मापदंडों का आकलन) है। सहसंबंध का आकार इस बात से संबंधित है कि प्रतिगमन की भविष्यवाणियां कितनी सटीक होंगी।


1
नहीं यह नहीं। सहसंबंध हमें एक बंधे हुए संबंध देता है लेकिन यह भविष्यवाणी से कितना सटीक हो सकता है, इससे संबंधित नहीं है। आर 2 देता है।
स्मॉलचेयर 15

-3

सहसंबंध एक आंकड़े में एक शब्द है जो यह निर्धारित करता है कि क्या दो और फिर रिश्ते की डिग्री के बीच संबंध है। यह रेंज -1 से +1 तक है। जबकि प्रतिगमन का अर्थ है औसत की ओर वापस जाना। प्रतिगमन से हम एक चर पर निर्भर और अन्य स्वतंत्र रखकर मूल्य की भविष्यवाणी करते हैं लेकिन यह स्पष्ट करना चाहिए कि हम किस चर की भविष्यवाणी करना चाहते हैं।


6
नमस्कार, @shakir, और क्रॉस वेलिडेट में आपका स्वागत है! आपने शायद ध्यान दिया कि यह एक पुराना प्रश्न है (2010 से) और इसके पहले से दिए गए सात (!) उत्तर हैं। यह सुनिश्चित करना एक अच्छा विचार होगा कि आपका नया उत्तर उस चर्चा में कुछ महत्वपूर्ण जोड़ता है जिसे पहले कवर नहीं किया गया है। फिलहाल मुझे यकीन नहीं है कि यह मामला है।
अमीबा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.