मैंने उम्मीद की थी कि सहसंबंध गुणांक एक प्रतिगमन ढलान (बीटा) के समान होगा, हालांकि दोनों की तुलना करने के बाद, वे अलग हैं। वे कैसे भिन्न होते हैं - वे क्या अलग जानकारी देते हैं?
मैंने उम्मीद की थी कि सहसंबंध गुणांक एक प्रतिगमन ढलान (बीटा) के समान होगा, हालांकि दोनों की तुलना करने के बाद, वे अलग हैं। वे कैसे भिन्न होते हैं - वे क्या अलग जानकारी देते हैं?
जवाबों:
मान लें कि आप एक साधारण प्रतिगमन मॉडल के बारे में बात कर रहे हैं कम से कम वर्गों का अनुमान है, हम विकिपीडिया से जानते हैं कि इसलिए दोनों केवल तभी मेल खाते हैं जब । यही है, वे केवल तब मेल खाते हैं जब दो चर एक ही पैमाने पर हों, कुछ अर्थ में। इसे प्राप्त करने का सबसे आम तरीका मानकीकरण के माध्यम से है, जैसा कि @gung द्वारा इंगित किया गया है। β = ग ओ आर ( Y मैं , एक्स मैं ) ⋅ एस डी ( Y मैं )
दोनों, कुछ अर्थों में आपको एक ही जानकारी देते हैं - वे प्रत्येक आपको और बीच रैखिक संबंध की ताकत । लेकिन, वे आपको अलग-अलग जानकारी देते हैं (सिवाय, जब वे बिल्कुल समान हों)Y i
सहसंबंध आपको एक बंधी हुई माप देता है जिसकी व्याख्या दो चर के पैमाने से स्वतंत्र रूप से की जा सकती है। करीब अनुमानित सहसंबंध , दोनों एक पूर्ण रैखिक संबंध के करीब हैं । प्रतिगमन ढलान, अलगाव में, आपको जानकारी का वह टुकड़ा नहीं बताता है।
प्रतिगमन ढलान की उम्मीद की मूल्य में अनुमानित परिवर्तन के रूप में व्याख्या एक उपयोगी मात्रा देता है की दी गई मूल्य के लिए । विशेष रूप से, आप की उम्मीद मूल्य में परिवर्तन बताता में एक 1 इकाई वृद्धि करने के लिए इसी । यह जानकारी केवल सहसंबंध गुणांक से नहीं काटी जा सकती है।एक्स मैं β वाई मैं एक्स मैं
सरल रैखिक प्रतिगमन (यानी, केवल 1 ) के साथ, ढलान पियरसन के के समान है यदि दोनों चर पहले मानकीकृत थे । (अधिक जानकारी के लिए, आपको मेरा उत्तर यहाँ मददगार लग सकता है।) जब आप कई प्रतिगमन कर रहे हैं, तो यह मल्टीकोलिनरिटी , आदि के कारण अधिक जटिल हो सकता है । आर
सहसंबंध गुणांक उपायों "तंगी" दो चर के बीच रैखिक संबंध का और -1 और 1 सहित उनके बीच घिरा है। शून्य के करीब सहसंबंध चर के बीच कोई रेखीय संघ का प्रतिनिधित्व नहीं करते हैं, जबकि -1 या +1 के करीब सहसंबंध मजबूत रैखिक संबंध दर्शाते हैं। सहज रूप से, यह आपके लिए एक स्कैप्लॉट के माध्यम से सबसे अच्छा फिट की एक रेखा खींचना आसान है, और अधिक सहसंबद्ध हैं।
तो सहसंबंध गुणांक और प्रतिगमन ढलान जरूरी एक ही संकेत (+ या -) है, लेकिन लगभग कभी भी समान मूल्य नहीं होगा।
सादगी के लिए, यह उत्तर सरल रैखिक प्रतिगमन मानता है।
पीयर्सन का सहसंबंध गुणांक -1 और 1 के बीच आयामहीन और स्केल किया गया है, भले ही इनपुट चर के आयाम और पैमाने की परवाह किए बिना।
यदि (उदाहरण के लिए) आप ग्राम या किलोग्राम में एक द्रव्यमान का इनपुट करते हैं, तो इससे के मूल्य पर कोई फर्क नहीं पड़ता है , जबकि इससे ढाल / ढलान (जो आयाम है और तदनुसार स्केल किया गया है) के लिए एक जबरदस्त फर्क पड़ेगा ... इसी तरह, यह अगर पैमाने को किसी भी तरह से समायोजित किया जाता है, तो इसमें कोई अंतर नहीं होगा , जिसमें पाउंड या टन का उपयोग करना शामिल है)।आर
एक साधारण प्रदर्शन (पायथन का उपयोग करने के लिए माफी!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
यह दर्शाता है कि भले ही ढलान 10 के कारक द्वारा बढ़ाया गया हो।
मुझे यह स्वीकार करना चाहिए कि यह एक नीरस चाल है जो -1 और 1 के बीच स्केल की जाती है (उन मामलों में से जहां अंश का निरूपक की तुलना में निरपेक्ष मान कभी नहीं हो सकता है)।
जैसा कि @Macro ने ऊपर विस्तार किया है, ढलान , इसलिए आप में सही हैं कि पियर्सन की ढलान से संबंधित है, लेकिन केवल तब के अनुसार समायोजित किया जाता है मानक विचलन (जो प्रभावी रूप से आयाम और तराजू को पुनर्स्थापित करता है!)।आर