सहसंबंध है मानकीकृत सहप्रसरण, यानी की सहप्रसरण x और y के मानक विचलन से विभाजित x और y । मैं इसका उदाहरण देता हूं।
धीरे-धीरे बोलना, आंकड़ों को डेटा के लिए फिटिंग मॉडल के रूप में संक्षेपित किया जा सकता है और यह आकलन कर सकता है कि मॉडल उन डेटा बिंदुओं का कितना अच्छा वर्णन करता है ( आउटकम = मॉडल + त्रुटि )। ऐसा करने का एक तरीका मॉडल से अवमूल्यन या अवशेषों (रेस) के योगों की गणना करना है:
res=∑(xi−x¯)
कई सांख्यिकीय गणना इसी पर आधारित हैं। सहसंबंध गुणांक (नीचे देखें)।
यहां एक उदाहरण डाटासेट बनाया गया है R
(अवशेषों को लाल रेखाओं के रूप में दर्शाया गया है और उनके मूल्यों को उनके बगल में जोड़ा गया है):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
प्रत्येक डेटा बिंदु को व्यक्तिगत रूप से देखकर और मॉडल से इसके मूल्य को घटाकर (उदाहरण के लिए; इस मामले में ) X=11
और Y=5.4
, कोई भी मॉडल की सटीकता का आकलन कर सकता है। कोई कह सकता है कि वास्तविक मूल्य से अधिक मॉडल को कम करके आंका गया है। हालांकि, जब मॉडल से सभी विचलन को जोड़ते हैं, तो कुल त्रुटि शून्य हो जाती है , मान एक दूसरे को रद्द कर देते हैं क्योंकि सकारात्मक मान होते हैं (मॉडल एक विशेष डेटा बिंदु को कम करता है) और नकारात्मक मान (मॉडल एक विशेष डेटा को कम करके आंका जाता है) बिंदु)। इस समस्या को हल करने के लिए शैतानों की राशि को चुकता किया जाता है और अब इसे वर्ग ( SS ) कहा जाता है :
SS=∑(xi−x¯)(xi−x¯)=∑(xi−x¯)2
n−1s2
s2=SSn−1=∑(xi−x¯)(xi−x¯)n−1=∑(xi−x¯)2n−1
सुविधा के लिए, नमूना विचरण का वर्गमूल लिया जा सकता है, जिसे नमूना मानक विचलन के रूप में जाना जाता है:
s=s2−−√=SSn−1−−−√=∑(xi−x¯)2n−1−−−−−−−√
अब, सहसंयोजक यह आकलन करता है कि क्या दो चर एक दूसरे से संबंधित हैं। एक सकारात्मक मूल्य इंगित करता है कि जैसे एक चर माध्य से विचलन करता है, दूसरा चर उसी दिशा में विचलन करता है।
covx,y=∑(xi−x¯)(yi−y¯)n−1
r
r=covx,ysxsy=∑(x1−x¯)(yi−y¯)(n−1)sxsy
r=0.87X
Y
इतनी लंबी कहानी छोटी, हाँ आपकी भावना सही है लेकिन मुझे उम्मीद है कि मेरा उत्तर कुछ संदर्भ प्रदान कर सकता है।