जब चर एक श्रेणीगत है तो सहसंबंध बहुत उपयोगी क्यों नहीं है?


14

यह एक आंत जांच का एक छोटा सा है, कृपया मुझे यह देखने में मदद करें कि क्या मैं इस अवधारणा को गलत समझ रहा हूं, और किस तरीके से।

मुझे सहसंबंध की एक कार्यात्मक समझ है, लेकिन मैं उस कार्यात्मक समझ के पीछे के सिद्धांतों को वास्तव में आत्मविश्वास से समझाने के लिए थोड़ा लोभी-एट-स्ट्रॉ महसूस कर रहा हूं।

जैसा कि मैं इसे समझता हूं, सांख्यिकीय सहसंबंध (शब्द के अधिक सामान्य उपयोग के विपरीत) दो निरंतर चर को समझने का एक तरीका है और जिस तरह से वे करते हैं या उसी तरह से उठते या गिरते नहीं हैं।

जिस कारण से आप सहसंबंध नहीं चला सकते हैं, कहते हैं, एक निरंतर और एक श्रेणीगत चर क्योंकि दोनों के बीच सहसंयोजक की गणना करना संभव नहीं है , क्योंकि परिभाषा के अनुसार श्रेणीगत चर का मतलब नहीं निकल सकता है, और इस तरह से पहले में भी प्रवेश नहीं कर सकता है। सांख्यिकीय विश्लेषण के चरण।

क्या वह सही है?


2
यहां कक्षा मैं ज्यादातर आबादी (नमूना नहीं) सहसंबंध और सहप्रसरण के साथ काम सिखाने से व्याख्यान स्लाइड्स लिखे जाने people.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
टेलर

3
सरल कारण, कल्पना करें कि आप लोगों से पूछते हैं "आपका पसंदीदा रंग क्या है?" और वे "लाल", "हरा", "नीला", "नारंगी", "पीला", ..., का जवाब देते हैं, जो आपके डेटासेट में 1, 2, 3 के रूप में कोडित है ... अगला, आप के बीच सहसंबंध गुणांक की गणना करते हैं नौकरी की संतुष्टि के साथ ऐसा चर और 0.21 मान प्राप्त करें। इसका क्या मतलब है? क्या आप कोई सार्थक व्याख्या प्रदान कर सकते हैं ?
टिम

2
बारीकी से संबंधित (शायद एक डुप्लिकेट भी?) - नाममात्र (IV) और एक सतत (DV) चर के बीच सहसंबंध
सिल्वरफिश

@ टेलर: हम क्या उपयोग करते हैं जब दोनों चर निरंतर / संख्यात्मक होते हैं, लेकिन उनमें से एक स्टोचस्टिक है और दूसरा एक नहीं है, उदाहरण के लिए, घंटों का अध्ययन GPA बनाम?
MSIS

जवाबों:


16

सहसंबंध है मानकीकृत सहप्रसरण, यानी की सहप्रसरण x और y के मानक विचलन से विभाजित x और y । मैं इसका उदाहरण देता हूं।

धीरे-धीरे बोलना, आंकड़ों को डेटा के लिए फिटिंग मॉडल के रूप में संक्षेपित किया जा सकता है और यह आकलन कर सकता है कि मॉडल उन डेटा बिंदुओं का कितना अच्छा वर्णन करता है ( आउटकम = मॉडल + त्रुटि )। ऐसा करने का एक तरीका मॉडल से अवमूल्यन या अवशेषों (रेस) के योगों की गणना करना है:

res=(xix¯)

कई सांख्यिकीय गणना इसी पर आधारित हैं। सहसंबंध गुणांक (नीचे देखें)।

यहां एक उदाहरण डाटासेट बनाया गया है R(अवशेषों को लाल रेखाओं के रूप में दर्शाया गया है और उनके मूल्यों को उनके बगल में जोड़ा गया है):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

यहाँ छवि विवरण दर्ज करें

प्रत्येक डेटा बिंदु को व्यक्तिगत रूप से देखकर और मॉडल से इसके मूल्य को घटाकर (उदाहरण के लिए; इस मामले में ) X=11और Y=5.4, कोई भी मॉडल की सटीकता का आकलन कर सकता है। कोई कह सकता है कि वास्तविक मूल्य से अधिक मॉडल को कम करके आंका गया है। हालांकि, जब मॉडल से सभी विचलन को जोड़ते हैं, तो कुल त्रुटि शून्य हो जाती है , मान एक दूसरे को रद्द कर देते हैं क्योंकि सकारात्मक मान होते हैं (मॉडल एक विशेष डेटा बिंदु को कम करता है) और नकारात्मक मान (मॉडल एक विशेष डेटा को कम करके आंका जाता है) बिंदु)। इस समस्या को हल करने के लिए शैतानों की राशि को चुकता किया जाता है और अब इसे वर्ग ( SS ) कहा जाता है :

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

सुविधा के लिए, नमूना विचरण का वर्गमूल लिया जा सकता है, जिसे नमूना मानक विचलन के रूप में जाना जाता है:

s=s2=SSn1=(xix¯)2n1

अब, सहसंयोजक यह आकलन करता है कि क्या दो चर एक दूसरे से संबंधित हैं। एक सकारात्मक मूल्य इंगित करता है कि जैसे एक चर माध्य से विचलन करता है, दूसरा चर उसी दिशा में विचलन करता है।

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87XY

यहाँ छवि विवरण दर्ज करें

इतनी लंबी कहानी छोटी, हाँ आपकी भावना सही है लेकिन मुझे उम्मीद है कि मेरा उत्तर कुछ संदर्भ प्रदान कर सकता है।


1
यह सुपर सहायक है - अपनी खुद की समझ को गहरा करने की कोशिश में, मैं यह आंकड़ा करता हूं कि अगर मैं आंकड़ों में पृष्ठभूमि के बिना किसी को पर्याप्त रूप से समझा नहीं सकता, तो मुझे यह समझ में नहीं आता है।
टोफ

8

आप (लगभग) सही हैं। Covariance (और इसलिए सहसंबंध भी) केवल संख्यात्मक चर के बीच गणना की जा सकती है। इसमें निरंतर चर शामिल हैं, लेकिन संख्यात्मक चर भी असतत हैं।

श्रेणीबद्ध चर का उपयोग सहसंबंध की गणना करने के लिए किया जा सकता है, केवल उनके लिए एक उपयोगी संख्यात्मक कोड दिया जाता है, लेकिन इससे व्यावहारिक लाभ प्राप्त होने की संभावना नहीं है - हो सकता है कि यह कुछ दो स्तरों श्रेणीबद्ध चर के लिए उपयोगी हो, लेकिन अन्य उपकरण अधिक उपयुक्त होने की संभावना है।


पियर के बिंदु में जोड़ने के लिए पियर्सन उत्पाद पल सहसंबंध गुणांक दो चर के बीच एक रैखिक संबंध की डिग्री का प्रतिनिधित्व करता है। स्पीयरमैन की रो या केंडल ताऊ विशेषताएँ एक्स और वाई के लिए है एक प्रवृत्ति का कितना तरह nonparametric उपायों को बढ़ाने या एक monotonic संबंध की तरह एक डिग्री करने के लिए एक साथ कम होती है (व्यवहार कि जरूरत जरूरी नहीं कि रैखिक किया जाना है।
माइकल आर Chernick

@Pere: जब हम दो निरंतर चर होते हैं तो हम क्या उपयोग करते हैं लेकिन उनमें से केवल एक स्टोचस्टिक है, उदाहरण के लिए, घंटे बनाम वजन व्यायाम?
MSIS

1
@MSIS - यह एक अलग प्रश्न होना चाहिए, लेकिन सहसंबंध का उपयोग तब भी किया जा सकता है, जब एक चर यादृच्छिक न हो।
पेरे

1
@Pere: मैंने पूछा, यदि आप रुचि रखते हैं, तो यह बताएं

3

कंप्यूटिंग सहसंबंधों के बारे में बिल्कुल कुछ भी गलत नहीं है जहां चर में से एक श्रेणीगत है। एक मजबूत सकारात्मक सहसंबंध का मतलब यह होगा कि आपके श्रेणीबद्ध चर को (या आपके सम्मेलन के आधार पर बंद करने) प्रतिक्रिया में वृद्धि का कारण बनता है। उदाहरण के लिए, यह एक लॉजिस्टिक रिग्रेशन की गणना करते समय हो सकता है जहां चर स्पष्ट होते हैं: मधुमेह और बीएमआई जैसे रोगी कॉमरेडिडिटीज के कारण दिल का दौरा पड़ने की संभावना का अनुमान लगाना। इस मामले में बीएमआई का दिल के दौरे के साथ बहुत मजबूत संबंध होगा। क्या आप यह निष्कर्ष निकालेंगे कि यह उपयोगी नहीं है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.