यदि सहसंबंध कार्यशीलता का अर्थ नहीं करता है, तो दो चर के बीच संबंध को जानने का क्या मूल्य है?


11

मान लीजिए कि एक व्यवसाय के स्वामी के रूप में (या मार्केटिंग या कोई भी जो स्कैटर प्लॉट को समझता है) को दो वैरिएबल्स का एक स्कैटर प्लॉट दिखाया गया है: पिछले 5 वर्षों के लिए प्रति माह उत्पाद बिक्री की संख्या बनाम विज्ञापनों की संख्या (या किसी अन्य समय-पैमाने पर ताकि आप अधिक नमूने हैं। मैंने अभी इसे बनाया है)।

अब वह बिखराव की साजिश को देखता है और उसे बताया जाता है कि सहसंबंध गुणांक (गल) है:

  1. 1 या
  2. 0.5 या है
  3. 0.11 या
  4. 0 या है
  5. -0.75 या
  6. -1

मूल रूप से किसी भी मान्य मूल्य के लिए corr

प्रश्न: किसी निर्णय निर्माता या स्कैटर प्लॉट के किसी उपभोक्ता के लिए भी इसका क्या मतलब है? इसके आधार पर कोई निर्णय क्या ले सकता है?

Ie: किसी भी दो चर के बीच सहसंबंध देखने का उपयोग क्या है और अलगाव में उस जानकारी के साथ कोई क्या कर सकता है? क्या यह केवल यह देखना है कि प्रतिगमन विश्लेषण में शामिल करने पर क्या विचार करना है और क्या अधिक व्यावहारिक उपयोग है?

बस जिज्ञासु, मैंने हमेशा इस तकनीक के साथ काम किया है, लेकिन मुझे बताया गया है कि अपने आप में सहसंबंध ज्यादा उपयोग का नहीं है - इसलिए "आईएस" का क्या उपयोग है?

जवाबों:


12

कुछ विचार:

  • सह-संबंध नहीं होने के बारे में पुराना सरसों केवल आधी कहानी है। सहसंबंध कार्य-कारण नहीं हो सकता है, लेकिन दो चर के बीच संबंध का कुछ रूप एक ऐसा कदम है जो कार्य-कारण दिखाने का मार्ग है, और सह-संबंध इस बात को दर्शाने में मदद कर सकता है।
  • यह ट्रेंड को इंगित करने में मदद करता है। इसे किसी व्यवसाय के स्वामी को दिखाएं, और वे कह सकते हैं "हाँ, इससे समझ में आता है, आप विजेट एक्स और विजेट वाई दोनों को एक विशेष समूह के लोगों द्वारा उपयोग किए जा रहे हैं, भले ही वे वास्तव में संबंधित नहीं हैं। या वे कह सकते हैं। "यह ... अजीब" है, जिस बिंदु पर आपने आगे की जांच के लिए प्रेरित किया।
  • इसे इस तरह देखो। सहसंबंध एक उपकरण है। एक हथौड़ा, अपने आप से, यह सब उपयोगी नहीं है। यह निश्चित रूप से एक घर का निर्माण नहीं करेगा। लेकिन क्या आपने कभी बिना हथौड़े के घर बनाने की कोशिश की है ?

5
अपनी पहली गोली में आप कहते हैं कि सहसंबंध कार्य-कारण के लिए एक आवश्यक शर्त है - यह सच नहीं है। यदि दो चर के बीच एक गैर-मोनोटोनिक संबंध है, तो वे असंबंधित हो सकते हैं - यह करणीय को रोकता नहीं है।
मैक्रो

@ मकारो - सच है, और संपादित
Fomite

@ मैक्रो ट्रू, लेकिन व्यवहार में आप परीक्षण किए गए मोनोटोनिक होने के लिए संबंध बनाने के लिए अपने चर में एक फ़ंक्शन लागू कर सकते हैं। यदि आप इस फ़ंक्शन को नहीं जानते हैं, तो ... आप बहुत कुछ नहीं जानते हैं कि आप क्या देख रहे हैं
RockScience

@ ईपीग्रैड: मान लें कि दो वैरिएबल के XY सहसंबंध ग्राफ एक सुखद स्माइली (या किसी अन्य आकार से) जैसा दिखता है। सहसंबंध गुणांक वास्तव में काफी छोटा होगा, लेकिन निश्चित रूप से कुछ अंतर-संबंध होगा, है ना? ऐसे मामले में कैसे / क्या करना चाहिए?
पीएचडी

@Nupul लीनियरिटी से परे XY का कुछ अधिक जटिल अन्वेषण।
फोमाइट

7

इसे जुए के नजरिए से देखें। मान लें कि हम जानते हैं कि औसतन जो लोग काम करने के लिए वर्कबूट पहनते हैं, उन्हें काम पर 1.5 चोटें होंगी, और लोग लोफर्स पहनते हैं, औसतन .05 चोटें होंगी। या, हो सकता है कि वर्कबूट पहनने वाले व्यक्ति के लिए चोट लगने की संभावना .85 हो, और लूफ़ पहनने वाले व्यक्ति की चोट की संभावना 1 है।

यदि मैं बेतरतीब ढंग से आबादी से एक व्यक्ति का चयन करता हूं, और आपको बताता हूं कि वह व्यक्ति वर्कबूट पहन रहा है, और आपको पिछले साल भी कार्यस्थल पर चोट लगी है या नहीं, तो क्या आप शर्त लगा सकते हैं कि क्या आप शर्त लगा सकते हैं? ठीक है, यदि आप उस पक्ष पर दांव लगाने में सक्षम होने के लिए शर्त लगाते हैं जो उन्हें चोट लगी थी .. तो 85% समय आप जीतेंगे, और आपको पैसे भी मिलेंगे।

मुद्दा यह है कि जानकारी के उस टुकड़े को जानने से हमें इस बारे में जानकारी मिलती है कि क्या उन्हें काम पर चोट का अनुभव होने की संभावना है या नहीं .. जूते का इससे कोई लेना-देना नहीं है, वास्तव में, वर्कबूट चोट को रोकता है .. लेकिन यहाँ भ्रमित चर नौकरी के प्रकार है कि workboots के साथ चला जाता है .. और शायद अन्य चीजों की तरह व्यक्ति संभवतः अधिक लापरवाह हो रहा है।


6

वाक्यांश "सहसंबंध का अर्थ कार्य-कारण नहीं है" ओवरलेप हो जाता है। (जैसा कि कोहेन ने लिखा है, "यह एक बहुत बड़ा संकेत है"।) हम इस वाक्यांश को मानव मन के लिए एक पूर्वाग्रह के कारण छात्रों में मारते हैं। जब आप सुनते हैं कि 'अपराध दर गरीबी दर के साथ सहसंबद्ध है', या ऐसा कुछ, तो आप मदद नहीं कर सकते, लेकिन यह सोचते हैं कि गरीबी अपराध का कारण बनती है। लोगों का यह मानना ​​स्वाभाविक है, क्योंकि मन जिस तरह से काम करता है। हम उस प्रतिवाद की आशा में वाक्यांश का अधिक से अधिक उपयोग करते हैं। हालाँकि, एक बार जब आप विचार को अवशोषित कर लेते हैं, तो वाक्यांश सबसे अधिक मूल्य खो देता है, और यह अधिक परिष्कृत समझ पर आगे बढ़ने का समय है।

जब दो चर के बीच सहसंबंध होता है, तो दो संभावनाएं होती हैं: यह सब एक संयोग है, या काम पर कुछ कारण पैटर्न है। दुनिया में एक पैटर्न को बुलावा देना एक संयोग है, एक भयानक व्याख्यात्मक रूपरेखा है और संभवतः आपका अंतिम उपाय होना चाहिए। वह करणीय छोड़ देता है। समस्या यह है कि हम उस कारण पैटर्न की प्रकृति को नहीं जानते हैं। यह अच्छी तरह से हो सकता है कि गरीबी अपराध का कारण बनती है, लेकिन यह भी हो सकता है कि अपराध गरीबी का कारण बनता है (उदाहरण के लिए, लोग उच्च अपराध वाले क्षेत्र में नहीं रहना चाहते हैं, इसलिए वे बाहर निकल जाते हैं और संपत्ति मूल्य गिर जाते हैं, आदि)। यह भी हो सकता है कि कुछ तीसरा चर या चर का समूह है जो अपराध और गरीबी दोनों का कारण बनता है, लेकिन वास्तव में, कोई प्रत्यक्ष नहीं हैअपराध और गरीबी के बीच कारण लिंक ('सामान्य कारण' मॉडल के रूप में जाना जाता है)। यह विशेष रूप से खतरनाक है, क्योंकि, एक सांख्यिकीय मॉडल में, भिन्नता के अन्य सभी स्रोत निर्भर चर की त्रुटि अवधि में ढह जाते हैं। नतीजतन, स्वतंत्र चर त्रुटि अवधि के साथ (कारण के अनुसार) सहसंबद्ध है, जिसके कारण एंडोजेनिटी की समस्या पैदा होती है । ये समस्याएं बहुत कठिन हैं, और इन्हें हल्के में नहीं लिया जाना चाहिए। बहरहाल, इस परिदृश्य में भी, यह पहचानना महत्वपूर्ण है कि काम पर वास्तविक कारण है।

संक्षेप में, जब आप एक सहसंबंध देखते हैं, तो आपको यह सोचना चाहिए कि कहीं न कहीं किसी न किसी तरह की कार्य-कारण है , लेकिन यह कि आप उस कार्य-कारण के स्वरूप को नहीं जानते हैं।


4

मुझे लगा कि मैं इन चीजों के बारे में जानकार हूं, लेकिन पिछले महीने ही मैंने डिक्शनरी में "नापाक" देखा और पाया कि इसके दो अलग-अलग अर्थ हैं। 1. सुझाव और 2. आवश्यक। (!) सहसंबंध शायद ही कभी कारण की आवश्यकता होती है, लेकिन यह निश्चित रूप से यह सुझाव दे सकता है। जैसा कि @EpiGrad बताता है, यह एक आवश्यक है, हालांकि कार्य-कारण की स्थापना के लिए पर्याप्त स्थिति नहीं है।

जैसे-जैसे समय बढ़ता जाता है, सहसंबद्धता को अंत-सभी के रूप में और पूरी तरह से बेकार देखने के बीच एक मध्यम आधार पाता है। और एक व्यक्ति के परस्पर-विरोधी परिणामों की व्याख्या करने में विषय-/ डोमेन- / सामग्री-विशिष्ट ज्ञान को ध्यान में रखता है। जब आप विज्ञापन-बिक्री के परिणामों को देखते हैं, तो कुछ लोग कम से कम कुछ कारण लिंक होने का सवाल करेंगे। लेकिन हमेशा अन्य संभावनाओं के लिए खुला रहना अच्छा होता है, अन्य चर जो कम से कम आंशिक रूप से मनाए गए रिश्ते की व्याख्या कर सकते हैं। चर, वैधता और बड़े लाभांश के साथ भुगतान बंद करने के बारे में रीडिंग। उदाहरण के लिए, कुक और कैंपबेल के पुराने क्लासिक क्वासी-प्रयोग में वैधता पर एक अच्छा खंड है और वैधता के लिए खतरा है।


1
जैसा कि मैंने @EpiGrad को बताया, संबंध है नहीं करणीय के लिए एक आवश्यक शर्त। डेटा विश्लेषण में एक व्यापक अवधारणा है कि चर के बीच एक रिश्ता हमेशा एक मोनोटोनिक रिश्ते को संदर्भित करता है, जो यह स्वीकार करते हुए कि इस संबंध के लिए आवश्यक शर्त है।
मैक्रो

1
काफी उचित। मान लें कि "सांख्यिकीय एसोसिएशन" आवश्यक है, फिर।
रोलेण्डो 2

2

एक सहसंबंध गुणांक, संघ के अन्य उपायों के रूप में, उपयोगी है यदि आप जानना चाहते हैं कि X का मूल्य जानना Y के मूल्य के बारे में जानकारीपूर्ण है। यह जानना अलग है कि क्या आप X को किसी विशेष मान पर सेट करना चाहते थे, क्या Y का मान आपको मिलेगा (जो कि कार्यकारण की एक उचित व्याख्या का सार है)।

फिर भी, कई संदर्भों में (जैसे भविष्यवाणी) सहसंबंध के आधार पर अनुमान अपने आप में मूल्यवान होंगे। पीले दांतों का संबंध फेफड़ों के कैंसर से होता है (क्योंकि वे दोनों संभावित कैंसर के कारण होते हैं)। दोनों के बीच कोई कारण नहीं है: दांतों को सफेद करने से फेफड़ों का कैंसर नहीं होगा। लेकिन अगर आपको फेफड़े के कैंसर की संभावना है, तो इसके लिए एक त्वरित जांच परीक्षण की आवश्यकता है, पीले दांतों की जांच करना एक अच्छा पहला कदम हो सकता है।

यह एक अलग सवाल है कि क्या सहसंबंध गुणांक एसोसिएशन का सबसे अच्छा उपलब्ध उपाय है, लेकिन मुझे लगता है कि यह सवाल गैर-कारण एसोसिएशन को जानने के मूल्य के बारे में अधिक है।

Btw, न केवल सहसंबंध कार्य-कारण के पर्याप्त प्रदर्शन है, बल्कि यह न तो आवश्यक नहीं है। दो चर समान रूप से संबंधित हो सकते हैं, फिर भी किसी विशेष डेटासेट में कोई संबंध नहीं दर्शाते हैं (जैसे चयन पूर्वाग्रह या कन्फ़्यूडर के कारण)।


1

खुद से संबंध अधिक उपयोग का नहीं है - तो क्या "आईएस" का उपयोग है?

मुझे इस वाक्यांश से असहमत होना चाहिए, सहसंबंध 2 चर के बीच संबंध के स्तर को जानने देता है। फिर, ऐसे चर के बीच संबंध को समझाने की कोशिश करते समय यह उपयोगी है। दूसरी ओर, (जैसा कि मैक्रों ने लिखा है) सहसंबंध कार्य-कारण के लिए आवश्यक शर्त नहीं है, हालांकि, संघ के स्तर को समझाने के लिए पर्याप्त है। इसके अलावा, आप चर की स्वतंत्रता का परीक्षण कर सकते हैं, लेकिन सहसंबंध आपको एक और उपयोगी जानकारी दे सकता है, निर्धारण का गुणांक।

फिर भी, विश्लेषक को पता होना चाहिए कि डोमेन किस तरह के संबंध को समझाने में सक्षम है।


मुझे यकीन नहीं है कि आप इसका क्या मतलब है:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
पीएचडी

मेरा क्या मतलब था: "आप चर की स्वतंत्रता का परीक्षण कर सकते हैं" लेकिन फिर भी, स्वतंत्रता का परीक्षण नहीं करने पर भी, सहसंबंध की सूचना और गोमांस। चरों के बीच के संबंध को समझने और समझाने के लिए दृढ़ संकल्प "उपयोगी" हैं।
जोस जुबकॉफ

1

मुझे लगता है कि डेटा संग्रह और अध्ययन डिजाइन भी इस प्रश्न के उत्तर में एक भूमिका निभा सकते हैं। आप एक अध्ययन डिजाइन नहीं करेंगे और डेटा के एक सेट को पूरी तरह से एक दूसरे के लिए अप्रासंगिक रूप से अध्ययन करेंगे, यहां तक ​​कि अवलोकन अध्ययनों में भी। "सहसंबंध का अर्थ यह नहीं है कि कारण उचित हो"। भले ही यह कार्य-कारण संबंध नहीं है, फिर भी इससे संबंधित संबंध हो सकता है।

हालाँकि यदि आप दो डेटासेट के बारे में पूरी तरह से अप्रासंगिक बात कर रहे हैं, लेकिन आप अभी भी सहसंबंध का उपयोग करना चाहते हैं ताकि संघ और कार्य-कारण की व्याख्या की जा सके, तो यह अनुचित हो सकता है। उदाहरण के लिए, यदि दो डेटासेट में सभी नीचे की ओर प्रवृत्ति है, तो आइसक्रीम की बिक्री और विवाह की संख्या कहें, सहसंबंध गुणांक बहुत अधिक हो सकता है। लेकिन क्या एसोसिएशन का मतलब जरूरी है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.