सह-संबंध बिना कारण के कब उपयोगी हो सकता है?


27

कई सांख्यिकीविदों का कहना है कि "सहसंबंध का कोई मतलब नहीं है।" यह निश्चित रूप से सच है, लेकिन एक बात जो यहां निहित है, वह यह है कि सहसंबंध का बहुत कम या कोई मूल्य नहीं है। क्या ये सच है? क्या यह ज्ञान होना बेकार है कि दो चर परस्पर संबंधित हैं?

मैं कल्पना नहीं कर सकता कि मामला है। मैं भविष्य कहनेवाला विश्लेषण से बुरी तरह परिचित नहीं हूँ, लेकिन ऐसा लगता है कि यदि Xकोई भविष्यवक्ता है Y, तो कार्य-कारण की परवाह किए बिना, भविष्य के मूल्यों के Yआधार पर भविष्यवाणी करना उपयोगी होगा X

क्या मैं सहसंबंध में मूल्य देखने में गलत हूं? और यदि नहीं, तो किन स्थितियों में एक सांख्यिकीविद् या डेटा वैज्ञानिक बिना किसी कारण के सहसंबंध का उपयोग कर सकते हैं?


5
मेरी राय में, "कार्य-कारण का अर्थ सहसंबंध नहीं है" का अक्सर यह अर्थ लगाया जाता है कि आँकड़ों का हमेशा भरोसा नहीं किया जाना चाहिए (सत्य, लेकिन हमेशा कार्य-कारण की कमी के कारण नहीं)। जब मुझे लगता है कि लोग इस वाक्यांश को छोड़ देते हैं तो मैं इस बात से इतना उत्तेजित हो जाता हूं कि भविष्यवाणी का विश्लेषण गलत क्यों है। उदाहरण के लिए, facebook.com/notes/mike-develin/debunking-princeton/… दोनों एक भयानक विश्लेषण और एक भयानक विश्लेषण के एक भयानक डिबंकिंग का महान उदाहरण है।
क्लिफ एबी

10
उदाहरण के लिए, मान लीजिए कि आप पाते हैं कि एक निश्चित शहर में रहने का प्रारंभिक मृत्यु के साथ संबंध है। आप निष्कर्ष निकाल सकते हैं नहीं है कि उस शहर में रहने वाले का कारण बनता है जल्दी मौत, और न ही लोगों को हो रही है कि शहर से बाहर ले जाने के लिए है कि मदद मिलेगी उन्हें लंबे समय तक रहते हैं। (हो सकता है कि शहर किसी कारण से बीमार लोगों के लिए आकर्षक हो।) लेकिन अगर आप एक कार्यक्षेत्र हैं, तो आप उस शहर के सदस्यों को उच्च जीवन बीमा प्रीमियम चार्ज करने के लिए पूरी तरह से उचित होंगे - इस संबंध के बारे में जानना बहुत मूल्यवान हो सकता है आप।
नैट एल्ड्रेडज

2
इंग्लैंड के दक्षिण में अधिक लोग मर जाते हैं, @ नैटएल्ड्रेड। ऐसा इसलिए क्योंकि वहां लोग रिटायर होते हैं।
TRIG

1
सहसंबंध की अनुपस्थिति अधिक अर्थपूर्ण है, यकीनन।
राफेल

अनिवार्य xkcd संदर्भ: xkcd.com/552
vsz

जवाबों:


32

सहसंबंध (या संघ का कोई अन्य उपाय) कार्य-कारण की परवाह किए बिना भविष्यवाणी के लिए उपयोगी है। मान लीजिए कि आप दो चर के बीच एक स्पष्ट, स्थिर संबंध को मापते हैं। इसका मतलब यह है कि एक चर के स्तर को जानने से आपको ब्याज के दूसरे चर के बारे में कुछ जानकारी मिलती है, जिसका उपयोग आप दूसरे चर के फलस्वरूप एक चर का अनुमान लगाने में मदद कर सकते हैं और सबसे महत्वपूर्ण बात यह है कि उस भविष्यवाणी के आधार पर कुछ कार्रवाई करें । कार्रवाई करने में एक या एक से अधिक चर बदलना शामिल है, जैसे कि स्वचालित सिफारिश करना या कुछ चिकित्सा हस्तक्षेप को नियोजित करना। बेशक, आप बेहतर भविष्यवाणियां कर सकते हैं और अधिक प्रभावी ढंग से कार्य कर सकते हैं यदि आपके पास दो चर के बीच प्रत्यक्ष या अप्रत्यक्ष संबंधों में अधिक अंतर्दृष्टि है। इस अंतर्दृष्टि में स्थानिक और लौकिक सहित अन्य चर शामिल हो सकते हैं।


4
सहसंबंध हमेशा भविष्यवाणी के लिए उपयोगी नहीं होते हैं। उल्टे करणीय के मामलों में, महत्वपूर्ण अस्थायी पहलू हैं जिन्हें हमेशा के लिए नियंत्रित नहीं किया जा सकता है। हम अल्जाइमर रोग के साथ हर समय इस में चल रहे हैं। हम लगातार दीवार विचार करने के लिए कोशिश कर रहा है के खिलाफ हमारे सिर मार रहे हैं: बायोमार्कर ई प्रभावित दिमाग में हम पाते हैं कर रहे हैं के कारण रोग या की वजह से बीमारी?
एडम जूल 25'15

1
@ अदमो मुझे लगता है कि मेरा उत्तर अंतिम या दो में उस आधार को शामिल करता है, इसलिए मैं आपसे असहमत नहीं हूं।
ब्राश इक्विलिब्रियम

1
कार्य-कारण की समस्या वास्तव में तभी उत्पन्न होती है जब आप अपने पूर्वानुमान मॉडल की व्याख्या करने की कोशिश कर रहे हों। (बेशक यह वही है जो हम अक्सर विज्ञान में रुचि रखते हैं)। जब हम देखते हैं कि बायोमार्कर Aएक बहुत अच्छा भविष्यवक्ता है तो यह दावा करना बहुत लुभावना है कि यह बीमारी का कारण भी है - और जैसा कि टिप्पणियों में बताया गया है, गलत निष्कर्ष पर आना बहुत आसान है। यदि हम केवल भविष्यवाणियां करना चाहते हैं, उदाहरण के लिए बताएं कि किसी मरीज को बीमारी है या नहीं, सहसंबंधों के साथ कोई समस्या नहीं है।
cel

1
यह असत्य है और यहाँ है, लेकिन एक उदाहरण क्यों। यदि आपकी भविष्यवाणियों पर अभिनय में परिवर्तनशील चर शामिल है और लक्ष्य को बदलने की अपेक्षा भी है, लेकिन वास्तव में कोई सीधा लिंक नहीं है या कारण संबंध दूसरे तरीके से चला जाता है, तो आप गलत कार्रवाई करेंगे। और इससे पहले कि आप कहते हैं, "लेकिन उस उदाहरण में आप मॉडल की व्याख्या कर रहे हैं," मैं कहता हूं, "किस परिदृश्य में आप भविष्यवाणी के लिए बने मॉडल से भी निष्कर्ष नहीं निकालेंगे?" उत्तर: जब आप अपने मॉडल से जुड़े कारणों पर ज्यादा भरोसा नहीं करते हैं।
ब्राश इक्विलिब्रियम

1
@BrashEquilibrium: भविष्यवाणी पर कार्य करने के बहुत सारे तरीके हैं जो किसी भी तरह से भविष्यवाणी प्राप्त करने के लिए उपयोग किए जाने वाले चर को बदलना शामिल नहीं करते हैं। यह जानने में दिलचस्पी है कि क्या आपका स्टोर ऊन के मिट्टों पर स्टॉक करना चाहिए? यह जानकर कि आप कितनी आइसक्रीम बेच रहे हैं (हाल ही में डेटा के अधिक प्रत्यक्ष स्रोतों की काल्पनिक अनुपस्थिति में) एक अच्छा भविष्यवक्ता बना सकते हैं।
इल्मरी करोनन

17

यहां पहले से ही बहुत सारे अच्छे अंक हैं। मुझे अपने दावे को अनपैक करें कि "ऐसा लगता है कि यदि Xकोई भविष्यवक्ता है Y, तो यह कार्य-कारण के Yआधार पर भविष्य के मूल्यों की भविष्यवाणी करने में उपयोगी होगा X, भले ही कार्य-कारण थोड़ा सा"। आप सही हैं: यदि आप चाहते हैं कि Yकिसी ज्ञात Xमूल्य और ज्ञात स्थिर संबंध से अज्ञात मूल्य का अनुमान लगाया जा सके , तो उस संबंध का कारण स्थिति अप्रासंगिक है। उस पर विचार करे:

  • आप एक कारण से एक प्रभाव की भविष्यवाणी कर सकते हैं। यह सहज और निर्विवाद है।
  • आप किसी प्रभाव के ज्ञान के कारण का भी अनुमान लगा सकते हैं। कुछ, लेकिन बहुत कम, जिन लोगों को फेफड़ों का कैंसर होता है, वे कभी धूम्रपान नहीं करते हैं। नतीजतन, यदि आप जानते हैं कि किसी को फेफड़े का कैंसर है, तो आप अच्छे आत्मविश्वास के साथ अनुमान लगा सकते हैं कि वे धूम्रपान कर रहे हैं / इस तथ्य के बावजूद कि धूम्रपान का कारण है और कैंसर का प्रभाव है। यदि यार्ड में घास गीला है, और स्प्रिंकलर नहीं चल रहा है, तो आप अनुमान लगा सकते हैं कि बारिश हुई है, भले ही बारिश का कारण है और गीली घास सिर्फ प्रभाव है। आदि।
  • आप उसी कारण के ज्ञात प्रभाव से अज्ञात प्रभाव का भी अनुमान लगा सकते हैं। उदाहरण के लिए, अगर बिली और बॉबी एक जैसे जुड़वाँ हैं, और मैं बिली से कभी नहीं मिला हूँ, लेकिन मुझे पता है कि बॉबी 5 '10' (178 सेमी) है, मैं भविष्यवाणी कर सकता हूँ कि बिली अच्छे आत्मविश्वास के साथ 178 सेमी भी है, इस तथ्य के बावजूद न तो बिली की ऊंचाई बॉबी की ऊंचाई का कारण बनती है और न ही बॉबी की ऊंचाई बिली की ऊंचाई का कारण बनती है।

7
बस अपनी श्रेणियों को नाम देने के लिए: आपकी तीन प्रकार की भविष्यवाणी को (क्रम में) कटौती , अपहरण , और प्रेरण कहा जाता है
नील जी

12

वे सहसंबंध के महत्व को कम नहीं कर रहे हैं। यह सिर्फ इतना है कि प्रवृत्ति को सह-संबंध के रूप में व्याख्या करना है।

स्तनपान को आदर्श उदाहरण के रूप में लें। स्तनपान के बारे में निष्कर्षों के बारे में माताओं ने हमेशा यह सुझाव दिया है कि क्या उन्हें वास्तव में स्तनपान कराना चाहिए या नहीं। यह सच है कि, औसतन, स्तनपान करने वाले बच्चे अनुदैर्ध्य मातृ और पितृ की आयु, सामाजिक आर्थिक स्थिति, आदि के लिए नियंत्रित करने के बाद भी क्रमिक आयु में स्वस्थ वयस्क होते हैं, लेकिन इसका मतलब यह नहीं है कि अंतर के लिए अकेले स्तनपान जिम्मेदार है। आंशिक रूप से भूख विनियमन के प्रारंभिक विकास में भूमिका निभाते हैं। संबंध बहुत जटिल है और कोई भी आसानी से मध्यस्थता कारकों की एक पूरी मेजबानी में अटकलें लगा सकता है जो मतभेदों को नजरअंदाज कर सकते हैं।

अध्ययनों के बहुत से संघों के लिए देखो क्या हो रहा है की एक गहरी समझ वारंट। सहसंबंध बेकार नहीं है, यह सिर्फ कार्य-कारण से कई कदम नीचे है और किसी को भी इस बात से सावधान रहने की आवश्यकता है कि निष्कर्षों को बिना किसी व्याख्या के गलत व्याख्या से कैसे रोका जाए।


9

आप सही हैं कि सहसंबंध उपयोगी है। कारण मॉडल जो साहचर्य मॉडल की तुलना में बेहतर हैं, वह है - जैसा कि पर्ल कहते हैं - वे हस्तक्षेपों के लिए oracles हैं। दूसरे शब्दों में, वे आपको काल्पनिक रूप से तर्क करने की अनुमति देते हैं। एक कारण मॉडल प्रश्न का उत्तर देता है "यदि मैं एक्स को बनाने वाला था, तो वाई का क्या होगा?"

लेकिन आपको हमेशा काल्पनिक रूप से तर्क करने की आवश्यकता नहीं है। यदि आपका मॉडल केवल "यदि मैं एक्स का निरीक्षण करता हूं, तो मुझे वाई के बारे में क्या पता है?" जैसे प्रश्नों का उत्तर देने के लिए उपयोग किया जा रहा है, तो एक सहयोगी मॉडल आपको सभी की आवश्यकता है।


3
Oracles For Interventions एक बैंड का एक अच्छा नाम होगा।
मालवोलियो

@ मालवोलियो: योग्य, यह कारण मॉडल का वर्णन करने के लिए एक अप्रत्याशित रूप से पर्याप्त तरीका है। मैं वास्तव में उस वाक्यांश को पसंद करता हूं।
नील जी

4

आप सही हैं कि सहसंबंध भविष्यवाणी के लिए उपयोगी है। यह अध्ययन के तहत प्रणाली की बेहतर समझ प्राप्त करने के लिए भी उपयोगी है।

एक मामला जहां कारण तंत्र के बारे में ज्ञान आवश्यक है यदि लक्ष्य वितरण में हेरफेर किया गया है (जैसे कुछ चर को कुछ मान लेने के लिए "मजबूर" किया गया है)। सहसंबंधों पर आधारित एक मॉडल केवल खराब प्रदर्शन करेगा, जबकि एक मॉडल जो कारण संबंधी जानकारी का उपयोग करता है, उसे बहुत बेहतर प्रदर्शन करना चाहिए।


2

सहसंबंध एक उपयोगी उपकरण है यदि आपके पास एक अंतर्निहित मॉडल है जो कार्य-कारण की व्याख्या करता है।

उदाहरण के लिए यदि आप जानते हैं कि किसी वस्तु पर बल लगाने से उसके आंदोलन पर असर पड़ता है, तो आप बल और वेग और बल और त्वरण के बीच संबंध को माप सकते हैं। मजबूत सहसंबंध (त्वरण के साथ) अपने आप ही व्याख्यात्मक होगा।

अवलोकन संबंधी अध्ययनों में, सहसंबंध कुछ सामान्य पैटर्न (जैसा कि स्तनपान और बाद में स्वास्थ्य कहा जाता है) को प्रकट कर सकता है, जो उचित प्रयोगात्मक डिजाइन के माध्यम से आगे के वैज्ञानिक अन्वेषण के लिए एक आधार दे सकता है जो कार्य-कारण की पुष्टि या अस्वीकार कर सकता है (उदाहरण के लिए शायद स्तनपान के कारण का कारण हो सकता है। एक निश्चित सांस्कृतिक ढांचे के लिए परिणाम)।

तो, सहसंबंध उपयोगी हो सकता है, लेकिन यह शायद ही कभी निर्णायक हो सकता है।


2

जैसा कि आपने कहा, सहसंबंध की उपयोगिता बहुत है, मुख्य रूप से भविष्यवाणी।

जिस कारण इस वाक्यांश का उपयोग किया जाता है (या दुरुपयोग किया जाता है, मेरी टिप्पणी को पोस्ट के ऊपर देखें) तो अक्सर यह है कि कारण अक्सर एक बहुत ही दिलचस्प सवाल है। यह कहना है, अगर हमने और बीच संबंधों की जांच करने के लिए बहुत प्रयास किया है , तो यह बहुत संभव है, क्योंकि वास्तविक दुनिया में वापस, हम उत्सुक हैं अगर हम को प्रभावित करने के लिए का उपयोग कर सकते हैं ।बी बीABAB

उदाहरण के लिए, इन सभी अध्ययनों से पता चलता है कि वरिष्ठ नागरिकों में कॉफी के भारी उपयोग का संबंध स्वस्थ कार्डियो-संवहनी प्रणालियों से है, मेरे दिमाग में, निस्संदेह लोग अपनी भारी कॉफी की आदतों को सही ठहराना चाहते हैं। हालांकि, यह कहना कि कॉफी पीना केवल स्वस्थ दिलों के साथ जुड़ा हुआ है, बल्कि कारण के रूप में, हमारी रुचि के असली सवाल का जवाब देने के लिए कुछ भी नहीं करता है: क्या हम अधिक कॉफी पीते हैं या अगर हम कटौती करते हैं तो क्या हम स्वस्थ हो सकते हैं? यह बहुत दिलचस्प परिणाम खोजने के लिए बहुत निराशा हो सकती है (कॉफी स्वस्थ दिलों से जुड़ी हुई है!) लेकिन निर्णय लेने के लिए उस जानकारी का उपयोग करने में सक्षम नहीं हैं (अभी भी पता नहीं है कि आपको स्वस्थ होने के लिए कॉफी पीना चाहिए), और इसलिए लगभग हमेशा है सह-संबंध को कार्य-कारण के रूप में व्याख्या करने का प्रलोभन।

जब तक शायद आप सभी की परवाह जुआ है (यानी आप भविष्यवाणी करना चाहते हैं लेकिन प्रभाव नहीं)।


2

सहसंबंध में मूल्य है, लेकिन कार्य-कारण का निष्कर्ष निकालने के लिए किसी को अधिक प्रमाणों को देखना चाहिए।

वर्षों पहले, एक अध्ययन था जिसके परिणामस्वरूप "कॉफी कैंसर का कारण बनता है।" जैसे ही मैंने यह खबर सुनी मैंने अपनी पत्नी को "झूठी सहसंबंध" बताया। यह पता चला कि मैं सही था। प्रति दिन 2-3 कप कॉफी आबादी में गैर-कॉफी पीने वालों की तुलना में धूम्रपान की उच्च दर थी। एक बार डेटा संग्रहकर्ताओं को यह पता चल गया, तो उन्होंने अपने परिणामों को वापस ले लिया।

हाउसिंग बूम और बस्ट से पहले एक और दिलचस्प अध्ययन ने नस्लवाद को दिखाया जब यह प्रसंस्करण बंधक की बात आई। दावा किया गया था कि श्वेत आवेदकों को गोरों की तुलना में अधिक दर पर अस्वीकार किया जा रहा है। लेकिन एक अन्य अध्ययन ने डिफ़ॉल्ट दरों को देखा। काले गृहस्वामी व्हॉट्स के रूप में sames दर पर चूक कर रहे थे। यदि काले अनुप्रयोग उच्च स्तर पर आयोजित किए जा रहे थे, तो उनकी डिफ़ॉल्ट दर वास्तव में बहुत कम होगी। नोट: यह किस्सा लेखक थॉमस सोवेल ने अपनी पुस्तक द हाउसिंग बूम एंड बस्ट में साझा किया है

डेटा माइनिंग आसानी से डेटा के दो सेट का उत्पादन कर सकती है जो उच्च सहसंबंध दिखाती है, लेकिन उन घटनाओं के लिए जो संभवतः संबंधित नहीं हो सकती हैं। अंत में, यह उन अध्ययनों को देखने के लिए सबसे अच्छा है जो आपके रास्ते को बहुत ही महत्वपूर्ण नज़र से भेजे जाते हैं। झूठी सहसंबंधों को खोजना हमेशा आसान नहीं होता है, यह एक अर्जित प्रतिभा है।


मुझे यह उत्तर पढ़कर बहुत अच्छा लगा। ऐसा लगता है, हालांकि, प्रश्न के व्युत्क्रम को संबोधित करने के लिए: "क्या यह ज्ञान होना व्यर्थ है कि दो चर परस्पर संबंधित हैं? ... किन स्थितियों में एक सांख्यिकीविद् या डेटा वैज्ञानिक बिना किसी कारण के सहसंबंध का उपयोग कर सकते हैं?"
whuber

1
"काले गृहस्वामी श्वेत दर पर श्वेत के रूप में चूक कर रहे थे। यदि काला अनुप्रयोग उच्च स्तर पर आयोजित किया जा रहा था, तो उनकी डिफ़ॉल्ट दर वास्तव में बहुत कम होगी।" निष्कर्ष पर जा रहा है। यह वास्तव में यह समस्या है; काले आवेदक सांख्यिकीय रूप से श्वेत आवेदकों से अलग होने जा रहे हैं, और यदि अधिक अश्वेत ऐसे समूह में हैं, जिनके बंधक स्वीकृत होने की अधिक संभावना है, तो समान डिफ़ॉल्ट दर वाले काले आवेदक भेदभाव का संकेत देंगे। अलग-अलग प्रभाव को अलग करना कठिन है।
अभियोजन पक्ष

जैसा कि मैंने कहा, एक प्रसिद्ध काले विद्वान का उपाख्यान आया। और यह कहीं अधिक लग रहा था कि मैंने जिस पुस्तक का संदर्भ दिया था, उस पर चर्चा करने का एक पैराग्राफ।
JTP -

1

सहसंबंध एक अवलोकनीय घटना है। आप इसे माप सकते हैं। आप उन मापों पर कार्रवाई कर सकते हैं। अपने दम पर, यह उपयोगी हो सकता है।

हालाँकि, यदि आपके पास सब कुछ एक सहसंबंध है, तो आपके पास कोई गारंटी नहीं है कि आपके द्वारा किए गए बदलाव से वास्तव में प्रभाव पड़ेगा (विदेशी गुलामी और इस तरह के iPhones के उदय को बांधने वाले प्रसिद्ध ग्राफ़ देखें)। यह सिर्फ दिखाता है कि वहाँ एक सहसंबंध है, और यदि आप पर्यावरण को (अभिनय से) ट्वीक करते हैं, तो सहसंबंध अभी भी हो सकता है।

हालाँकि, यह एक बहुत ही सूक्ष्म दृष्टिकोण है। कई परिदृश्यों में हम एक कम सूक्ष्म उपकरण चाहते हैं: कार्य-कारण। कॉजेलिटी एक सह-संबंध है जो इस दावे के साथ संयुक्त है कि यदि आप एक तरह से या किसी अन्य तरीके से अभिनय करके अपने पर्यावरण को मोड़ देते हैं, तो किसी को अभी भी सहसंबंध की उम्मीद करनी चाहिए । यह लंबे समय तक नियोजन की अनुमति देता है, जैसे कि एक उपयोगी परिणाम की पहचान करने के लिए एक पंक्ति में 20 या 50 कारण घटनाओं का पीछा करना। 20 या 50 सहसंबंधों के साथ ऐसा करना अक्सर एक बहुत ही फजी और नकली परिणाम छोड़ देता है।

वे अतीत में कैसे उपयोगी रहे हैं, इसका एक उदाहरण के रूप में, पश्चिमी विज्ञान बनाम पारंपरिक चीनी चिकित्सा (टीसीएम) पर विचार करें। पश्चिमी विज्ञान मुख्य रूप से "एक सिद्धांत का विकास, एक परीक्षण को अलग करता है जो सिद्धांत को प्रदर्शित कर सकता है, परीक्षण को चला सकता है और परिणामों को दस्तावेजित कर सकता है।" यह "एक सिद्धांत विकसित करना" से शुरू होता है, जो कार्य-कारण से अत्यधिक जुड़ा हुआ है। टीसीएम ने इसे इधर-उधर घुमाया, "एक परीक्षण तैयार करें जो उपयोगी परिणाम प्रदान कर सकता है, परीक्षण चलाएं, उत्तर में सहसंबंधों की पहचान करें।" सहसंबंध पर ध्यान अधिक है।

आजकल के पश्चिमी लोग लगभग पूरी तरह से कार्य-कारण के संदर्भ में सोचना पसंद करते हैं, इसलिए सहसंबंध के अध्ययन का मूल्य जासूसी करना कठिन है। हालाँकि, हम इसे अपने जीवन के हर कोने में दुबके हुए पाते हैं। और यह कभी मत भूलो कि पश्चिमी विज्ञान में भी, सहसंबंध पहचान के लिए एक महत्वपूर्ण उपकरण है, जो सिद्धांतों की खोज के लायक है!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.