यदि then सहसंबंध कार्य के लिए अभिप्रेत नहीं है ’, तो यदि मुझे सांख्यिकीय रूप से महत्वपूर्ण सहसंबंध मिलता है, तो मैं कार्य-कारण कैसे साबित कर सकता हूं?


30

मैं समझता हूं कि सहसंबंध कार्य-कारण नहीं है । मान लीजिए हमें दो चर के बीच उच्च सहसंबंध मिलता है। यदि आप इस सहसंबंध को वास्तव में कार्य-कारण के कारण जांचते हैं तो आप कैसे देखते हैं? या, किन परिस्थितियों में, वास्तव में, क्या हम दो या अधिक चर के बीच एक कारण संबंध को कम करने के लिए प्रयोगात्मक डेटा का उपयोग कर सकते हैं?


2
इसके लिए प्रायोगिक डेटा की आवश्यकता होगी। कृपया उस प्रायोगिक डिज़ाइन का वर्णन करें जिसका आप उल्लेख करते हैं।
फ्रैंक हार्ले

1
महोदय, मेरे पास कोई प्रयोगात्मक डेटा नहीं है। मैं यह समझना चाहता था कि किस प्रकार के नियंत्रित प्रयोगों के लिए करणीय में कटौती करने की आवश्यकता है?
मनीष बरनवाल

4
कई संभावित डिजाइन हैं। संक्षेप में आप सभी अन्य चर को शारीरिक रूप से नियंत्रित करने का प्रयास करते हैं और ब्याज के एक कारक को अलग करते हैं, या प्रयोगात्मक हेरफेर के आवेदन को यादृच्छिक करते हैं, जो अन्य सभी संभावित स्पष्टीकरण के प्रभावों को "औसत" करता है।
फ्रैंक हरेल

2
संक्षेप में, आपको किसी प्रकार के बहिर्जात भिन्नता की आवश्यकता होती है।
अबुमान 12

1
सहसंबद्ध के बीच Xऔर Yउस एक को दूसरे के कारण के रूप में चुनें जो जिम्मेदारी की भावना को कम करेगा और भाग्य की भावना को अधिकतम करेगा।
ttnphns

जवाबों:


16

2 चर के परस्पर संबंधित होने का एक बहुत संभावित कारण यह है कि उनके परिवर्तन तीसरे चर से जुड़े होते हैं। अन्य संभावित कारण मौका हैं (यदि आप सहसंबंध के लिए पर्याप्त गैर-सहसंबद्ध चर का परीक्षण करते हैं, तो कुछ सहसंबंध दिखाएगा), या बहुत जटिल तंत्र जो कई चरणों को शामिल करते हैं।

इस तरह के उदाहरणों के लिए http://tylervigen.com/ देखें :

यहां छवि विवरण दर्ज करें

आत्मविश्वास से ए -> बी के राज्य के कारण, आपको एक प्रयोग की आवश्यकता है जहां आप चर ए को नियंत्रित कर सकते हैं और अन्य चर को प्रभावित नहीं कर सकते हैं। यदि आप अपने चर को बदलते हैं तो फिर भी A और B का सह-संबंध मौजूद है या नहीं।

लगभग सभी व्यावहारिक अनुप्रयोगों के लिए, अन्य (अक्सर अज्ञात) चर को भी प्रभावित नहीं करना लगभग संभव नहीं है, इसलिए हम जो सबसे अच्छा कर सकते हैं, वह कार्य-कारण की अनुपस्थिति को साबित करना है।

कार्य-कारण संबंध को बताने में सक्षम होने के लिए, आप इस परिकल्पना के साथ शुरू करते हैं कि 2 चर का कारण संबंध है, परिकल्पना को बाधित करने के लिए एक प्रयोग का उपयोग करें और यदि आप असफल होते हैं, तो आप निश्चितता की एक डिग्री के साथ बता सकते हैं कि परिकल्पना सत्य है। आपके शोध के क्षेत्र पर निर्भरता की आपकी डिग्री कितनी अधिक होनी चाहिए।

कई क्षेत्रों में यह आपके प्रयोग के 2 भागों को समानांतर में चलाने के लिए सामान्य या आवश्यक है, एक जहां चर ए को बदला जाता है, और एक नियंत्रण समूह जहां चर ए को नहीं बदला जाता है, लेकिन प्रयोग अन्यथा बिल्कुल वैसा ही है - उदाहरण के मामले में दवा आप अभी भी सुई के साथ विषयों को चिपकाते हैं या उन्हें गोलियां निगलते हैं। यदि प्रयोग ए और बी के बीच सहसंबंध दिखाता है, लेकिन ए और बी '(नियंत्रण समूह के बी) के बीच नहीं है, तो आप कारण मान सकते हैं।

कार्य-कारण को समाप्त करने के अन्य तरीके भी हैं, यदि कोई प्रयोग संभव नहीं है, या विभिन्न कारणों (नैतिकता, नैतिकता, पीआर, लागत, समय) के लिए अनुपयुक्त है। कटौती का उपयोग करने का एक सामान्य तरीका है। एक टिप्पणी से एक उदाहरण लेते हुए: यह साबित करने के लिए कि धूम्रपान मनुष्यों में कैंसर का कारण बनता है, हम यह साबित करने के लिए एक प्रयोग कर सकते हैं कि धूम्रपान चूहों में कैंसर का कारण बनता है, फिर यह साबित करें कि मनुष्यों में धूम्रपान और कैंसर के बीच संबंध है, और इस कारण से यह बहुत है संभावना है कि धूम्रपान मनुष्यों में कैंसर का कारण बनता है - इस प्रमाण को मजबूत किया जा सकता है यदि हम यह भी नापसंद करते हैं कि कैंसर धूम्रपान का कारण बनता है। कार्य-कारण का निष्कर्ष निकालने का एक अन्य तरीका सहसंबंध के अन्य कारणों का बहिष्करण है, जो कार्य-कारण को सहसंबंध के सर्वश्रेष्ठ शेष विवरण के रूप में छोड़ देता है - यह विधि हमेशा लागू नहीं होती है क्योंकि सहसंबंध के सभी संभावित कारणों को समाप्त करना कभी-कभी असंभव होता है (दूसरे उत्तर में "बैक-डोर पाथ्स" कहा जाता है)। धूम्रपान / कैंसर के उदाहरण में, हम शायद इस दृष्टिकोण का उपयोग यह साबित करने के लिए कर सकते हैं कि धूम्रपान फेफड़ों में टार के लिए जिम्मेदार है, क्योंकि इसके लिए कई संभावित स्रोत नहीं हैं।

"सिद्ध" कार्यविधियों के ये अन्य तरीके हमेशा वैज्ञानिक दृष्टिकोण से आदर्श नहीं होते हैं, क्योंकि वे एक सरल प्रयोग के रूप में निर्णायक नहीं हैं। ग्लोबल वार्मिंग बहस यह दिखाने के लिए एक शानदार उदाहरण है कि किस तरह से कार्य को खारिज करना बहुत आसान है जो कि एक दोहराए गए प्रयोग के साथ अभी तक निर्णायक रूप से सिद्ध नहीं हुआ है।

कॉमिक राहत के लिए, यहां एक प्रयोग का एक उदाहरण है जो तकनीकी रूप से प्रशंसनीय है, लेकिन गैर-वैज्ञानिक कारणों (नैतिकता, नैतिकता, पीआर, लागत) के कारण उचित नहीं है:

चित्र phroyd.tumblr.com से लिया गया है


3
यह बहुत मजबूत स्थिति है। महामारी विज्ञान में, आवश्यकताएं कम सख्त होती हैं क्योंकि एक प्रयोग को नियंत्रित करना अव्यावहारिक है, और सबसे कम अनैतिक है - "क्या सिगरेट पीने से कैंसर होता है"
user295691

2
पर्ल जो उदाहरण देता है, वह बताता है कि धूम्रपान मनुष्यों में कैंसर का कारण बनता है, यह सामने का दरवाजा तरीका है, जिसमें टार को धूम्रपान और कैंसर के बीच एक मध्यवर्ती चर के रूप में देखा जाता है। मुझे नहीं पता कि आप "आदर्श नहीं" से क्या मतलब है। यह निश्चित रूप से लोगों को धूम्रपान करने और उन्हें कैंसर होने पर देखने के लिए मजबूर करने से अधिक आदर्श है!
नील जी

1
@ नील "यह निश्चित रूप से लोगों को धूम्रपान करने और यह देखने के लिए मजबूर करने की तुलना में अधिक आदर्श है कि क्या उन्हें कैंसर मिलता है" - यदि लक्ष्य एक कारण संबंध साबित करना है तो मैं दृढ़ता से असहमत हूं। दूसरी ओर, यदि लक्ष्य एक नैतिक समस्या से बचने के लिए है, कम किया गया धन, या एक लिंच भीड़, तो यह अधिक आदर्श है, हाँ।
पीटर

10

भले ही डिजाइन प्रयोगात्मक हो या अवलोकनशील हो, एक चर ए और एक परिणाम वाई के बीच एक संबंध ए और वाई के बीच एक कारण संबंध को दर्शाता है यदि ए और वाई के बीच कोई खुले पिछले दरवाजे नहीं हैं।

प्रयोगात्मक डिजाइन में, यह सबसे आसानी से जोखिम या उपचार असाइनमेंट के यादृच्छिककरण द्वारा प्राप्त किया जाता है। आदर्श यादृच्छिकरण को छोड़कर, संबद्ध उपचार प्रभाव विनिमेयता की मान्यताओं के तहत कारण उपचार प्रभाव का एक निष्पक्ष अनुमान है (उपचार असाइनमेंट काउंटर-तथ्यात्मक परिणामों से स्वतंत्र है), सकारात्मकता, आदि ...

संदर्भ

हरनैन, रॉबिन्स। कारण अनुमान
पर्ल। सांख्यिकी में कारण इंजेक्शन: एक अवलोकन

PS आप विषय के बारे में अधिक जानकारी के लिए Causal Inference और निम्नलिखित नामों (साथ शुरू करने के लिए) को Google कर सकते हैं: यहूदिया पर्ल, डोनाल्ड रुबिन, मिगुइल हर्नान।


यहाँ एक नज़र डालें: en.wikipedia.org/wiki/Correlation_does_not_imply_causation मैं ऐश के कथन का खंडन करता हूं: भले ही डिजाइन प्रयोगात्मक हो या पर्यवेक्षी, एक चर ए और एक परिणाम वाई के बीच एक संबंध ए और वाई के बीच एक कारण संबंध को दर्शाता है अगर वहाँ हैं। ए और वाई के बीच कोई खुला बैकडोर पथ नहीं। उदाहरण के लिए एक आइक्रीक बिक्री, वाई तैराकी में मौत; सहसंबद्ध हैं, लेकिन उनके बढ़ने या घटने का कारण तापमान है। हो सकता है कि ऐश का अर्थ खुले बैकडोर रास्तों के साथ हो जो तीसरे चर पर निर्भर करता है, लेकिन फिर उसका निर्माण बहुत अस्पष्ट है।
कार्ल

आपके उदाहरण में पीछे का दरवाजा मार्ग है। पिछले दरवाजे का अर्थ है तीसरा चर।
नील जी

जूडिया पर्ल के कार्य-कारण के अध्ययन में योगदान से अपरिचित लोगों के लिए , एसोसिएशन फॉर कम्प्यूटिंग मशीनरी वेबसाइट से उनकी जीवनी को पढ़ना उपयोगी हो सकता है , जिसने उन्हें 2011 ट्यूरिंग अवार्ड से सम्मानित किया। पर्ल ने अमास्टाट न्यूज के साथ एक साक्षात्कार में सांख्यिकीय शिक्षा के पाठ्यक्रम में कारण निष्कर्ष की अधिक चर्चा सहित की आवश्यकता पर चर्चा की ।
jthetzel

टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
गूँग - मोनिका

3

वकील की आय में वृद्धि के साथ सहसंबद्ध तलाक दर में वृद्धि पर विचार करें।

सहज रूप से यह स्पष्ट है कि इन मैट्रिक्स को सहसंबद्ध किया जाना चाहिए। अधिक तलाक के लिए अधिक युगल (मांग) फ़ाइल, इसलिए अधिक वकील (आपूर्ति) अपनी कीमतें बढ़ाते हैं।

ऐसा लगता है कि तलाक की दर में वृद्धि वकील की आय में वृद्धि का कारण बनती है , क्योंकि जोड़ों की अतिरिक्त मांग के कारण वकीलों ने अपनी कीमतें बढ़ाईं।

या, वह पीछे की तरफ है? क्या होगा अगर वकीलों ने जानबूझकर और स्वतंत्र रूप से अपनी कीमतें बढ़ाईं, तो तलाक की विज्ञापनों पर अपनी नई आय खर्च की? यह भी एक प्रशंसनीय स्पष्टीकरण की तरह लगता है।

यह परिदृश्य तीसरे, व्याख्यात्मक चर की मनमानी संख्या को दिखाता है जो एक सांख्यिकीय विश्लेषण प्रदर्शित कर सकता है। निम्नलिखित को धयान मे रखते हुए:

  1. आप प्रत्येक डेटापॉइंट को माप नहीं सकते,
  2. आप हर गैर-व्याख्यात्मक डेटापॉइंट को खत्म करना चाहते हैं,
  3. आप केवल यह माप सकते हैं कि यदि आप इसे मापते हैं तो डेटापॉइंट को समाप्त क्यों करें।

आपके पास एक पहेली है। आप प्रत्येक डेटापॉइंट को माप नहीं सकते हैं, यदि आप गैर-व्याख्यात्मक डेटा पॉइंट्स को अनदेखा करना चाहते हैं, तो आपको उन्हें मापने की आवश्यकता है। (आप उन्हें मापने के बिना कुछ डेटा पॉइंट्स को खत्म कर सकते हैं, लेकिन आपको कम से कम उन्हें सही ठहराने की जरूरत है।)

अनबिके सिस्टम में कार्य का कोई प्रमाण सही नहीं हो सकता है।


2

यदि A और B सहसंबद्ध हैं, और आपके द्वारा संयोग को बाहर करने के बाद, यह सबसे अधिक संभावना है कि A, B का कारण बनता है, या B A का कारण बनता है, या कुछ संभवतः अज्ञात कारण X, A और B दोनों का कारण बनता है।

पहला कदम एक संभावित तंत्र की जांच करना होगा। क्या आप सोच सकते हैं कि A, B को कैसे प्रभावित कर सकता है या इसके विपरीत, या किस तरह का अन्य कारण X दोनों का कारण बन सकता है? (यह मानकर चल रहा है कि यह परीक्षा एक कारण साबित करने के लिए एक प्रयोग करने से सस्ता है)। आप उम्मीद करते हैं कि ऐसी स्थिति में समाप्त हो जाए जहाँ कार्य-कारण दिखाने का एक प्रयोग सार्थक लगे। आप कर सकते हैं आगे बढ़ हैं यदि आप एक तंत्र के बारे में सोच नहीं सकते हैं (ए बी का कारण बनता है लेकिन हमें पता नहीं है कि संभावना क्यों है)।

उस प्रयोग में, आपको वसीयत में संदिग्ध कारण में हेरफेर करने में सक्षम होना चाहिए (उदाहरण के लिए यदि कारण "गोली ए ले रहा है" तो कुछ लोगों को गोली मिलेगी, अन्य नहीं करेंगे)। फिर आप सामान्य सावधानी बरतते हैं, लोगों को यादृच्छिक रूप से गोली नहीं मिल रही है या नहीं मिल रही है, न तो आप और न ही उन लोगों ने परीक्षण किया है जिन्हें पता है कि गोली किसको मिली और कौन नहीं। आप शेष प्रयोग को बराबर रखने की कोशिश करते हैं (खिड़की के माध्यम से आने वाले धूप के साथ एक अच्छा गर्म कमरे में लोगों को गोली ए देते हैं जबकि दूसरा समूह एक गंदा, असुविधाजनक कमरे में एक नकली गोली प्राप्त करता है बस आपके डेटा को प्रभावित कर सकता है )। इसलिए यदि आपने यह निष्कर्ष निकाला है कि एकमात्र अंतर वह गोली है, और गोली नहीं मिलने या न मिलने का कारण एक यादृच्छिक निर्णय था, जिसने कुछ भी नहीं किया,


2

ग्नशेर और पीटर द्वारा वर्णित पारंपरिक (प्रायोगिक) डेटा एक सीधा संबंध बनाने के लिए सबसे अच्छा तरीका है। हालांकि, केवल ऐश के जवाब में अवलोकन संबंधी डेटा के माध्यम से एक कारण संबंध की संभावना का उल्लेख है। के अलावा पिछले दरवाजे विधि है कि वह उल्लेख है, सामने वाले दरवाजे के विधि अवलोकन डेटा और कुछ कारण मान्यताओं के आधार पर करणीय स्थापित करने का एक और तरीका है। इनकी खोज जुडिया पर्ल ने की थी। मैंने इनका एक सारांश प्रस्तुत करने और यहां एक संदर्भ प्रदान करने का प्रयास किया ।


0

एक कारण बयान करने के लिए, आपको रैंडम नमूनाकरण और रैंडम असाइनमेंट दोनों की आवश्यकता होगी

  • यादृच्छिक नमूनाकरण: प्रत्येक व्यक्ति को अध्ययन के लिए चुने जाने की समान संभावना है
  • रैंडम असाइनमेंट: प्रयोग में प्रत्येक व्यक्ति थोड़ा अलग लक्षण दिखाता है।

इसलिए उपरोक्त नमूना समूह से उपचार और नियंत्रण समूह का चयन करते समय, समान लक्षण वाले लोगों की संख्या उपचार और नियंत्रण समूह दोनों में होनी चाहिए।

उपचार समूह समूह है, जिसमें दवा लोगों को दिया जाता है। नियंत्रण समूह समूह है, जिसमें दवा नहीं दिया जाता है। आप एक प्लेसबो समूह को भी परिभाषित कर सकते हैं जहां विषयों को एक दवा नहीं दी जाती है, लेकिन बताया जाता है कि उन्हें दिया जा रहा है।

अंत में, यदि प्रभाव उपचार समूह में दिखाई देता है, लेकिन नियंत्रण समूह में नहीं है, तो हम करणीय स्थापित कर सकते हैं।


मेरी राय में, प्लेसबो समूह की नितांत आवश्यकता है। इसके अलावा, परीक्षण विषयों को संभालने के लिए जिम्मेदार लोगों को यह नहीं पता होना चाहिए कि कौन समूह ("डबल ब्लाइंड") है। कुछ भी कम मैं निश्चित रूप से अविश्वसनीय होगा। परीक्षण आसान नहीं है।
mafu

रैंडमाइज्ड कंट्रोल्ड प्लेसबो ट्रायल्स रैंडमाइज्ड कंट्रोल्ड ट्रायल्स की तुलना में अधिक प्रामाणिक होते हैं, फिर भी रैंडमाइज्ड कंट्रोल्ड ट्रायल्स का उपयोग करके कारण संबंधी बयान दिए जा सकते हैं
शो_स्टॉपपर

2
"एक कारणपरक बयान बनाने के लिए आपको रैंडम सैंपलिंग और रैंडम असाइनमेंट दोनों की आवश्यकता होती है" - यह सच नहीं है। सामने के दरवाजे और पिछले दरवाजे के तरीकों को देखें।
नील जी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.