सांख्यिकी और कारण निष्कर्ष?


51

अपने १ ९ In४ के पेपर "स्टैटिस्टिक्स एंड कॉसल इनविज़न" में , पॉल हॉलैंड ने आंकड़ों में सबसे बुनियादी सवालों में से एक उठाया:

एक सांख्यिकीय मॉडल कार्य-कारण के बारे में क्या कह सकता है?

यह उनके आदर्श वाक्य के लिए नेतृत्व किया:

बिना किसी सहूलियत के

जो प्रयोग को महत्व देने वाले प्रयोगों के इर्द-गिर्द प्रतिबंधों के महत्व पर बल देता है। एंड्रयू गेलमैन एक समान बिंदु बनाता है :

"यह पता लगाने के लिए कि जब आप किसी चीज को बदलते हैं तो क्या होता है, इसे बदलना आवश्यक है।" ... ऐसी चीजें हैं जो आप एक सिस्टम को गड़बड़ी से सीखते हैं जो आप कभी भी निष्क्रिय अवलोकन के किसी भी राशि से नहीं पाएंगे।

उनके विचारों को इस लेख में संक्षेप में प्रस्तुत किया गया है ।

सांख्यिकीय मॉडल से कार्य-कारण निष्कर्ष बनाते समय क्या विचार किए जाने चाहिए?


2
महान प्रश्न: सहसंबंध और कार्य-कारण के आँकड़े
जेरोमी एंग्लीम


5
बहुत कहने को। लेकिन आप पर्ल की पुस्तक "कॉजेलिटी" (2002, लेकिन नए 2 डी संस्करण), या हर्नान और रॉबिन्स की पुस्तक "कॉसल इन्वेंशन" (2015, मुफ्त इलेक्ट्रॉनिक ड्राफ्ट ऑनलाइन यदि आप खोजते हैं) पढ़ सकते हैं।

जवाबों:


28

यह एक व्यापक प्रश्न है, लेकिन बॉक्स, हंटर और हंटर उद्धरण सही है, मुझे लगता है कि मुझे लगता है कि यह नीचे आता है

  1. प्रयोगात्मक डिजाइन की गुणवत्ता:

    • randomization, नमूना आकार, confounders का नियंत्रण, ...
  2. डिजाइन के कार्यान्वयन की गुणवत्ता:

    • प्रोटोकॉल, माप त्रुटि, डेटा हैंडलिंग, का पालन ...
  3. मॉडल की गुणवत्ता सही ढंग से डिजाइन को प्रतिबिंबित करने के लिए:

    • अवरुद्ध संरचनाओं का सटीक प्रतिनिधित्व किया जाता है, स्वतंत्रता की उचित डिग्री प्रभाव से जुड़ी होती है, अनुमानक निष्पक्ष होते हैं, ...

स्पष्ट कहने के जोखिम पर मैं प्रत्येक के प्रमुख बिंदुओं पर प्रहार करने की कोशिश करूंगा:

  1. आँकड़ों का एक बड़ा उप-क्षेत्र है, लेकिन यह सबसे बुनियादी रूप में है मुझे लगता है कि यह इस तथ्य के लिए नीचे आता है कि जब कारण निष्कर्ष हम आदर्श रूप से समान इकाइयों से शुरू करते हैं जो एक उपचार के लिए सौंपे जाने के अलावा समान वातावरण में निगरानी की जाती हैं। वर्गीकरण के बाद समूहों के बीच कोई भी व्यवस्थित अंतर तार्किक रूप से उपचार के लिए जिम्मेदार है (हम इसका कारण जान सकते हैं)। लेकिन, दुनिया यह नहीं है कि प्रयोगों से पहले उपचार के लिए अच्छी और इकाइयाँ अलग-अलग हों और प्रयोगों के दौरान उकसावे पर पूरी तरह नियंत्रण न हो। इसलिए हम "हम जो कर सकते हैं उसे यादृच्छिक रूप से नियंत्रित कर सकते हैं", जो यह सुनिश्चित करने में मदद करता है कि जिन कन्फ्यूडर को हमने नियंत्रित या यादृच्छिक किया है, उनके कारण व्यवस्थित पूर्वाग्रह नहीं होंगे। एक समस्या यह है कि प्रयोग कठिन (असंभव) होते हैं और महंगी और कई प्रकार की डिज़ाइनों को कुशलतापूर्वक उतने ही विकसित करने के लिए विकसित किया गया है, जितना संभव हो लागत को देखते हुए एक सेटिंग को सावधानीपूर्वक नियंत्रित किया जा सके। इनमें से कुछ काफी कठोर हैं (जैसे कि दवा में डबल-ब्लाइंड, रैंडम, प्लेसीबो-नियंत्रित परीक्षण) और अन्य कम (जैसे 'क्वासी-प्रयोगों के विभिन्न रूप)।

  2. यह भी एक बड़ा मुद्दा है और एक ऐसा है जो आमतौर पर सांख्यिकीविदों के बारे में नहीं सोचता ... हालांकि हमें करना चाहिए। लागू सांख्यिकीय कार्यों में मैं उन घटनाओं को याद कर सकता हूँ जहाँ डेटा में पाए गए 'प्रभाव' डेटा संग्रह या हैंडलिंग की असंगति के सहज परिणाम थे। मुझे यह भी आश्चर्य है कि इन मुद्दों के कारण ब्याज के वास्तविक कारण प्रभावों पर जानकारी कितनी बार खो जाती है (मेरा मानना ​​है कि छात्रों को लागू विज्ञान में आम तौर पर उन तरीकों के बारे में बहुत कम-से-कोई प्रशिक्षण नहीं है जो डेटा दूषित हो सकते हैं - लेकिन मैं यहां विषय से दूर हो रहा हूं ...)

  3. एक और बड़ा तकनीकी विषय है, और उद्देश्य के उद्देश्य में एक और आवश्यक कदम है। एक निश्चित हद तक इस बात का ध्यान रखा जाता है क्योंकि डिजाइन की भीड़ डिजाइन और मॉडल को एक साथ विकसित करती है (चूंकि एक मॉडल से अनुमान गोल है, अनुमान लगाने वालों की विशेषताओं को डिजाइन करता है)। लेकिन यह केवल हमें अब तक प्राप्त होता है क्योंकि 'वास्तविक दुनिया' में हम गैर-पाठ्यपुस्तक के डिजाइनों से प्रयोगात्मक डेटा का विश्लेषण करते हैं और फिर हमें उचित नियंत्रण जैसी चीजों के बारे में कठिन सोचना पड़ता है और उन्हें मॉडल में कैसे प्रवेश करना चाहिए और क्या संबंधित डिग्री स्वतंत्रता होनी चाहिए और क्या मान्यताओं को पूरा किया जाता है यदि नहीं तो उल्लंघनों को कैसे समायोजित किया जाए और किसी भी शेष उल्लंघन के लिए अनुमानक कितना मजबूत हो और ...

वैसे भी, उम्मीद है कि उपरोक्त में से कुछ एक मॉडल से कार्य-कारण निष्कर्ष बनाने में विचारों के बारे में सोचने में मदद करता है। क्या मैं कुछ बड़ा भूल गया था?


3
बिंदु 2 के लिए एक विशाल प्लस वन। मानव विषयों के संरक्षण प्रशिक्षण से गुजरने के अलावा, मुझे डेटा संग्रह और भंडारण पर सबसे अधिक प्रशिक्षण कभी नहीं मिला है। डेटा संग्रह का अधिकार प्राप्त करना विश्लेषण की तुलना में बहुत अधिक महत्वपूर्ण है।
मैट पार्कर

मुझे भी जवाब देना अच्छा लगेगा, लेकिन मुझे डर है कि किंग्सफोर्ड ने जो कहा है, उसे जोड़ने के लिए कुछ भी नहीं बचा है।
जोरिस मेयर्स

7

ऊपर दिए गए उत्कृष्ट उत्तर के अलावा, एक सांख्यिकीय पद्धति है जो आपको कार्य-कारण प्रदर्शन के करीब ला सकती है। यह ग्रेंजर कॉजेलिटी है जो दर्शाता है कि एक आश्रित चर से पहले होने वाले एक स्वतंत्र चर का एक कारण प्रभाव होता है या नहीं। मैं निम्नलिखित लिंक पर प्रस्तुति का पालन करने के लिए एक आसान में इस विधि का परिचय:

http://www.slideshare.net/gaetanlion/granger-causality-presentation

मैं प्रतिस्पर्धी मैक्रोइकॉनॉमिक सिद्धांतों का परीक्षण करने के लिए भी यह तरीका लागू करता हूं: http://www.slideshare.net/gaetanlion/economic-theory-testing-pretation

ज्ञात हो कि यह तरीका सही नहीं है। यह सिर्फ इस बात की पुष्टि करता है कि कुछ घटनाएं दूसरों से पहले घटित होती हैं और उन घटनाओं का एक सुसंगत दिशात्मक संबंध होता है। ऐसा लगता है कि यह सही कारण है लेकिन यह हमेशा ऐसा नहीं होता है। रोस्टर मॉर्निंग कॉल सूर्य के उदय का कारण नहीं बनता है।


4

एक सांख्यिकीय मॉडल कार्य-कारण के बारे में क्या कह सकता है? सांख्यिकीय मॉडल से कार्य-कारण निष्कर्ष बनाते समय क्या विचार किए जाने चाहिए?

स्पष्ट करने के लिए पहली बात यह है कि आप विशुद्ध रूप से सांख्यिकीय मॉडल से कारण निष्कर्ष नहीं निकाल सकते हैं। कोई भी सांख्यिकीय मॉडल बिना कारण धारणा के कुछ भी नहीं कह सकता है। यही कारण है कि कारण निष्कर्ष बनाने के लिए आपको एक कारण मॉडल की आवश्यकता होती है

यहां तक ​​कि सोने के मानक के रूप में मानी जाने वाली किसी चीज में, जैसे कि रैंडमाइज्ड कंट्रोल ट्रायल (आरसीटी), आपको आगे बढ़ने के लिए कारण धारणाएं बनाने की जरूरत है। मुझे यह स्पष्ट करना चाहिए। उदाहरण के लिए, मान लीजिए कि यादृच्छिककरण प्रक्रिया है, ब्याज का उपचार है और ब्याज का परिणाम है। एक सही आरसीटी ग्रहण करते समय, यह वही है जो आप मान रहे हैं:ZXY

यहाँ छवि विवरण दर्ज करें

इस मामले में इसलिए चीजें अच्छी तरह से काम कर रही हैं। हालांकि, मान लीजिए कि आपके पास अपूर्ण अनुपालन है, जिसके परिणामस्वरूप और बीच एक जटिल संबंध है । तब, अब, आपका आरसीटी इस तरह दिखता है:P(Y|do(X))=P(Y|X)XY

यहाँ छवि विवरण दर्ज करें

आप अभी भी विश्लेषण का इलाज करने का इरादा कर सकते हैं। लेकिन अगर आप अनुमान लगाना चाहते हैं कि चीजों का वास्तविक प्रभाव अब सरल नहीं है। यह एक इंस्ट्रूमेंटल वैरिएबल सेटिंग है, और यदि आप कुछ पैरामीट्रिक अनुमान लगाते हैं, तो आप इस आशय को पहचानने में सक्षम या बाध्य करने में सक्षम हो सकते हैंX

यह और भी जटिल हो सकता है। आपके पास माप त्रुटि की समस्याएं हो सकती हैं, विषय अन्य मुद्दों के बीच अध्ययन को छोड़ सकते हैं या निर्देशों का पालन नहीं कर सकते हैं। आपको इस बारे में धारणा बनाने की आवश्यकता होगी कि उन चीजों को कैसे अनुमान के साथ प्रोसेसे से संबंधित है। "विशुद्ध रूप से" अवलोकन डेटा के साथ यह अधिक समस्याग्रस्त हो सकता है, क्योंकि आमतौर पर शोधकर्ताओं को डेटा बनाने की प्रक्रिया का एक अच्छा विचार नहीं होगा।

इसलिए, उन मॉडलों से कार्य-कारण निष्कर्ष निकालने के लिए जिन्हें आपको न केवल अपनी सांख्यिकीय मान्यताओं का आकलन करना होगा, बल्कि सबसे महत्वपूर्ण रूप से इसकी कारण धारणाएँ भी होंगी। यहाँ कारण विश्लेषण के लिए कुछ सामान्य खतरे हैं:

  • अधूरा / imprecise डेटा
  • लक्षित कारण की ब्याज की मात्रा अच्छी तरह से परिभाषित नहीं है (क्या कारण प्रभाव है जिसे आप पहचानना चाहते हैं? लक्ष्य लोगों की क्या है?)
  • कन्फ़्यूज़िंग (अप्राप्त कन्फ़्यूडर)
  • चयन पूर्वाग्रह (स्व-चयन, काटे गए नमूने)
  • माप की त्रुटि (जो भ्रामक उत्पन्न कर सकती है, केवल शोर नहीं)
  • गलत वर्तनी (जैसे, गलत कार्यात्मक रूप)
  • बाहरी वैधता समस्याएं (लक्षित आबादी के लिए गलत अनुमान)

कभी-कभी इन समस्याओं की अनुपस्थिति के दावे (या इन समस्याओं को संबोधित करने का दावा) का अध्ययन के डिजाइन द्वारा ही समर्थन किया जा सकता है। इसलिए प्रायोगिक डेटा आमतौर पर अधिक विश्वसनीय होता है। कभी-कभी, हालांकि, लोग इन समस्याओं को या तो सिद्धांत के साथ या सुविधा के लिए मान लेंगे। यदि सिद्धांत नरम है (सामाजिक विज्ञानों की तरह) तो अंकित मूल्य पर निष्कर्ष निकालना कठिन होगा।

कभी-कभी आपको लगता है कि ऐसी धारणा है जिसका समर्थन नहीं किया जा सकता है, आपको यह आकलन करना चाहिए कि उन मान्यताओं के प्रशंसनीय उल्लंघनों के प्रति निष्कर्ष कितना संवेदनशील है --- इसे आमतौर पर संवेदनशीलता विश्लेषण कहा जाता है।


क्या एक अतिरिक्त नोड से दो एक-दिशात्मक ठोस तीर के साथ धराशायी द्विदिश तीर को बदलने के बराबर होगा?
टेलर

@ टेलर हाँ, एक अव्यक्त (अपरिपक्व) अतिरिक्त नोड।
कार्लोस सिनेली
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.