एक सांख्यिकीय मॉडल कार्य-कारण के बारे में क्या कह सकता है? सांख्यिकीय मॉडल से कार्य-कारण निष्कर्ष बनाते समय क्या विचार किए जाने चाहिए?
स्पष्ट करने के लिए पहली बात यह है कि आप विशुद्ध रूप से सांख्यिकीय मॉडल से कारण निष्कर्ष नहीं निकाल सकते हैं। कोई भी सांख्यिकीय मॉडल बिना कारण धारणा के कुछ भी नहीं कह सकता है। यही कारण है कि कारण निष्कर्ष बनाने के लिए आपको एक कारण मॉडल की आवश्यकता होती है ।
यहां तक कि सोने के मानक के रूप में मानी जाने वाली किसी चीज में, जैसे कि रैंडमाइज्ड कंट्रोल ट्रायल (आरसीटी), आपको आगे बढ़ने के लिए कारण धारणाएं बनाने की जरूरत है। मुझे यह स्पष्ट करना चाहिए। उदाहरण के लिए, मान लीजिए कि यादृच्छिककरण प्रक्रिया है, ब्याज का उपचार है और ब्याज का परिणाम है। एक सही आरसीटी ग्रहण करते समय, यह वही है जो आप मान रहे हैं:ZXY
इस मामले में इसलिए चीजें अच्छी तरह से काम कर रही हैं। हालांकि, मान लीजिए कि आपके पास अपूर्ण अनुपालन है, जिसके परिणामस्वरूप और बीच एक जटिल संबंध है । तब, अब, आपका आरसीटी इस तरह दिखता है:P(Y|do(X))=P(Y|X)XY
आप अभी भी विश्लेषण का इलाज करने का इरादा कर सकते हैं। लेकिन अगर आप अनुमान लगाना चाहते हैं कि चीजों का वास्तविक प्रभाव अब सरल नहीं है। यह एक इंस्ट्रूमेंटल वैरिएबल सेटिंग है, और यदि आप कुछ पैरामीट्रिक अनुमान लगाते हैं, तो आप इस आशय को पहचानने में सक्षम या बाध्य करने में सक्षम हो सकते हैं ।X
यह और भी जटिल हो सकता है। आपके पास माप त्रुटि की समस्याएं हो सकती हैं, विषय अन्य मुद्दों के बीच अध्ययन को छोड़ सकते हैं या निर्देशों का पालन नहीं कर सकते हैं। आपको इस बारे में धारणा बनाने की आवश्यकता होगी कि उन चीजों को कैसे अनुमान के साथ प्रोसेसे से संबंधित है। "विशुद्ध रूप से" अवलोकन डेटा के साथ यह अधिक समस्याग्रस्त हो सकता है, क्योंकि आमतौर पर शोधकर्ताओं को डेटा बनाने की प्रक्रिया का एक अच्छा विचार नहीं होगा।
इसलिए, उन मॉडलों से कार्य-कारण निष्कर्ष निकालने के लिए जिन्हें आपको न केवल अपनी सांख्यिकीय मान्यताओं का आकलन करना होगा, बल्कि सबसे महत्वपूर्ण रूप से इसकी कारण धारणाएँ भी होंगी। यहाँ कारण विश्लेषण के लिए कुछ सामान्य खतरे हैं:
- अधूरा / imprecise डेटा
- लक्षित कारण की ब्याज की मात्रा अच्छी तरह से परिभाषित नहीं है (क्या कारण प्रभाव है जिसे आप पहचानना चाहते हैं? लक्ष्य लोगों की क्या है?)
- कन्फ़्यूज़िंग (अप्राप्त कन्फ़्यूडर)
- चयन पूर्वाग्रह (स्व-चयन, काटे गए नमूने)
- माप की त्रुटि (जो भ्रामक उत्पन्न कर सकती है, केवल शोर नहीं)
- गलत वर्तनी (जैसे, गलत कार्यात्मक रूप)
- बाहरी वैधता समस्याएं (लक्षित आबादी के लिए गलत अनुमान)
कभी-कभी इन समस्याओं की अनुपस्थिति के दावे (या इन समस्याओं को संबोधित करने का दावा) का अध्ययन के डिजाइन द्वारा ही समर्थन किया जा सकता है। इसलिए प्रायोगिक डेटा आमतौर पर अधिक विश्वसनीय होता है। कभी-कभी, हालांकि, लोग इन समस्याओं को या तो सिद्धांत के साथ या सुविधा के लिए मान लेंगे। यदि सिद्धांत नरम है (सामाजिक विज्ञानों की तरह) तो अंकित मूल्य पर निष्कर्ष निकालना कठिन होगा।
कभी-कभी आपको लगता है कि ऐसी धारणा है जिसका समर्थन नहीं किया जा सकता है, आपको यह आकलन करना चाहिए कि उन मान्यताओं के प्रशंसनीय उल्लंघनों के प्रति निष्कर्ष कितना संवेदनशील है --- इसे आमतौर पर संवेदनशीलता विश्लेषण कहा जाता है।