आप डेटा में कारण संबंध कैसे पाते हैं?


11

आइए कहते हैं कि मेरे पास "A", "B" कॉलम के साथ एक तालिका है

क्या यह निर्धारित करने के लिए एक सांख्यिकीय तरीका है कि "ए" "बी" का कारण बनता है? कोई वास्तव में पियर्सन के आर का उपयोग नहीं कर सकता, क्योंकि:

  • यह केवल मूल्यों के बीच संबंध का परीक्षण करता है
  • सहसंबंध कार्य-कारण नहीं है
  • पियर्सन के r केवल रैखिक संबंधों को सहसंबंधित कर सकते हैं

तो मेरे पास यहां और क्या विकल्प हैं?


1
वहाँ नही है। इस तरह के डेटा से आप सहसंबंध के उच्च स्तर का प्रदर्शन कर सकते हैं; आप कार्य-कारण का प्रदर्शन नहीं कर सकते।


1
कारण सिर्फ कुछ ऐसा नहीं है जिसे आप संख्याओं से निचोड़ सकते हैं ... इसलिए, मेरे बाद दोहराएं: कारण सहसंबंध नहीं है , कारण सहसंबंध नहीं है ...
जेएम एक सांख्यिकीविद्

1
यहूदिया पर्ल (2011 ट्यूरिंग अवार्ड विजेता) द्वारा "कारण" देखें।

जवाबों:


4

अब तक के उत्तर और टिप्पणियां मूल रूप से व्यावहारिक स्तर पर सही हैं, लेकिन पूर्णता के लिए, तथाकथित कार्यदलों के मॉडल में शोध है जो बेयसियन सांख्यिकी और ग्राफ सिद्धांत पर आधारित हैं। इसलिए, हालांकि सामान्य सहसंबंध वास्तव में कार्य का मतलब नहीं है, वहाँ अधिक जटिल मॉडल हैं जो कारण को छेड़ने का प्रयास करते हैं। अधिक जानकारी के लिए यहूदिया पर्ल की पुस्तक Causality देखें, लेकिन यह बहुत भारी शुल्क वाला गणित है और शायद वैसा नहीं है जैसा आप चाहते हैं।


2

कई तथाकथित अर्ध-प्रयोगात्मक विधियां हैं जिनके साथ आप विश्वसनीय रूप से कार्य-कारण के बारे में बहस कर सकते हैं, भले ही आपका डेटा अवलोकनशील हो। ये विधियां आम तौर पर आपके ब्याज के चर में बहिर्जात भिन्नता का स्रोत खोजने पर निर्भर करती हैं।

मुझे लगता है कि "ज्यादातर हानिकारक अर्थमिति" पुस्तक में एक अच्छा और सुलभ अवलोकन दिया गया है। वे मूल रूप से सभी अर्ध-प्रयोगात्मक तरीकों को कवर करते हैं जो लोग (अर्थ: अर्थशास्त्री) (कम से कम कभी-कभी) मानते हैं। वे उदाहरण के लिए trb456 (इसी कारण से: उनमें से कई नहीं मानते हैं) के लिए बताए गए तरीकों को कवर नहीं करते हैं।


1

कार्य-निर्धारण निर्धारित करने के लिए आपको एक यादृच्छिककरण परीक्षण करने की आवश्यकता होती है। आप अपने परीक्षण विषय लेते हैं, और बेतरतीब ढंग से उनमें से आधे को गुणवत्ता ए और आधे को नहीं चुनने के लिए चुनते हैं। फिर आप देखें कि क्या दो समूहों के बीच गुणवत्ता बी में सांख्यिकीय रूप से महत्वपूर्ण अंतर है।

यह महत्वपूर्ण है कि आप किसी भी माप को करने से पहले यादृच्छिककरण करें । विशेष रूप से, यदि आपको और पहले से मापा गया डेटा सेट दिया जाता है, तो कार्य-कारण निर्धारित करना असंभव है।बी

ध्यान दें कि आप जो यादृच्छिकरण परीक्षण करना चाहते हैं, उसे करना असंभव हो सकता है। उदाहरण के लिए, यदि आप अधिक वजन का कारण बनते हैं तो आप कैसे परीक्षण कर सकते हैं? निश्चित रूप से ऊंचाई और वजन के बीच एक संबंध है, लेकिन आप लोगों के एक समूह को 'लंबा' समूह और एक को 'छोटे' समूह के रूप में नहीं बता सकते हैं। इस स्थिति में, रेंडमाइजेशन टेस्ट नहीं किया जा सकता है।


0

सोमरस के अध्यादेशों के बीच संबंध को एक तरह से समझाने के लिए काम करता है, जो कि पियर्सन के सहसंबंध गुणांक डेटा सेट के लिए करता है।


1
मैं मानता हूं कि कार्य-कारण स्थापित करने में संख्या से अधिक समय लगता है। क्रमिक चर का उपयोग प्रश्न में कैसे प्रवेश करता है?
माइकल आर। चेर्निक

1
@MichaelChernick सोमरस डी एसोसिएशन का एक असममित माप है। यह भेद कर सकते हैं के बीच "अगर यह बारिश हो रही है, तो यह बादल है, 'से" अगर यह बादल है, तो यह बारिश हो रही है "यह क्रमसूचक या उच्चतर डेटा के लिए काम करता है यह करणीय स्थापित नहीं करता है, लेकिन यह दिशात्मकता की स्थापना करता
डेव हैरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.