यहूदिया पर्ल की पुस्तक क्यों: वह आंकड़ों को क्यों कोस रही है?


79

मैं पढ़ रहा हूँ क्यों की पुस्तक यहूदिया पर्ल द्वारा, और यह मेरी त्वचा के नीचे हो रही है 1 । विशेष रूप से, यह मुझे प्रतीत होता है कि वह बिना भूखे आदमी के तर्क को रखकर "शास्त्रीय" आँकड़ों को काट रहा है, क्योंकि आँकड़े कभी भी, कार्य-कारण संबंधों की जांच करने में सक्षम नहीं हैं, कि यह कार्य-कारण संबंधों में कभी दिलचस्पी नहीं लेता है, और यह आँकड़े "एक मॉडल बन गए हैं" -ब्लेंडेड डेटा-रिडक्शन एंटरप्राइज ”। सांख्यिकी उनकी किताब में एक बदसूरत शब्द है।

उदाहरण के लिए:

सांख्यिकीविदों को इस बात पर बहुत भ्रम हो गया है कि चर किसके लिए नियंत्रित होने चाहिए और क्या नहीं, इसलिए हर चीज को मापने के लिए डिफ़ॉल्ट अभ्यास को नियंत्रित किया जाना चाहिए। [...] यह पालन करने के लिए एक सुविधाजनक, सरल प्रक्रिया है, लेकिन यह त्रुटियों के साथ बेकार और कठोर दोनों है। कोशल क्रांति की एक महत्वपूर्ण उपलब्धि इस भ्रम को समाप्त करना है।

इसी समय, सांख्यिकीविद् इस अर्थ में नियंत्रण में रहते हैं कि वे कार्य-कारण के बारे में बात करने के लिए लालायित हैं [...]

हालाँकि, कारण मॉडल हमेशा की तरह आँकड़ों में रहे हैं। मेरा मतलब है, एक प्रतिगमन मॉडल का उपयोग अनिवार्य रूप से एक कारण मॉडल के रूप में किया जा सकता है, क्योंकि हम अनिवार्य रूप से मान रहे हैं कि एक चर कारण है और दूसरा प्रभाव है (इसलिए प्रतिगमन प्रतिगमन मॉडलिंग से अलग दृष्टिकोण है) और परीक्षण करना कि क्या यह कारण संबंध मनाया पैटर्न बताते हैं ।

एक और उद्धरण:

कोई आश्चर्य नहीं कि विशेष रूप से सांख्यिकीविदों को इस पहेली [द मोंटी हॉल समस्या] को समझने में मुश्किल हुई। आरए फिशर (1922) ने इसे "डेटा की कमी" और डेटा-जनरेटिंग प्रक्रिया की अनदेखी के रूप में देखा।

यह मुझे उस उत्तर की याद दिलाता है जो एंड्रयू गेलमैन ने बेइज़ियन और फ़्रीविज़न पर प्रसिद्ध xkcd कार्टून को लिखा था : "फिर भी, मुझे लगता है कि कार्टून पूरी तरह से अनुचित है क्योंकि यह एक समझदार बेइज़ियन की तुलना अक्सर एक सांख्यिकीविद् से करता है जो उथली पाठ्यपुस्तकों की सलाह का आँख बंद करके अनुसरण करता है। । "

एस-शब्द की गलत व्याख्या की मात्रा, जैसा कि मुझे लगता है, यहूदिया मोतियों की किताब में मौजूद है, मुझे आश्चर्य हुआ कि क्या कारण निष्कर्ष (जो कि वैज्ञानिक परिकल्पना 2 के आयोजन और परीक्षण के एक उपयोगी और दिलचस्प तरीके के रूप में माना जाता है ) संदिग्ध है।

प्रश्न: क्या आपको लगता है कि यहूदिया पर्ल आंकड़ों को गलत तरीके से पेश कर रहा है, और यदि हाँ, तो क्यों? सिर्फ कारण निष्कर्ष ध्वनि से बड़ा बनाने के लिए है? क्या आपको लगता है कि कारण निष्कर्ष एक बड़ी आर के साथ एक क्रांति है जो वास्तव में हमारी सभी सोच को बदल देता है?

संपादित करें:

ऊपर दिए गए प्रश्न मेरे मुख्य मुद्दे हैं, लेकिन जब से वे स्वीकार किए जाते हैं, माना जाता है, कृपया इन ठोस सवालों के जवाब दें (1) "कारण क्रांति" का क्या अर्थ है? (२) यह "रूढ़िवादी" आँकड़ों से कैसे भिन्न है?

1. इसके अलावा, क्योंकि वह है इस तरह के एक मामूली आदमी।
2. मैं वैज्ञानिक अर्थ में हूं, सांख्यिकीय अर्थ नहीं।

EDIT : एंड्रयू जेलमैन ने इस ब्लॉग पोस्ट को यहूदिया पर्ल्स बुक पर लिखा और मुझे लगता है कि उन्होंने इस किताब के साथ मेरी समस्याओं को समझाने की तुलना में बहुत बेहतर काम किया। यहाँ दो उद्धरण हैं:

पुस्तक के पृष्ठ 66 पर, पर्ल और मैकेंज़ी लिखते हैं कि आँकड़े "एक मॉडल-अंधा डेटा कटौती उद्यम बन गए हैं।" अरे! ये क्या बात कर रहे हो?? मैं एक सांख्यिकीविद् हूं, मैं 30 साल से आंकड़े दे रहा हूं, राजनीति से लेकर विष विज्ञान तक के क्षेत्रों में काम कर रहा हूं। "मॉडल-अंधा डेटा में कमी"? वह सिर्फ बकवास है। हम हर समय मॉडल का उपयोग करते हैं।

और दूसरा:

देखो। मुझे बहुलतावादी की दुविधा के बारे में पता है। एक तरफ, पर्ल का मानना ​​है कि उनके तरीके पहले से आई हर चीज से बेहतर हैं। ठीक। उसके लिए, और कई अन्य लोगों के लिए, वे कारण निष्कर्ष का अध्ययन करने के लिए सबसे अच्छे उपकरण हैं। उसी समय, एक बहुलवादी, या वैज्ञानिक इतिहास के एक छात्र के रूप में, हम महसूस करते हैं कि केक को सेंकने के कई तरीके हैं। यह उन दृष्टिकोणों के प्रति सम्मान दिखाना चुनौतीपूर्ण है जो आप वास्तव में आपके लिए काम नहीं करते हैं, और कुछ बिंदु पर ऐसा करने का एकमात्र तरीका यह है कि आप कदम बढ़ाएं और महसूस करें कि वास्तविक लोग वास्तविक समस्याओं को हल करने के लिए इन विधियों का उपयोग करते हैं। उदाहरण के लिए, मुझे लगता है कि पी-वैल्यू का उपयोग करके निर्णय लेना एक भयानक और तार्किक रूप से असंगत विचार है जिसके कारण बहुत सी वैज्ञानिक आपदाएँ आई हैं; एक ही समय में, कई वैज्ञानिक सीखने के लिए उपकरण के रूप में पी-मूल्यों का उपयोग करने का प्रबंधन करते हैं। मैं उसे पहचानता हूं। इसी तरह, मेरा सुझाव है कि पर्ल यह पहचानता है कि सांख्यिकी, पदानुक्रमित प्रतिगमन मॉडलिंग, अंतःक्रियात्मकता, पदावनति, मशीन अधिगम इत्यादि के उपकरण वास्तविक कार्य समस्याओं को हल करते हैं। पर्ल के जैसे हमारे तरीके भी गड़बड़ कर सकते हैं- जीजीओ! -और शायद पर्ल का अधिकार है कि हम सभी उनके दृष्टिकोण पर स्विच करने के लिए बेहतर होंगे। लेकिन मुझे नहीं लगता कि यह मदद कर रहा है जब वह हमारे बारे में गलत बयान देता है।


41
रैखिक प्रतिगमन एक कारण मॉडल नहीं है। सरल रैखिक प्रतिगमन युग्मक सहसंबंध के समान है , एकमात्र अंतर स्टैंडराइजेशन है । इसलिए यदि आप कहते हैं कि प्रतिगमन कारण है, तो सहसंबंध के लिए भी यही सच होना चाहिए। क्या सहसंबंध कार्य-कारण है? आप जो भी अनुमान लगाने के लिए प्रतिगमन का उपयोग कर सकते हैं, किसी भी मनमाने ढंग से चर (कई "महत्वपूर्ण" परिणाम के साथ मौका के बीच संबंध)।
टिम

8
असहमति जिस पर आंकड़ों में तर्कशीलता के बारे में तर्क करने की प्रवृत्ति होती है, पर्ल, रुबिन, हेकमैन और अन्य लोगों के बीच सबसे अधिक योग्यता होती है, और मुझे लगता है कि पर्ल का स्वर कभी-कभी हाहाकार कर रहा है। ऐसा मत करो कि वह आपको उस वास्तविक अंतर्दृष्टि से विचलित कर दे जो उसने पेश की है। उनकी पहले की किताब Causality को पढ़ें, यह आपकी त्वचा के नीचे कम हो जाएगी।
बंद करें

7
@CloseToC मैं यह जोड़ना चाहूंगा कि पर्ल, रुबिन और हेकमैन एक तरह से सभी एक ही ढांचे के भीतर काम कर रहे हैं (यानी, तार्किक रूप से समतुल्य चौखटे, यहां देखें आंकड़े ।stackexchange.com/questions/249767/… ), इसलिए उनके विवाद एक अलग तरीके से हैं "रैखिक प्रतिगमन एक कारण मॉडल है" जैसी बहस करने वाली चीजों से स्तर।
कार्लोस सिनेली

9
मुझे खुद किताब से चिढ़ है। वहाँ बस कुछ झूठे सांख्यिकीय दावे हैं (अब उद्धृत नहीं कर सकते, मार्जिन में मेरे नोट्स के साथ पुस्तक घर पर है) जिसने मुझे आश्चर्यचकित किया कि क्या केवल पर्ल को किताब लिखने में मदद करने वाले पर्ल या स्वयं पर्ल एक गरीब सांख्यिकीविद् थे। (कहने की जरूरत नहीं है, मैं इस तरह के एक श्रद्धेय वैज्ञानिक के काम में ऐसी ज़बरदस्त गलतियों को जानकर बहुत हैरान था।) उनके पेपर बहुत बेहतर हैं, हालांकि यहां तक ​​कि पर्ल पर विनय के लिए कोई भी आरोप नहीं लगाएगा ...
रिचर्ड हार्डी

15
मुझे कुछ चिंता है कि यह धागा पहले से ही एक साथ उलझता है (ए) एक बहुत ही स्मार्ट व्यक्ति (बी) से एक विशिष्ट पुस्तक है कि स्मार्ट व्यक्ति की व्यक्तित्व और बहस की शैली (सी) कि क्या एक विशेष दृष्टिकोण सही है, अतिरंजित है, या जो भी हो।
निक कॉक्स

जवाबों:


59

मैं इस बात से पूरी तरह सहमत हूं कि पर्ल का स्वर अभिमानी है, और "सांख्यिकीविदों" का उनका चरित्र वर्णन सरल और एकात्मक है। इसके अलावा, मुझे उनका लेखन विशेष रूप से स्पष्ट नहीं लगता है।

हालांकि, मुझे लगता है कि उसके पास एक बिंदु है।

कारण तर्क मेरे औपचारिक प्रशिक्षण (एमएससी) का हिस्सा नहीं था: विषय के लिए निकटतम मैं प्रयोगात्मक डिजाइन में एक वैकल्पिक पाठ्यक्रम था, अर्थात किसी भी कारण का दावा मुझे शारीरिक रूप से पर्यावरण को नियंत्रित करने की आवश्यकता थी। पर्ल की पुस्तक कॉजेलिटी इस विचार के खंडन के लिए मेरा पहला प्रदर्शन थी। जाहिर है मैं सभी सांख्यिकीविदों और पाठ्यक्रम के लिए बात नहीं कर सकता, लेकिन अपने स्वयं के दृष्टिकोण से मैं पर्ल के अवलोकन के लिए सदस्यता लेता हूं कि आंकड़ों में तर्क की प्राथमिकता प्राथमिकता नहीं है।

यह सच है कि सांख्यिकीविद् कभी-कभी कड़ाई से अधिक चर के लिए नियंत्रण करते हैं, लेकिन यह शायद ही कभी त्रुटि की ओर जाता है (कम से कम मेरे अनुभव में)।

यह भी एक धारणा है जो मैंने 2010 में एमएससी के साथ सांख्यिकी में स्नातक करने के बाद आयोजित की थी।

हालाँकि, यह गहरा गलत है। जब आप एक सामान्य प्रभाव (किताब में "कोलाइडर") को नियंत्रित करते हैं, तो आप चयन पूर्वाग्रह का परिचय दे सकते हैं। यह अहसास मेरे लिए काफी हैरान करने वाला था, और इसने मुझे वास्तव में ग्राफ के रूप में मेरे कारण परिकल्पनाओं का प्रतिनिधित्व करने की उपयोगिता के बारे में आश्वस्त किया।

EDIT: मुझे चयन पूर्वाग्रह के बारे में विस्तार से पूछा गया। यह विषय काफी सूक्ष्म है, मैं कोशिक आरेखों पर edX MOOC को अत्यधिक प्रभावित करने की सलाह देता हूं, रेखांकन के लिए एक बहुत अच्छा परिचय है जिसमें एक अध्याय चयन पूर्वाग्रह को समर्पित है।

एक खिलौना उदाहरण के लिए, इस पत्र को पुस्तक में उद्धृत करने के लिए: चर ए = आकर्षण, बी = सौंदर्य, सी = क्षमता पर विचार करें। मान लीजिए कि सामान्य जनसंख्या में B और C यथोचित रूप से असंबंधित हैं (अर्थात, सुंदरता क्षमता का कारण नहीं बनती है, क्षमता सुंदरता का कारण नहीं बनती है, और सुंदरता और क्षमता एक सामान्य कारण साझा नहीं करते हैं)। मान लीजिए कि बी या सी में से कोई भी आकर्षक होने के लिए पर्याप्त है, यानी ए एक कोलाइडर है। A पर कंडीशनिंग B और C के बीच एक सहज जुड़ाव बनाती है।

एक अधिक गंभीर उदाहरण "जन्म वजन विरोधाभास" है, जिसके अनुसार गर्भावस्था के दौरान एक माँ का धूम्रपान (एस) शिशु की मृत्यु दर (एम) को कम करता है, अगर बच्चा कम वजन (यू) है। प्रस्तावित व्याख्या यह है कि जन्म दोष (डी) कम जन्म का कारण बनता है, और मृत्यु दर में भी योगदान देता है। संबंधित कारण आरेख {S -> U, D -> U, U -> M, S -> M, D -> M} है जिसमें U एक कोलाइडर है; इस पर कंडीशनिंग संयमी संघ का परिचय देती है। इसके पीछे अंतर्ज्ञान यह है कि यदि मां धूम्रपान न करने वाली है, तो जन्म के समय कम वजन एक दोष के कारण होने की संभावना कम है।


8
+1। क्या आप इस बारे में थोड़ा और विस्तार से बता सकते हैं कि यह चयन पूर्वाग्रह का परिचय कैसे देता है? शायद थोड़ा सा ठोस उदाहरण अधिकांश पाठकों के लिए स्पष्ट कर देगा।
अमीबा

2
संपादन के लिए धन्यवाद। ये बहुत स्पष्ट उदाहरण हैं।
अमीबा

तो, धूम्रपान करने वालों के बच्चों के कम जन्म के वजन के लिए अंतर्ज्ञान, सही है, है ना?
मालदीव

@ मैलांडी: यह मॉडल डेटा के अनुरूप है, और सहज ज्ञान युक्त बनाता है। मुझे नहीं पता कि यह सही है या नहीं।
मिचस २०'१


71

आपका बहुत सवाल दर्शाता है कि पर्ल क्या कह रहा है!

एक सरल रैखिक प्रतिगमन अनिवार्य रूप से एक कारण मॉडल है

नहीं, एक रेखीय प्रतिगमन एक सांख्यिकीय मॉडल है, एक कारण मॉडल नहीं। मान लें कि एक बहुभिन्नरूपी सामान्य वितरण के साथ यादृच्छिक चर हैं। तब आप रेखीय अपेक्षाओं का सही अनुमान लगा सकते हैं , , , आदि रैखिक प्रतिगमन का उपयोग करते हुए, लेकिन यहाँ कुछ भी नहीं है जो कहता है कि क्या उन मात्राओं में से कोई भी कारण नहीं है।Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY,X]

एक रैखिक संरचनात्मक समीकरण, दूसरी ओर, एक कारण मॉडल है। लेकिन पहला कदम सांख्यिकीय मान्यताओं (मनाया संयुक्त संभावना वितरण पर अड़चन) और कारण धारणाओं (कारण मॉडल पर अड़चन) के बीच अंतर को समझना है।

क्या आपको लगता है कि जूडा पर्ल आंकड़ों को गलत तरीके से पेश कर रहा है, और यदि हाँ, तो क्यों?

नहीं, मुझे ऐसा नहीं लगता, क्योंकि हम इन गलत धारणाओं को रोज देखते हैं। बेशक, पर्ल कुछ सामान्यीकरण कर रहा है, क्योंकि कुछ सांख्यिकीविद् कारण के साथ काम करते हैं (डॉन रुबिन संभावित परिणामों को बढ़ावा देने में अग्रणी था ... साथ ही, मैं एक सांख्यिकीविद् हूं!)। लेकिन वह यह कहने में सही है कि पारंपरिक सांख्यिकी शिक्षा का थोक कार्य-कारण को तोड़ देता है, यहां तक ​​कि औपचारिक रूप से यह परिभाषित करता है कि एक कारण क्या है।

यह स्पष्ट करने के लिए, अगर हम एक नियमित रूप से प्रशिक्षण के साथ एक सांख्यिकीविद् / अर्थशास्त्री से पूछते हैं कि गणितीय रूप से परिभाषित करने के लिए का अपेक्षित मूल्य क्या है यदि हम पर हस्तक्षेप करते हैं , तो वह शायद लिखेगा (यहाँ एक उदाहरण देखें) ! लेकिन यह एक पर्यवेक्षणीय मात्रा है, यह नहीं है कि आप एक कारण प्रभाव को कैसे परिभाषित करते हैं ! अन्य शब्दों में, वर्तमान में, केवल एक पारंपरिक सांख्यिकी पाठ्यक्रम वाले छात्र में गणितीय रूप से इस मात्रा को ठीक से परिभाषित करने की क्षमता का अभाव है ( या ) यदि आप परिचित नहीं हैं । कार्य-कारण का संरचनात्मक / प्रतिपक्षीय सिद्धांत !YXE[Y|X] [ वाई एक्स ] [ वाई | d o ( x ) ]E[Yx]E[Y|do(x)]

पुस्तक से आपके द्वारा लाया गया उद्धरण भी एक बेहतरीन उदाहरण है। आप पारंपरिक सांख्यिकी पुस्तकों में नहीं पाएंगे कि एक कन्फ्यूडर की सही परिभाषा क्या है, और न ही इस बारे में मार्गदर्शन कि आपको कबूल करना चाहिए (या नहीं) अवलोकन संबंधी अध्ययन में एक कोवरिएट के लिए समायोजित करना चाहिए। सामान्य तौर पर, आप "सहसंबंधीय मानदंड" देखते हैं, जैसे कि "यदि सहसंयोजक उपचार के साथ जुड़ा हुआ है और परिणाम के साथ, आपको इसके लिए समायोजित करना चाहिए"। इस भ्रम के सबसे उल्लेखनीय उदाहरणों में से एक सिम्पसन के विरोधाभास में दिखाई देता है - जब विपरीत संकेतों के दो अनुमानों का सामना करना पड़ता है, तो आपको किसका उपयोग करना चाहिए, समायोजित या अनुचित? निश्चित रूप से, उत्तर, कारण मॉडल पर निर्भर करता है।

और पर्ल का क्या मतलब है जब वह कहता है कि यह प्रश्न समाप्त हो गया था? प्रतिगमन के माध्यम से सरल समायोजन के मामले में, वह पिछले दरवाजे की कसौटी का उल्लेख कर रहा है (यहाँ और देखें) । और सामान्य में पहचान के लिए --- सरल समायोजन से परे --- उसका मतलब है कि अब हमारे पास किसी भी अर्ध-मार्कोवियन डीएजी के लिए कारण प्रभावों की पहचान के लिए पूर्ण एल्गोरिदम हैं।

यहाँ एक और टिप्पणी करने योग्य है। प्रायोगिक अध्ययन में भी - जहाँ पारंपरिक आँकड़ों ने प्रयोगों के डिजाइन के साथ बहुत महत्वपूर्ण काम किया है! - दिन के अंत में आपको अभी भी एक कारण मॉडल की आवश्यकता है प्रयोग अनुपालन में कमी, अनुवर्ती हानि से, चयन पूर्वाग्रह से ग्रस्त हो सकते हैं ... इसके अलावा, अधिकांश समय आप अपने प्रयोगों के परिणामों को आपके द्वारा विश्लेषण की गई विशिष्ट आबादी तक सीमित नहीं करना चाहते हैं, आप अपना सामान्यीकरण करना चाहते हैं। एक व्यापक / विभिन्न आबादी के लिए प्रयोगात्मक परिणाम। यहां, फिर से, एक पूछ सकता है: आपको किसके लिए समायोजित करना चाहिए? क्या इस तरह के एक्सट्रपलेशन की अनुमति देने के लिए आपके पास पर्याप्त डेटा और पर्याप्त ज्ञान है? ये सभी कारण अवधारणाएं हैं, इस प्रकार आपको औपचारिक रूप से कारण धारणाएं व्यक्त करने के लिए एक भाषा की आवश्यकता है और जांचें कि क्या वे आपको वह करने की अनुमति देने के लिए पर्याप्त हैं जो आप चाहते हैं!

संक्षेप में, ये ग़लतफ़हमी आँकड़ों और अर्थमिति में व्यापक हैं, यहाँ कई उदाहरण हैं क्रॉस वैलिडेटेड, जैसे:

और बहुत सारे।

क्या आपको लगता है कि कारण निष्कर्ष एक बड़ी आर के साथ एक क्रांति है जो वास्तव में हमारी सभी सोच को बदल देता है?

कई विज्ञानों की वर्तमान स्थिति को देखते हुए, हम कितने उन्नत हुए हैं और कितनी तेजी से चीजें बदल रही हैं, और हम अभी भी कितना कर सकते हैं, मैं कहूंगा कि यह वास्तव में एक क्रांति है।

पुनश्च : पर्ल ने यूसीएलए के कार्य-कारण ब्लॉग पर अपने दो पदों का सुझाव दिया, जो इस चर्चा के लिए हितकारी होंगे, आप यहां और यहां पोस्ट पा सकते हैं।

PS 2 : जैसा कि जनवरी ने अपने नए संपादन में उल्लेख किया है, एंड्रयू जेलमैन नेअपने ब्लॉग मेंएक नया पोस्ट किया है। जेलमैन के ब्लॉग पर बहस के अलावा, पर्ल ने ट्विटर पर भी जवाब दिया है (नीचे):

गेलमैन की #Bookofwhy की समीक्षा रुचि की होनी चाहिए क्योंकि यह एक दृष्टिकोण का प्रतिनिधित्व करता है जो सांख्यिकीय शोधकर्ताओं के व्यापक हलकों को लकवाग्रस्त करता है। मेरी प्रारंभिक प्रतिक्रिया अब https://t.co/mRyDcgQtEc संबंधित पोस्ट पर पोस्ट की गई है:https://t.co/xUwR6eCGrZ औरhttps://t.co/qwqV3oyGUy

- जूडी पर्ल (@yudapearl) 9 जनवरी, 2019


4
धन्यवाद। लेकिन - ठीक है, सरल रूप से लिखते हुए, मैं E [X | Y] के साथ-साथ E [Y | X] की गणना कर सकता हूं, लेकिन मैं एक DAG में X as Y के साथ-साथ X → Y भी लिख सकता हूं। एक तरह से या अन्य, मुझे एक वैज्ञानिक परिकल्पना या एक मॉडल के साथ शुरू करना चाहिए । मेरी परिकल्पना, मेरा मॉडल - मेरी पसंद। बहुत तथ्य यह है कि मैं कुछ कर सकता है इसका मतलब यह नहीं है कि मुझे यह करना चाहिए, यह करता है।
जनवरी

3
@ जंगल का मतलब यह नहीं है कि आपको यहाँ बिंदु केवल उस चीज़ के बारे में स्पष्ट रूप से व्यक्त करने में सक्षम होना चाहिए जिसे आप अनुमान लगाना चाहते हैं (कारण का अनुमान), आपके कार्य की मान्यताओं को सटीक रूप से स्पष्ट करना (कारण और सांख्यिकीय मान्यताओं के भेद को स्पष्ट करना), जाँच करना उन कारण धारणाओं के तार्किक निहितार्थ और यह समझने में सक्षम हैं कि क्या आपकी कारण धारणाएं + डेटा आपकी क्वेरी का उत्तर देने के लिए पर्याप्त हैं।
कार्लोस सिनेली

3
@ जुनेरे का कहना है कि आपके पास एक अवलोकन अध्ययन है और पर के कारण के प्रभाव का अनुमान लगाना चाहते हैं । आप कैसे तय करते हैं कि आपके प्रतिगमन में कौन से कोविरेट्स शामिल हैं? वाईXY
कार्लोस सिनेली

4
मुझे ऐसा लगता है: यह सुझाव देना पूरी तरह से अनुचित नहीं है कि आपके औसत सांख्यिकीविद्, जबकि संभावित रूप से नियंत्रित प्रयोगों से कारण निष्कर्ष के बारे में अच्छी तरह से वाकिफ हैं, और निश्चित रूप से करणीय के साथ सहसंबंध को भ्रमित करने का कोई खतरा नहीं है, अवलोकन से निष्कर्ष की वजह से थोड़ा अस्थिर हो सकता है डेटा। मैं अंतिम उद्धरण के संदर्भ में लेता हूं (मैंने पुस्तक नहीं पढ़ी है) और यह कुछ ऐसा है जो इस पोस्ट के कुछ पाठकों पर नहीं हो सकता है।
Scortchi

5
@ जीनचेयर संक्षेप में "कोवरिएट्स के लिए समायोजन" का मतलब यह नहीं है कि आपने अपने चर से कारण प्रभाव अनुमानों में पूर्वाग्रह को समाप्त कर दिया है।
एलेक्सिस

31

मैं यहूदिया के लेखन का प्रशंसक हूं, और मैंने कॉजेलिटी (प्रेम) और बुक ऑफ व्हाई (जैसे) को पढ़ा है।

मुझे नहीं लगता कि यहूदिया आंकड़ों को कोस रहा है। आलोचना सुनना कठिन है। लेकिन हम किसी ऐसे व्यक्ति या क्षेत्र के बारे में क्या कह सकते हैं जो आलोचना नहीं करता है? उनमें महानता से लेकर शालीनता तक होती है। आपको पूछना चाहिए: क्या आलोचना सही, आवश्यक, उपयोगी है, और क्या यह विकल्पों का प्रस्ताव है? उन सभी का जवाब एक जोरदार "हां" है।

सही बात? मैंने कुछ दर्जन पत्रों पर समीक्षा और सहयोग किया है, जिनमें अधिकतर अवलोकन डेटा का विश्लेषण है, और मुझे शायद ही कभी लगता है कि कार्य-कारण की पर्याप्त चर्चा है। "समायोजन" दृष्टिकोण में चर का चयन करना शामिल है क्योंकि उन्हें डीडी से "उपयोगी" "प्रासंगिक" "महत्वपूर्ण" या अन्य बकवास के रूप में हाथ से चुना गया था। 1

जरूरत है? मीडिया प्रमुख जोखिमों के स्वास्थ्य प्रभावों के बारे में प्रतीत होता है कि विरोधाभासी बयानों के साथ जाग रहा है। डेटा विश्लेषण के साथ असंगति ने सबूतों को स्थिर कर दिया है जो हमें उपयोगी नीति, स्वास्थ्य प्रक्रियाओं, और बेहतर जीवन के लिए सिफारिशों की कमी को छोड़ देता है।

उपयोगी? यहूदिया की टिप्पणी विराम देने के लिए पर्याप्त और विशिष्ट है। यह किसी भी डेटा विश्लेषण किसी भी सांख्यिकीविद् या डेटा विशेषज्ञ का सामना करने के लिए सीधे प्रासंगिक हो सकता है।

क्या यह विकल्पों का प्रस्ताव करता है? हाँ, यहूदिया वास्तव में उन्नत सांख्यिकीय तरीकों की संभावना पर चर्चा करता है, और यहां तक ​​कि वे ज्ञात सांख्यिकीय रूपरेखाओं (जैसे संरचनात्मक समीकरण मॉडलिंग) और उनके प्रतिगमन मॉडल के संबंध को कैसे कम करते हैं। यह मॉडलिंग ज्ञान को निर्देशित करने वाले सामग्री ज्ञान के एक स्पष्ट विवरण की आवश्यकता के लिए उबलता है।

यहूदिया केवल सुझाव नहीं दे रहा है कि हम सभी सांख्यिकीय तरीकों (जैसे प्रतिगमन) को ख़राब कर दें। बल्कि, वह कह रहा है कि हमें मॉडलों को सही ठहराने के लिए कुछ कारण सिद्धांत अपनाने की आवश्यकता है।

1 यहाँ शिकायत यह है कि अंतत: मॉडलिंग के लिए गलत दृष्टिकोण को सही ठहराने के लिए ठोस और अभद्र भाषा के उपयोग के बारे में है। ओवरलैप हो सकता है, गंभीर रूप से, लेकिन पर्ल एक कारण आरेख (डीएजी) के उद्देश्य के बारे में स्पष्ट है और चर को "कन्फ़्यूडर" के रूप में वर्गीकृत किया जा सकता है।


3
अच्छा जवाब। ध्यान दें कि एक सांख्यिकीविद् नहीं है, लेकिन कई वर्षों से सांख्यिकी और जीव विज्ञान के बीच एक इंटरफ़ेस के रूप में कार्य कर रहा है, मेरे लिए सांख्यिकीविदों की किसी भी आलोचना को सुनना वास्तव में इतना कठिन नहीं है;; हालांकि, क्या आप वास्तव में सोचते हैं कि "रूढ़िवादी आँकड़े" कार्य-कारण नहीं बन सकते हैं बिल्कुल, पर्ल स्पष्ट रूप से बताता है?
जनवरी

4
@ जैनचेन एयू गर्भनिरोधक । मुझे लगता है कि सांख्यिकीविदों के बीच उनके विश्लेषण में कारण की स्वीकार्यता को स्वीकार करने में कमी का सीधा संबंध उनकी कमी से है। यह उचित तर्क है कि अभाव है।
आदमियो

4
+1 "" समायोजन उपयोगी "" प्रासंगिक "" महत्वपूर्ण "या अन्य बकवास" दृष्टिकोण चर का चयन वे होने के रूप में डीडी से विशेष रूप से चुनी रहे थे क्योंकि शामिल है " वास्तव में उन के बीच में विशिष्ट अनौपचारिक सम्बन्ध के बारे में औपचारिक परिकल्पना को शामिल किए बिना ( एक ला DAG का औपचारिक उपयोग) । " जोड़ा गया। :)
एलेक्सिस

टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
Scortchi

23

मैंने इस पुस्तक को नहीं पढ़ा है, इसलिए मैं केवल आपके द्वारा दिए गए विशेष उद्धरण का न्याय कर सकता हूं। हालाँकि, इस आधार पर भी, मैं आपसे सहमत हूँ कि यह सांख्यिकीय पेशे के लिए बहुत अनुचित लगता है। मुझे वास्तव में लगता है कि सांख्यिकीविदों ने हमेशा सांख्यिकीय संघों (सहसंबंध, आदि) और कार्य-कारण के बीच के अंतर पर जोर देने और दोनों के टकराव के खिलाफ चेतावनी देने का अच्छा काम किया है। वास्तव में, मेरे अनुभव में, सांख्यिकीविद् आमतौर पर प्राथमिक व्यावसायिक बल रहे हैं, जो कि कारण और सहसंबंध के बीच सर्वव्यापी भ्रम के खिलाफ लड़ रहे हैं। यह स्पष्ट रूप से गलत है (और वस्तुतः निंदा) यह दावा करने के लिए कि सांख्यिकीविद् हैं "... करणीय के बारे में बात करने के लिए घृणा करते हैं।" मैं देख सकता हूं कि आप इस तरह अभिमानी घोड़े की नाल पढ़ने से क्यों नाराज हैं।

मैं कहूंगा कि यह गैर-सांख्यिकीविदों के लिए काफी सामान्य हैजो सांख्यिकीय मॉडल का उपयोग करते हैं, सांख्यिकीय एसोसिएशन और कार्य-कारण के बीच संबंधों की खराब समझ रखते हैं। कुछ अन्य क्षेत्रों से अच्छा वैज्ञानिक प्रशिक्षण लेते हैं, इस मामले में वे इस मुद्दे से अच्छी तरह से वाकिफ हो सकते हैं, लेकिन निश्चित रूप से कुछ लोग ऐसे हैं जो सांख्यिकीय मॉडल का उपयोग करते हैं, जिनके पास इन मुद्दों की खराब समझ है। यह कई लागू वैज्ञानिक क्षेत्रों में सच है जहां चिकित्सकों के पास सांख्यिकी में बुनियादी प्रशिक्षण है, लेकिन इसे गहरे स्तर पर नहीं सीखते हैं। इन मामलों में यह अक्सर पेशेवर सांख्यिकीविद् होते हैं जो अन्य शोधकर्ताओं को इन अवधारणाओं और उनके उचित संबंध के बीच के अंतर के लिए सचेत करते हैं। सांख्यिकीविद अक्सर आरसीटी और अन्य प्रयोगों के प्रमुख डिज़ाइनर होते हैं, जिनमें नियंत्रण से जुड़े कार्य शामिल होते हैं जो कार्य-कारण को अलग-थलग करते हैं। उन्हें अक्सर रैंडमाइजेशन, प्लेसबोस जैसे प्रोटोकॉल समझाने के लिए बुलाया जाता है, और अन्य प्रोटोकॉल जो संभावित भ्रमित चर के साथ संबंधों को अलग करने की कोशिश करने के लिए उपयोग किए जाते हैं। यह सच है कि सांख्यिकीविद कभी-कभी अधिक चर के लिए नियंत्रण से कड़ाई से आवश्यक होते हैं, लेकिन इससे शायद ही कभी त्रुटि होती है (कम से कम मेरे अनुभव में)। मुझे लगता है कि अधिकांश सांख्यिकीविदों के बीच अंतर के बारे में पता हैजब वे औचित्य के नजरिए से प्रतिगमन विश्लेषण करते हैं, तो वे परिवर्तनशील और कोलाइडर चर को भ्रमित करते हैं, और भले ही वे हमेशा सही मॉडल का निर्माण नहीं कर रहे हों, यह धारणा कि वे किसी भी तरह से कार्य-कारण के बारे में सोचते हैं, बस हास्यास्पद है।

मुझे लगता है कि यहूदिया पर्ल ने अपने कार्य-कारण के साथ आँकड़ों में बहुत मूल्यवान योगदान दिया है, और मैं इस अद्भुत योगदान के लिए उनका आभारी हूँ। उन्होंने कुछ बहुत ही उपयोगी औपचारिकताओं का निर्माण और परीक्षण किया है जो कार्य-कारण संबंधों को अलग करने में मदद करते हैं, और उनका काम एक अच्छी सांख्यिकीय शिक्षा का एक प्रमुख अंग बन गया है। मैंने उनकी पुस्तक कॉजेलिटी पढ़ीजब मैं एक स्नातक छात्र था, और यह मेरी शेल्फ पर है, और कई अन्य सांख्यिकीविदों की अलमारियों पर है। इस औपचारिकता की बहुत सी बातें जो सांख्यिकीविदों को सहज रूप से ज्ञात हैं, क्योंकि उन्हें बीजगणितीय प्रणाली में औपचारिक रूप दिया गया था, लेकिन यह किसी भी मामले में बहुत मूल्यवान है, और इससे परे है जो स्पष्ट है। (मैं वास्तव में सोचता हूं कि भविष्य में हम एक स्वयंसिद्ध स्तर पर होने वाली संभाव्यता बीजगणित के साथ "डू" ऑपरेशन का विलय देखेंगे, और यह संभवतः संभावना सिद्धांत का मूल बन जाएगा। मैं इसे सीधे सांख्यिकीय शिक्षा में देखना पसंद करूंगा। , ताकि आप कारण मॉडल के बारे में जानें और जब आप संभाव्यता के उपायों के बारे में सीखते हैं तो "करो" ऑपरेशन।)

यहां ध्यान में रखने वाली एक अंतिम बात यह है कि आंकड़ों के कई अनुप्रयोग हैं जहां लक्ष्य भविष्य कहनेवाला है , जहां व्यवसायी अनुमान लगाने की कोशिश नहीं कर रहा है। अनुप्रयोगों के इन प्रकार के आंकड़ों में बेहद आम हैं, और ऐसे मामलों में, यह महत्वपूर्ण है नहीं अनौपचारिक सम्बन्ध को प्रतिबंधित करने के लिए अपने आप को। यह वित्त, एचआर, कार्यबल मॉडलिंग और कई अन्य क्षेत्रों में आंकड़ों के अधिकांश अनुप्रयोगों में सच है। किसी को संदर्भों की मात्रा को कम नहीं करना चाहिए जहां कोई भी चर को नियंत्रित नहीं कर सकता है या नहीं करना चाहिए।


अपडेट: मैंने नोटिस किया कि मेरा जवाब कार्लोस द्वारा प्रदान किए गए से असहमत है । शायद हम इस बात पर असहमत हैं कि "एक नियमित प्रशिक्षण के साथ एक सांख्यिकीविद् / अर्थशास्त्री" क्या गठित करता है। जिसे मैं "सांख्यिकीविद्" कहूंगा, उसके पास आमतौर पर कम से कम स्नातक स्तर की पढ़ाई होती है, और आमतौर पर पर्याप्त व्यावसायिक प्रशिक्षण / अनुभव होता है। (उदाहरण के लिए, ऑस्ट्रेलिया में, हमारे राष्ट्रीय पेशेवर निकाय के साथ "मान्यता प्राप्त सांख्यिकीविद" बनने की आवश्यकता है, ऑनर्स डिग्री के बाद न्यूनतम चार साल का अनुभव, या नियमित स्नातक की डिग्री के बाद छह साल का अनुभव।) किसी भी मामले में, एक छात्र। सांख्यिकी का अध्ययन करना एक सांख्यिकीविद् नहीं है

मैं यह नोटिस करता हूं कि सांख्यिकीविदों द्वारा कार्य-कारण की समझ में कमी के सबूत के रूप में, कार्लोस का जवाब CV.SE पर कई सवालों की ओर इशारा करता है, जो प्रतिगमन में कार्य-कारण के बारे में पूछते हैं। इन मामलों में से हर एक में, सवाल किसी ऐसे व्यक्ति से पूछा जाता है जो स्पष्ट रूप से एक नौसिखिया है (न कि एक सांख्यिकीविद्) और कार्लोस और अन्य लोगों द्वारा दिए गए उत्तर (जो सही व्याख्या को दर्शाते हैं) अत्यधिक उत्कीर्ण उत्तर हैं। दरअसल, कई मामलों में कार्लोस ने कार्य-कारण का एक विस्तृत विवरण दिया है और उनके जवाब सबसे अधिक मतदान वाले हैं। यह निश्चित रूप से साबित होता है कि सांख्यिकीविद कार्य-कारण को समझते हैं

कुछ अन्य पोस्टरों में बताया गया है कि कार्य-कारण के विश्लेषण को अक्सर सांख्यिकी पाठ्यक्रम में शामिल नहीं किया जाता है। यह सच है, और यह एक बहुत ही शर्म की बात है, लेकिन अधिकांश पेशेवर सांख्यिकीविद् हाल ही में स्नातक नहीं हैं, और वे एक मानक स्वामी कार्यक्रम में शामिल किए गए से कहीं आगे निकल गए हैं। फिर, इस संबंध में, ऐसा प्रतीत होता है कि मेरे पास अन्य पोस्टरों की तुलना में सांख्यिकीविदों के ज्ञान के औसत स्तर का एक उच्च दृष्टिकोण है।


12
मैं एक गैर-सांख्यिकीविद् हूं, जिसका सांख्यिकी में औपचारिक प्रशिक्षण उसी क्षेत्र में गैर-सांख्यिकीविदों द्वारा किया गया था, और मैं गैर-सांख्यिकीविदों के साथ सांख्यिकी को लागू करने और अनुसंधान करता हूं। मैं आपको आश्वस्त कर सकता हूं कि सिद्धांत (जैसे) सहसंबंध कार्य-कारण नहीं है, और मेरे क्षेत्र में एक आवर्ती मंत्र है। वास्तव में मैं उन लोगों के सामने नहीं आता जो यह नहीं देख सकते हैं कि वर्षा और गेहूं की उपज के बीच एक संबंध यह सब नहीं है जो उनके और अंतर्निहित प्रक्रियाओं के बीच संबंध के बारे में कहा जाए। आमतौर पर, मेरे अनुभव में, गैर-सांख्यिकीविदों ने भी लंबे समय से यह सोचा है।
निक कॉक्स

8
एक महामारी विज्ञानी के रूप में, मैं इस मंत्र से अधिक से अधिक परेशान हो रहा हूं। जैसा कि @NickCox कहता है, यह कुछ ऐसा है जिसे गैर-वैज्ञानिक भी समझते हैं। मेरे पास समस्या तब है जब हर कोई "सहसंबंध का मतलब कार्य-कारण नहीं है!" जब भी एक पर्यवेक्षणीय अध्ययन (एक केस-कंट्रोल अध्ययन, कहते हैं) प्रकाशित किया जाता है। हां, सहसंबंध का मतलब कार्य-कारण नहीं है, लेकिन शोधकर्ता आमतौर पर इसके बारे में काफी जागरूक होते हैं और अध्ययन को इस तरह से डिजाइन और विश्लेषण करने के लिए सब कुछ करेंगे कि एक कारण व्याख्या कम से कम प्रशंसनीय हो।
COOLSerdash

5
@ निक कॉक्स: मैंने और अधिक सटीक रूप से बताया है कि ऐसे कई गैर-सांख्यिकीविद् हैं जो इसे अच्छी तरह समझते हैं। अन्य व्यवसायों पर विवादों को डालना मेरा उद्देश्य नहीं था - केवल इस बात पर जोर देना कि यह मुद्दा सांख्यिकीविदों द्वारा बहुत अच्छी तरह से समझा जाता है।
बेन

7
@NickCox "सहसंबंध नहीं है" की तुलना में कार्य के बारे में पर्ल के योगदान के लिए बहुत कुछ है। मैं यहां कार्लोस के साथ हूं। कार्य-कारण के बारे में जानने के लिए पर्याप्त है कि यह एक संपूर्ण पाठ्यक्रम होना चाहिए। जहां तक ​​मुझे पता है, अधिकांश सांख्यिकी विभाग इस तरह के पाठ्यक्रम की पेशकश नहीं करते हैं।
नील जी

12
@ बीन: पर्ल सहसंबद्ध और सहकारिता को भ्रमित करने का आरोप नहीं लगाता। वह उन पर ज्यादातर तर्कपूर्ण तर्क के स्पष्ट संचालन का आरोप लगाता है। मैं आपसे सहमत हूं कि उनका लहजा घमंडी है, लेकिन मुझे लगता है कि उनके पास एक बिंदु है।
मिचस

11

एक सरल रैखिक प्रतिगमन अनिवार्य रूप से एक कारण मॉडल है

यहाँ एक उदाहरण दिया गया है जहाँ मैं एक रेखीय प्रतिगमन मॉडल कारण होने में विफल रहता हूँ। मान लीजिए कि एक प्राथमिकता यह है कि एक दवा 0 ( t = 0 ) समय पर ली गई थी और यह कि t = 1 पर दिल के दौरे की दर पर कोई प्रभाव नहीं है । पर दिल का दौरा टी = 1 पर दिल के दौरे को प्रभावित टी = 2 (यानी पिछले क्षति दिल अधिक क्षति होने की संभावना बनाता है)। T = 3 पर उत्तरजीविता केवल इस बात पर निर्भर करती है कि लोगों को t = 2 पर दिल का दौरा पड़ा या नहीं - t = 1 पर दिल का दौरा वास्तविक रूप से t = 3 पर अस्तित्व को प्रभावित करेगा , लेकिन हमारे पास तीर नहीं होगा, खातिर सादगी।

यहाँ किंवदंती है:

DAG किंवदंती

यहाँ सही कारण ग्राफ है: Collider पूर्वाग्रह

के लिए बहाना है कि हम पर है कि दिल के दौरे नहीं जानते हैं टी = 1 पर इस दवा को लेने से स्वतंत्र t = 0 तो हम पर दिल का दौरा पड़ने पर दवा के प्रभाव का अनुमान लगाने के लिए एक सरल रेखीय प्रतीपगमन मॉडल का निर्माण t = 0 । यहाँ हमारे भविष्यवक्ता Drug t = 0 होंगे और हमारा परिणाम चर हार्ट अटैक t = 1 होगा । हमारे पास केवल वही डेटा है जो t = 3 पर जीवित है , इसलिए हम उस डेटा पर अपना रिग्रेशन चलाएंगे।

यहां ड्रग टी = 0 के गुणांक के लिए 95% बायेसियन विश्वसनीय अंतराल है : 95% विश्वसनीय अंतराल, कोलाइडर पूर्वाग्रह

संभावना के रूप में हम देख सकते हैं की अधिक से अधिक 0 है, इसलिए ऐसा लगता है कि वहाँ एक प्रभाव है! हालांकि, हम एक प्राथमिकता जानते हैं कि 0 प्रभाव है। यहूदिया पर्ल और अन्य लोगों द्वारा विकसित किए गए कार्य-कारण का गणित यह देखना बहुत आसान बनाता है कि इस उदाहरण में पक्षपात होगा (एक कोलाइडर के वंशज पर कंडीशनिंग के कारण)। यहूदिया के काम का अर्थ है कि इस स्थिति में, हमें पूर्ण डेटा सेट का उपयोग करना चाहिए (अर्थात केवल जीवित रहने वाले लोगों को न देखें), जो कि पक्षपाती रास्तों को हटा देगा:

कोई पक्षपात नहीं

पूर्ण डेटा सेट (यानी जो बचे हैं उन पर कंडीशनिंग नहीं) को देखते हुए यहां 95% विश्वसनीय अंतराल है।

95% विश्वसनीय अंतराल, कोई पूर्वाग्रह नहीं

यह घनीभूत रूप से 0 पर केंद्रित है, जो अनिवार्य रूप से कोई भी संगति नहीं दिखाता है।

वास्तविक जीवन के उदाहरणों में, चीजें इतनी सरल नहीं हो सकती हैं। कई और चर हो सकते हैं जो व्यवस्थित पूर्वाग्रह (भ्रम, चयन पूर्वाग्रह, आदि) का कारण हो सकते हैं। विश्लेषण में क्या समायोजित करने के लिए पर्ल द्वारा गणितीय किया गया है; एल्गोरिदम सुझाव दे सकता है कि किस चर को समायोजित करना है, या हमें यह भी बताएं कि व्यवस्थित पूर्वाग्रह को हटाने के लिए समायोजन करना पर्याप्त नहीं है। जगह में स्थापित इस औपचारिक सिद्धांत के साथ, हमें इस बात पर बहस करने के लिए इतना समय खर्च करने की आवश्यकता नहीं है कि क्या समायोजित करना है और क्या नहीं; हम जल्दी से निष्कर्ष पर पहुंच सकते हैं कि क्या हमारे परिणाम ध्वनि हैं या नहीं। हम अपने प्रयोगों को बेहतर ढंग से डिजाइन कर सकते हैं, हम अवलोकन डेटा का अधिक आसानी से विश्लेषण कर सकते हैं।

यहाँ मिगुएल हर्ना द्वारा कौसल डीएजी पर एक स्वतंत्र रूप से उपलब्ध कोर्स ऑनलाइन है । इसमें वास्तविक जीवन के मामलों के अध्ययन का एक समूह है जहां प्रोफेसरों / वैज्ञानिकों / सांख्यिकीविदों के हाथ में सवाल के बारे में विपरीत निष्कर्ष आए हैं। उनमें से कुछ विरोधाभास लग सकते हैं। हालाँकि, आप आसानी से जूडिया पर्ल के डी-सेपरेशन और बैकडोर-मानदंड के माध्यम से उन्हें हल कर सकते हैं ।

संदर्भ के लिए, डेटा-जनरेट करने की प्रक्रिया का कोड और ऊपर दिखाए गए विश्वसनीय अंतराल के लिए कोड:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

4

दो पेपर, दूसरा एक क्लासिक, जो मदद करता है (मुझे लगता है) यहूदिया के बिंदुओं और इस विषय पर अधिक रोशनी डालता है। यह किसी ऐसे व्यक्ति से आता है जिसने बार-बार SEM (जो सहसंबंध और प्रतिगमन) का उपयोग किया है और अपने आलोचकों के साथ प्रतिध्वनित करता है:

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

अनिवार्य रूप से कागजात बताते हैं कि क्यों सहसंबंधी मॉडल (प्रतिगमन) आमतौर पर किसी भी मजबूत कारण अनुमान लगाने के रूप में नहीं लिया जा सकता है। संघों का कोई भी पैटर्न किसी दिए गए सहसंयोजक मैट्रिक्स (यानी दिशा के गैर विनिर्देश और चर के बीच संबंध) को फिट कर सकता है। इसलिए प्रायोगिक डिजाइन, प्रतिपक्षीय प्रस्ताव आदि के रूप में इस तरह की चीजों की आवश्यकता होती है, यह तब भी लागू होता है जब किसी के पास अपने डेटा के लिए एक अस्थायी संरचना होती है, जहां समय से पहले उपचारात्मक प्रभाव होता है।


1

"... क्योंकि हम अनिवार्य रूप से मान रहे हैं कि एक चर कारण है और दूसरा प्रभाव है (इसलिए सहसंबंध प्रतिगमन मॉडलिंग से अलग दृष्टिकोण है ..."

प्रतिगमन मॉडलिंग सबसे निश्चित रूप से यह धारणा नहीं बनाती है।

"... और परीक्षण कि क्या यह कारण संबंध देखे गए प्रतिमानों की व्याख्या करता है।"

यदि आप कार्य-कारण मान रहे हैं और इसे टिप्पणियों के विरुद्ध मान्य कर रहे हैं, तो आप SEM मॉडलिंग कर रहे हैं, या पर्ल जिसे SCM मॉडलिंग कहेंगे। आप आँकड़े के डोमेन के उस हिस्से को कॉल करना चाहते हैं या नहीं, यह बहस का मुद्दा है। लेकिन मुझे लगता है कि अधिकांश इसे शास्त्रीय आँकड़े नहीं कहेंगे।

सामान्य रूप से आँकड़ों पर डंप करने के बजाय, मेरा मानना ​​है कि पर्ल सिर्फ कारणवादी शब्दार्थ को संबोधित करने के लिए सांख्यिकीविद् के प्रतिशोध की आलोचना कर रहा है। वह इस बात को एक गंभीर समस्या मानते हैं क्योंकि कार्ल सागन "गेट इन एंड गेट आउट" घटना को कहते हैं, जहां आप एक अध्ययन छोड़ते हैं जिसमें कहा गया है कि "मांस की खपत 'दृढ़ता से बढ़े हुए कामेच्छा के साथ जुड़ी हुई है, पी <.05" और फिर जानने वाले धनुष। पूरी तरह से जनता के मन में दो परिणाम होने जा रहे हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.