एक चर के लिए नियंत्रण करना कब अनुचित है?


15

मैं कम से कम एक भोली उदाहरण के बारे में सोच सकता हूं। मान लीजिए कि मैं X और Z के बीच संबंधों का अध्ययन करना चाहता हूं। मुझे यह भी संदेह है कि Y, Z को प्रभावित करता है, इसलिए मैं Y के लिए नियंत्रण रखता हूं। हालांकि, जैसा कि यह पता चला है, मेरे लिए अनजान है, X Y का कारण बनता है, और Y, Z का कारण बनता है। इसलिए, नियंत्रित करके Y के लिए, मैं X और Z के बीच के संबंधों को "कवर अप" करता हूं, क्योंकि X, Z के दिए गए Y से स्वतंत्र है।

अब, पिछले उदाहरण में, यह मामला हो सकता है कि जिन रिश्तों का मैं अध्ययन कर रहा हूं वे एक्स और वाई के बीच के हैं, और वाई और जेड। हालांकि, अगर मुझे ऐसी बातें पता थीं, तो मैं विज्ञान नहीं करूंगा। प्रथम स्थान। अब मैं जो अध्ययन करता हूं वह बताता है कि एक्स और जेड के बीच कोई संबंध नहीं है, जो कि मामला नहीं है .... एक्स और जेड संबंधित हैं।

यह निम्नलिखित निर्भरता-आरेख में चित्रित किया गया है। सही परिदृश्य में, Z X और Y पर निर्भर करता है और X और Y स्वतंत्र हैं। हम X और Z के बीच के संबंध को निर्धारित करने के लिए Y के लिए सही नियंत्रण करते हैं। बाएं परिदृश्य में Z, Y पर निर्भर करता है, जो X पर निर्भर करता है। X और Z स्वतंत्र रूप से Y दिए गए हैं, इसलिए X और Z के बीच संबंध को नियंत्रित करके "कवर अप" किया जाता है। वाई

variable_relationships

मेरा प्रश्न मूल रूप से "चर वाई के लिए नियंत्रण करना कब उचित है और कब नहीं?" ... एक्स और वाई के बीच संबंधों की पूरी तरह से जांच करना मुश्किल या असंभव हो सकता है, लेकिन, उदाहरण के लिए, किसी दिए गए स्तर पर वाई को नियंत्रित करना है। एक विकल्प। हम अपने अध्ययन के संचालन से पहले कैसे तय करते हैं, और बहुत कम या बहुत कम नियंत्रित करने के सामान्य नुकसान क्या हैं?

सभ्यताओं की सराहना की।


7
एक उदाहरण देने के लिए, नस्लीय भेदभाव के प्रभाव का आकलन करने में आपकी सटीक स्थिति सामने आती है। को दौड़ होने दो । Z को मजदूरी करने दो । Y को शिक्षा होने दो । स्पष्ट रूप से शिक्षा मजदूरी को प्रभावित करती है, इसलिए आप उस पर नियंत्रण रखना चाहते हैं, लेकिन अगर नस्लीय भेदभाव नस्लीय अल्पसंख्यक को बदतर शिक्षा प्राप्त करने का कारण बनता है, तो शिक्षा के लिए नियंत्रण उस भेदभाव को कवर करेगा। उदाहरण के लिए। देख नील और जॉनसन (1996) । जैसा कि एलेक्सिस का जवाब बताता है, आपको अपनी समस्या के विवरण में शामिल होने की आवश्यकता है। हर चीज़ को हल करने के लिए एक साधारण बटन नहीं है। XZY
मैथ्यू गुन

1
मुझे साधारण बटन दबाने की कोई उम्मीद नहीं थी। वास्तव में, यदि मेरा प्रश्न तुच्छ उत्तर होता तो मैं काफी निराश होता। :)
स्कॉट

1
@ रिपेट हाँ। हालाँकि, IV अनुमान की 4 धारणाएँ शायद ही कभी मिली हों, और जब वे होती हैं, तब भी शामिल संघों की ताकत IV अनुमान को पक्षपाती परिणाम दे सकती है। उदाहरण के लिए, हर्नान और रॉबिन्स कॉजल अनुमान (मेरे उत्तर में पूर्ण हवाला और लिंक), अध्याय 16: इंस्ट्रुमेंटल चर का अनुमान।
एलेक्सिस

1
@ एलेक्सिस स्वाभाविक रूप से, IVs मुश्किल से आते हैं ... "नो फ्री लंच" और सभी, हालांकि जब आप करते हैं, तो आप अक्सर बहुत कम या कोई संदेह नहीं जानते होंगे।
Repmat

1
@ रिपेट ... मान्य IV अनुमानों के लिए मान्यताओं को उस चित्रित DAG से अधिक की आवश्यकता है ... वे वास्तव में काफी कमजोर हैं।
एलेक्सिस

जवाबों:


7

कंडीशनिंग (यानी समायोजित करना) कुछ परिणामों की संभावनाओं को तीसरे चर पर कुछ भविष्यवक्ता दिया जाता है, लेकिन व्यापक रूप से यह इंगित करता है कि वास्तव में कारण प्रभाव के प्रतिनिधित्व के रूप में परिणामी अनुमान में पूर्वाग्रह का परिचय हो सकता है । यह एक संभावित कारण वाले कन्फ़्यूडर की "शास्त्रीय" परिभाषाओं के साथ भी हो सकता है, क्योंकि दोनों ही कन्फ़्यूडर हैं, और ब्याज के पूर्वसूचक प्रत्येक में आगे के कारण कंफ़्यूज़न हो सकते हैं। नीचे दिए गए DAG में, उदाहरण के लिए, L , D पर E के कारण प्रभाव का एक क्लासिक कन्फ़्यूडर है , क्योंकि (1) यह कारण बनता है और इसलिए E से जुड़ा हुआ है , और (2) D से जुड़ा हुआ है क्योंकि यह इसके साथ जुड़ा हुआ हैLEDEDU2 जो से जुड़ा है । हालांकि, या तो कंडीशनिंग या stratifying पी ( डी |) पर एल (एक "कोलाइडर") के प्रभाव के कारण अनुमान पक्षपाती उत्पादन होगा पर डी क्योंकि एल के साथ चकित है डी अनापा चर द्वारा यू 2 , और एल के साथ चकित है द्वारा अनमोल चर u DP(D|E)LEDLDU2LEU1

DAG

जिसे समझना एक निष्पक्ष कारण प्रदान करने के लिए किसी के विश्लेषण पर स्थिति या स्तरीकरण करने के लिए, कारण प्रभाव पहचान के लिए मानदंड का उपयोग करके संभावित DAG के बारे में सावधानीपूर्वक विचार करने की आवश्यकता है - कोई भी सामान्य कारण जो पिछले दरवाजे से अवरुद्ध नहीं हैं - पर्ल, रॉबिन्स और अन्य द्वारा वर्णित । यहां कोई छोटा रास्ता नहीं है। सामान्य भ्रमित करने वाले पैटर्न सीखें। सामान्य चयन पूर्वाग्रह पैटर्न जानें। अभ्यास।

संदर्भ

ग्रीनलैंड, एस।, पर्ल, जे।, और रॉबिन्स, जेएम (1999)। महामारी विज्ञान अनुसंधान के लिए कारण आरेखमहामारी विज्ञान , 10 (1): 37-48।

हर्नान, एमए और रॉबिन्स, जेएम (2018)। कारण अनुमान । चैपमैन एंड हॉल / सीआरसी, बोका रैटन, FL

माल्डोनैडो, जी और ग्रीनलैंड, एस (2002)। कारण प्रभाव का अनुमान लगानामहामारी विज्ञान के अंतर्राष्ट्रीय जर्नल , 31 (2): 422-438।

पर्ल, जे। (2000)। कारण: मॉडल, तर्क और अंतर्ज्ञान । कैम्ब्रिज यूनिवर्सिटी प्रेस।


12

मुझे विश्वास है कि आपके प्रश्न का त्वरित एक-वाक्य उत्तर है,

चर Y के लिए कब नियंत्रण करना उचित है और कब नहीं?

"बैक-डोर मानदंड" है।

यहूदिया पर्ल का स्ट्रक्चरल कॉसल मॉडल आपको निश्चित रूप से बता सकता है कि कंडीशनिंग के लिए कौन से चर पर्याप्त हैं (और जब आवश्यक हो), एक दूसरे पर एक चर के कारण प्रभाव का अनुमान लगाने के लिए। अर्थात्, यह बैक-डोर मानदंड का उपयोग करके उत्तर दिया गया है, जो पर्ल द्वारा इस समीक्षा पत्र के पृष्ठ 19 में वर्णित है ।

प्रमुख चेतावनी यह है कि आपको चर (एक ग्राफ में दिशात्मक तीर के रूप में) के बीच कारण संबंध को जानने की आवश्यकता है। उसके आसपास कोई रास्ता नहीं है। यह वह जगह है जहाँ कठिनाई और संभव विषयकता खेल में आ सकती है। पर्ल का संरचनात्मक कारण मॉडल केवल आपको यह जानने की अनुमति देता है कि एक कारण मॉडल (यानी निर्देशित ग्राफ) को दिए गए सही प्रश्नों का उत्तर कैसे दिया जाए, जो कारण मॉडल का सेट संभव है एक डेटा वितरण, या कैसे सही प्रयोग करके कारण संरचना की तलाश करें। यह आपको नहीं बताता है कि केवल डेटा वितरण के कारण दिए गए सही कारण संरचना को कैसे खोजना है। वास्तव में, यह दावा करता है कि चर के अर्थ के बारे में बाहरी ज्ञान / अंतर्ज्ञान का उपयोग किए बिना यह असंभव है।

बैक-डोर मापदंड निम्नानुसार बताये जा सकते हैं:

के कारण प्रभाव जानने के लिए पर वाई , चर का एक सेट नोड एस यह दोनों निम्न मापदंडों के संतुष्ट जब तक पर अनुकूलित किया जा करने के लिए पर्याप्त है:XY,S

1) में कोई तत्व X का वंशज नहीं हैSX

2) X और Y के बीच के सभी "बैक-डोर" रास्तों को रोकता हैSXY

यहाँ, एक "बैक-डोर" पथ केवल तीर का एक पथ है जो से शुरू होता है और X पर इंगित करते हुए तीर से समाप्त होता है (वह दिशा जो अन्य सभी बाण बिंदु महत्वपूर्ण नहीं है।) और "ब्लॉकिंग", स्वयं, एक मानदंड है, जिसका एक विशिष्ट अर्थ है, जो उपरोक्त लिंक के पृष्ठ 11 में दिया गया है। यह वही मानदंड है जिसे आप "डी-सेपरेशन" के बारे में सीखते समय पढ़ेंगे। मैंने व्यक्तिगत रूप से पाया कि बिशप के पैटर्न रिकॉग्निशन एंड मशीन लर्निंग के अध्याय 8 में डी-सेपरेशन को ब्लॉक करने की अवधारणा का वर्णन किया गया है, जो मेरे ऊपर जुड़े पर्ल स्रोत से कहीं बेहतर है। लेकिन यह इस प्रकार है:YX.

नोड्स का एक सेट, एक्स और वाई के बीच एक पथ को अवरुद्ध करता है यदि यह निम्न मानदंडों में से कम से कम एक को संतुष्ट करता है:S,XY

1) रास्ते में नोड्स, में भी है कि में से एक उत्सर्जन करता है कम से कम एक पथ पर तीर (यानी तीर नोड से दूर इशारा कर रही है)S,

2) एक नोड में न तो यह है कि और न ही में एक नोड के एक पूर्वज एस सिर-से-शीर्ष पथ "टकराने" इस दिशा में (यानी यह पूरा करने में दो तीर है)SS

यह सामान्य बैक-डोर मानदंड के विपरीत एक या मानदंड है, जो एक और मानदंड है।

बैक-डोर मानदंड के बारे में स्पष्ट होने के लिए, यह आपको बताता है कि किसी दिए गए कारण मॉडल के लिए, जब पर्याप्त चर पर कंडीशनिंग होती है, तो आप डेटा के प्रायिकता वितरण से कारण प्रभाव सीख सकते हैं। (जैसा कि हम जानते हैं, संयुक्त वितरण अकेले कारण संबंधी व्यवहार खोजने के लिए पर्याप्त नहीं है क्योंकि एक ही वितरण के लिए कई कारण संरचनाएं जिम्मेदार हो सकती हैं। यही कारण है कि कारण मॉडल की भी आवश्यकता है।) साधारण सांख्यिकीय / का उपयोग करके वितरण का अनुमान लगाया जा सकता है। अवलोकन संबंधी डेटा पर मशीन सीखने के तरीके। तो जब तक आप जानते हैं यह कारण संरचना एक चर (या चर के सेट) पर कंडीशनिंग के लिए अनुमति देता है, दूसरे पर एक चर के कारण प्रभाव का आपका अनुमान उतना ही अच्छा है जितना कि डेटा के वितरण का आपका अनुमान, जो आप सांख्यिकीय विधियों के माध्यम से प्राप्त करते हैं।

जब हम आपके दो आरेखों पर बैक-डोर मानदंड लागू करते हैं, तो हम यह पाते हैं:

न तो मामले में से एक्स तक एक बैक-डोर पथ मौजूद है तो यह सच है कि वाई ब्लॉक के सभी दरवाजे "बंद" करता है, क्योंकि कोई भी नहीं है। हालाँकि, बाएँ चित्र में, Y , X का प्रत्यक्ष वंशज है , जबकि दाएँ चित्र में यह नहीं है। इसलिए वाई दाएं आरेख में पीछे के दरवाजे की कसौटी का अनुसरण करता है, लेकिन बाईं ओर नहीं। ये नायाब नतीजे हैं।ZX.YYX,Y

क्या है आश्चर्य की बात है, तथापि, है, तो आप पर शर्त नहीं जरूरत है कि सही चित्र में, जब तक कि यह पूरी तस्वीर के रूप में है से भरा कारण प्रभाव प्राप्त करने के लिए एक्स पर जेड । (एक अन्य तरीके से कहा, अशक्त सेट बैक-डोर मापदंड को संतुष्ट करता है, और इस प्रकार, कंडीशनिंग के लिए पर्याप्त है।) सहज रूप से यह सच है क्योंकि एक्स का मूल्य वाई के साथ जुड़ा नहीं है इसलिए पर्याप्त डेटा के लिए आप बस औसत से अधिक कर सकते हैं। Z पर Y के प्रभाव को कम करने के लिए Y के मान इस बिंदु पर एक आपत्ति यह हो सकती है कि डेटा सीमित है, इसलिए आपके पास प्रतिनिधि वितरण नहीं हैYXZXYYYZ. मान। लेकिन याद रखें कि बैक-डोर कसौटी मानती है कि आपके पास डेटा की संभावना वितरण है। उस स्थिति में आप Y को विश्लेषणात्मक रूप से हाशिए पर रख सकते हैंएक परिमित डेटा सेट पर सीमांकन केवल एक अनुमान है। इसके अलावा, ध्यान दें कि यहअत्यधिकसंभावना नहीं इस पूरी तस्वीर है। बाहरी कारकों की संभावना है जो एक्स को प्रभावित करते हैंयदि वे कारककिसी भी तरह से वाई से जुड़े हैं, तो यह देखने के लिए अधिक कार्य किया जाना चाहिए कि क्या वाई पर वातानुकूलित किया जाना चाहिए, या यदि यह पर्याप्त है। यदि आप Y से X की ओर इशारा करते हुए दूसरा तीर खींचते हैंतो Y को नियंत्रित करना आवश्यक हो जाता है।YY.X.YYYXY

वे निश्चित रूप से, बहुत सरल उदाहरण हैं जहां अंतर्ज्ञान यह जानने के लिए पर्याप्त है कि को कब नियंत्रित किया जा सकता है या नहीं। लेकिन यहां कुछ और उदाहरण हैं जहां आरेख को देखकर यह स्पष्ट नहीं है, और आप बैक-डोर मानदंड का उपयोग कर सकते हैं। निम्नलिखित आरेख के लिए हम पूछते हैं कि क्या यह जेड पर एक्स के कारण प्रभाव का निर्धारण करते समय वाई के लिए नियंत्रित करने के लिए पर्याप्त है YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

पहली बात यह है कि, दोनों मामलों में, , X का वंशज नहीं है तो यह उस कसौटी पर खरा उतरता है। ध्यान देने वाली अगली बात यह है कि, दोनों मामलों में, Z से X तक कई पिछले दरवाजे हैं बाएं डायग्राम में दो और दाएं में तीन।YX.ZX.

बाएं चित्र में पिछले दरवाजे रास्ते हैं और जेड डब्ल्यू बी एक एक्स ZYXZWBAX. पहले पथ को अवरुद्ध करता है क्योंकि यह एक तीर-उत्सर्जक नोड है जो सीधे पथ में है। Y दूसरे मार्ग कोभीअवरुद्ध करता है क्योंकि यह न तो B है , न ही यह कोई वंशज हैYY B, जो कि रास्ते में एकमात्र तीर से टकराता हुआ नोड है। इसलिए Y कंडीशनिंग के लिए एक पर्याप्त सेट है। (ध्यान दें, के विपरीतअपनेसही आरेख, अशक्त सेट नहीं कंडीशनिंग के लिए पर्याप्त है, क्योंकि यह रास्ता ब्लॉक नहीं करता है जेड वाई एक्स ।)B,YZYX

सही चित्र में पिछले दरवाजे रास्तों ही दो बाईं में के रूप में कर रहे हैं, के साथ साथ पथ ZWBYX. इस पथकोअवरुद्धकरता है, क्योंकि यह एक तीर है जो मार्ग में नोड उत्सर्जित करता है। यह भी ब्लॉक पथ जेड वाई एक्स बाईं चित्र के रूप में एक ही कारण के लिए। हालांकि, यह करता हैनहींपथ ब्लॉक जेड डब्ल्यूY ZYX क्योंकि यह कोलाइडर नोड के एक प्रत्यक्ष वंशज है बी इसलिए यहकंडीशनिंग के लिए पर्याप्तनहीं हैZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

जैसा कि मैंने बैक-डोर मानदंड के उपयोग से पहले उल्लेख किया है कि आपको कारण मॉडल (चर के बीच तीर का "सही" आरेख) पता है। लेकिन संरचनात्मक राय मॉडल, मेरी राय में, इस तरह के मॉडल की खोज करने के लिए सबसे अच्छा और सबसे औपचारिक तरीका है, या यह जानने के लिए कि खोज कब व्यर्थ है। इसमें "कन्फाउंडिंग", "मध्यस्थता", और "स्प्रिचुअल" (जो सभी मुझे भ्रमित करते हैं) जैसे अप्रचलित शब्दों को प्रस्तुत करने का अद्भुत दुष्प्रभाव है। बस मुझे चित्र दिखाएं और मैं आपको बताऊंगा कि किन मंडलियों को नियंत्रित किया जाना चाहिए।


3
अच्छा लगा। मैं इस बात पर बहस कर रहा था कि क्या मेरे जवाब के संदर्भ खंड में पर्ल की कॉज़लिटी को जोड़ा जाए .... और अब ऐसा किया है। :)
एलेक्सिस

0

निम्नलिखित आपके मामले के लिए उपयुक्त हो सकता है या नहीं भी हो सकता है: यदि Xएक उपचार है, तो आप अपनी समस्या के चारों ओर जाने में सक्षम हो सकते हैं , जिसमें आप प्राप्तांक मिलान का उपयोग कर सकते हैं जिसमें आप अभी भी चर रखेंगेY जब आप मिलान करेंगे। दूसरे शब्दों में, आप कोवरिएट्स ( Yइस तरह के सहसंयोजकों में से एक है) को संतुलित करते हैं जो उपचार प्राप्त करने की भविष्यवाणी करते हैं X
ध्यान दें कि Zऊपर दिए गए परिणाम चर का कोई संदर्भ नहीं है। आप यह भी देख सकते हैं कि आपकी टिप्पणियों को कितना संतुलित किया गया है (बैलेंस टेबल से पहले और बाद में मिलान करके), जिससे आपको पता चल सकता है कि यह कितना Xनिर्धारित है Y

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.