मुझे विश्वास है कि आपके प्रश्न का त्वरित एक-वाक्य उत्तर है,
चर Y के लिए कब नियंत्रण करना उचित है और कब नहीं?
"बैक-डोर मानदंड" है।
यहूदिया पर्ल का स्ट्रक्चरल कॉसल मॉडल आपको निश्चित रूप से बता सकता है कि कंडीशनिंग के लिए कौन से चर पर्याप्त हैं (और जब आवश्यक हो), एक दूसरे पर एक चर के कारण प्रभाव का अनुमान लगाने के लिए। अर्थात्, यह बैक-डोर मानदंड का उपयोग करके उत्तर दिया गया है, जो पर्ल द्वारा इस समीक्षा पत्र के पृष्ठ 19 में वर्णित है ।
प्रमुख चेतावनी यह है कि आपको चर (एक ग्राफ में दिशात्मक तीर के रूप में) के बीच कारण संबंध को जानने की आवश्यकता है। उसके आसपास कोई रास्ता नहीं है। यह वह जगह है जहाँ कठिनाई और संभव विषयकता खेल में आ सकती है। पर्ल का संरचनात्मक कारण मॉडल केवल आपको यह जानने की अनुमति देता है कि एक कारण मॉडल (यानी निर्देशित ग्राफ) को दिए गए सही प्रश्नों का उत्तर कैसे दिया जाए, जो कारण मॉडल का सेट संभव है एक डेटा वितरण, या कैसे सही प्रयोग करके कारण संरचना की तलाश करें। यह आपको नहीं बताता है कि केवल डेटा वितरण के कारण दिए गए सही कारण संरचना को कैसे खोजना है। वास्तव में, यह दावा करता है कि चर के अर्थ के बारे में बाहरी ज्ञान / अंतर्ज्ञान का उपयोग किए बिना यह असंभव है।
बैक-डोर मापदंड निम्नानुसार बताये जा सकते हैं:
के कारण प्रभाव जानने के लिए पर वाई , चर का एक सेट नोड एस यह दोनों निम्न मापदंडों के संतुष्ट जब तक पर अनुकूलित किया जा करने के लिए पर्याप्त है:XY,S
1) में कोई तत्व X का वंशज नहीं हैSX
2) X और Y के बीच के सभी "बैक-डोर" रास्तों को रोकता हैSXY
यहाँ, एक "बैक-डोर" पथ केवल तीर का एक पथ है जो से शुरू होता है और X पर इंगित करते हुए तीर से समाप्त होता है । (वह दिशा जो अन्य सभी बाण बिंदु महत्वपूर्ण नहीं है।) और "ब्लॉकिंग", स्वयं, एक मानदंड है, जिसका एक विशिष्ट अर्थ है, जो उपरोक्त लिंक के पृष्ठ 11 में दिया गया है। यह वही मानदंड है जिसे आप "डी-सेपरेशन" के बारे में सीखते समय पढ़ेंगे। मैंने व्यक्तिगत रूप से पाया कि बिशप के पैटर्न रिकॉग्निशन एंड मशीन लर्निंग के अध्याय 8 में डी-सेपरेशन को ब्लॉक करने की अवधारणा का वर्णन किया गया है, जो मेरे ऊपर जुड़े पर्ल स्रोत से कहीं बेहतर है। लेकिन यह इस प्रकार है:YX.
नोड्स का एक सेट, एक्स और वाई के बीच एक पथ को अवरुद्ध करता है यदि यह निम्न मानदंडों में से कम से कम एक को संतुष्ट करता है:S,XY
1) रास्ते में नोड्स, में भी है कि में से एक उत्सर्जन करता है कम से कम एक पथ पर तीर (यानी तीर नोड से दूर इशारा कर रही है)S,
2) एक नोड में न तो यह है कि और न ही में एक नोड के एक पूर्वज एस सिर-से-शीर्ष पथ "टकराने" इस दिशा में (यानी यह पूरा करने में दो तीर है)SS
यह सामान्य बैक-डोर मानदंड के विपरीत एक या मानदंड है, जो एक और मानदंड है।
बैक-डोर मानदंड के बारे में स्पष्ट होने के लिए, यह आपको बताता है कि किसी दिए गए कारण मॉडल के लिए, जब पर्याप्त चर पर कंडीशनिंग होती है, तो आप डेटा के प्रायिकता वितरण से कारण प्रभाव सीख सकते हैं। (जैसा कि हम जानते हैं, संयुक्त वितरण अकेले कारण संबंधी व्यवहार खोजने के लिए पर्याप्त नहीं है क्योंकि एक ही वितरण के लिए कई कारण संरचनाएं जिम्मेदार हो सकती हैं। यही कारण है कि कारण मॉडल की भी आवश्यकता है।) साधारण सांख्यिकीय / का उपयोग करके वितरण का अनुमान लगाया जा सकता है। अवलोकन संबंधी डेटा पर मशीन सीखने के तरीके। तो जब तक आप जानते हैं यह कारण संरचना एक चर (या चर के सेट) पर कंडीशनिंग के लिए अनुमति देता है, दूसरे पर एक चर के कारण प्रभाव का आपका अनुमान उतना ही अच्छा है जितना कि डेटा के वितरण का आपका अनुमान, जो आप सांख्यिकीय विधियों के माध्यम से प्राप्त करते हैं।
जब हम आपके दो आरेखों पर बैक-डोर मानदंड लागू करते हैं, तो हम यह पाते हैं:
न तो मामले में से एक्स तक एक बैक-डोर पथ मौजूद है । तो यह सच है कि वाई ब्लॉक के सभी दरवाजे "बंद" करता है, क्योंकि कोई भी नहीं है। हालाँकि, बाएँ चित्र में, Y , X का प्रत्यक्ष वंशज है , जबकि दाएँ चित्र में यह नहीं है। इसलिए वाई दाएं आरेख में पीछे के दरवाजे की कसौटी का अनुसरण करता है, लेकिन बाईं ओर नहीं। ये नायाब नतीजे हैं।ZX.YYX,Y
क्या है आश्चर्य की बात है, तथापि, है, तो आप पर शर्त नहीं जरूरत है कि सही चित्र में, जब तक कि यह पूरी तस्वीर के रूप में है से भरा कारण प्रभाव प्राप्त करने के लिए एक्स पर जेड । (एक अन्य तरीके से कहा, अशक्त सेट बैक-डोर मापदंड को संतुष्ट करता है, और इस प्रकार, कंडीशनिंग के लिए पर्याप्त है।) सहज रूप से यह सच है क्योंकि एक्स का मूल्य वाई के साथ जुड़ा नहीं है इसलिए पर्याप्त डेटा के लिए आप बस औसत से अधिक कर सकते हैं। Z पर Y के प्रभाव को कम करने के लिए Y के मान । इस बिंदु पर एक आपत्ति यह हो सकती है कि डेटा सीमित है, इसलिए आपके पास प्रतिनिधि वितरण नहीं हैYXZXYYYZ. मान। लेकिन याद रखें कि बैक-डोर कसौटी मानती है कि आपके पास डेटा की संभावना वितरण है। उस स्थिति में आप Y को विश्लेषणात्मक रूप से हाशिए पर रख सकते हैं । एक परिमित डेटा सेट पर सीमांकन केवल एक अनुमान है। इसके अलावा, ध्यान दें कि यहअत्यधिकसंभावना नहीं इस पूरी तस्वीर है। बाहरी कारकों की संभावना है जो एक्स को प्रभावित करते हैं । यदि वे कारककिसी भी तरह से वाई से जुड़े हैं, तो यह देखने के लिए अधिक कार्य किया जाना चाहिए कि क्या वाई पर वातानुकूलित किया जाना चाहिए, या यदि यह पर्याप्त है। यदि आप Y से X की ओर इशारा करते हुए दूसरा तीर खींचते हैंतो Y को नियंत्रित करना आवश्यक हो जाता है।YY.X.YYYXY
वे निश्चित रूप से, बहुत सरल उदाहरण हैं जहां अंतर्ज्ञान यह जानने के लिए पर्याप्त है कि को कब नियंत्रित किया जा सकता है या नहीं। लेकिन यहां कुछ और उदाहरण हैं जहां आरेख को देखकर यह स्पष्ट नहीं है, और आप बैक-डोर मानदंड का उपयोग कर सकते हैं। निम्नलिखित आरेख के लिए हम पूछते हैं कि क्या यह जेड पर एक्स के कारण प्रभाव का निर्धारण करते समय वाई के लिए नियंत्रित करने के लिए पर्याप्त है ।YYXZ.
पहली बात यह है कि, दोनों मामलों में, , X का वंशज नहीं है । तो यह उस कसौटी पर खरा उतरता है। ध्यान देने वाली अगली बात यह है कि, दोनों मामलों में, Z से X तक कई पिछले दरवाजे हैं । बाएं डायग्राम में दो और दाएं में तीन।YX.ZX.
बाएं चित्र में पिछले दरवाजे रास्ते हैं और जेड ← डब्ल्यू → बी ← एक → एक्स ।Z←Y→XZ←W→B←A→X. पहले पथ को अवरुद्ध करता है क्योंकि यह एक तीर-उत्सर्जक नोड है जो सीधे पथ में है। Y दूसरे मार्ग कोभीअवरुद्ध करता है क्योंकि यह न तो B है , न ही यह कोई वंशज हैYY B, जो कि रास्ते में एकमात्र तीर से टकराता हुआ नोड है। इसलिए Y कंडीशनिंग के लिए एक पर्याप्त सेट है। (ध्यान दें, के विपरीतअपनेसही आरेख, अशक्त सेट नहीं कंडीशनिंग के लिए पर्याप्त है, क्योंकि यह रास्ता ब्लॉक नहीं करता है जेड ← वाई → एक्स ।)B,YZ←Y→X
सही चित्र में पिछले दरवाजे रास्तों ही दो बाईं में के रूप में कर रहे हैं, के साथ साथ पथ Z←W→B→Y→X. इस पथकोअवरुद्धकरता है, क्योंकि यह एक तीर है जो मार्ग में नोड उत्सर्जित करता है। यह भी ब्लॉक पथ जेड ← वाई → एक्स बाईं चित्र के रूप में एक ही कारण के लिए। हालांकि, यह करता हैनहींपथ ब्लॉक जेड ← डब्ल्यूY Z←Y→X क्योंकि यह कोलाइडर नोड के एक प्रत्यक्ष वंशज है बी । इसलिए यहकंडीशनिंग के लिए पर्याप्तनहीं है।Z←W→B←A→X,B.
YAWXZB.XZB,BAWBAWXZ
जैसा कि मैंने बैक-डोर मानदंड के उपयोग से पहले उल्लेख किया है कि आपको कारण मॉडल (चर के बीच तीर का "सही" आरेख) पता है। लेकिन संरचनात्मक राय मॉडल, मेरी राय में, इस तरह के मॉडल की खोज करने के लिए सबसे अच्छा और सबसे औपचारिक तरीका है, या यह जानने के लिए कि खोज कब व्यर्थ है। इसमें "कन्फाउंडिंग", "मध्यस्थता", और "स्प्रिचुअल" (जो सभी मुझे भ्रमित करते हैं) जैसे अप्रचलित शब्दों को प्रस्तुत करने का अद्भुत दुष्प्रभाव है। बस मुझे चित्र दिखाएं और मैं आपको बताऊंगा कि किन मंडलियों को नियंत्रित किया जाना चाहिए।