एक प्रतिगमन में सहसंयोजक को जोड़ने से भविष्यवाणी के स्कोर कैसे भिन्न होते हैं, और उन्हें बाद में कब पसंद किया जाता है?


41

मैं मानता हूं कि मैं प्रवृत्ति स्कोर और कारण विश्लेषण के लिए अपेक्षाकृत नया हूं।

एक बात यह है कि एक नवागंतुक के रूप में मेरे लिए यह स्पष्ट नहीं है कि प्रवृत्ति स्कोर का उपयोग करते हुए "संतुलन" गणितीय रूप से भिन्न कैसे होता है जब हम एक प्रतिगमन में कोवरिएट्स जोड़ते हैं? ऑपरेशन के बारे में क्या अलग है, और यह एक प्रतिगमन में सबप्रोपुलेशन कोवरिएट्स को जोड़ने से बेहतर क्यों है (या यह है)?

मैंने कुछ अध्ययनों को देखा है जो विधियों की अनुभवजन्य तुलना करते हैं, लेकिन मैंने दो तरीकों के गणितीय गुणों से संबंधित एक अच्छी चर्चा नहीं देखी है और क्यों पीएसएम अपने आप को कारण व्याख्याओं के लिए उधार देता है जबकि प्रतिगमन कोवरिएट्स शामिल नहीं करता है। इस क्षेत्र में बहुत भ्रम और विवाद भी प्रतीत होता है, जिससे चीजों को उठाना और भी मुश्किल हो जाता है।

इस पर कोई विचार या अच्छे संसाधनों / कागजात के किसी भी संकेत को भेद को बेहतर ढंग से समझने के लिए? (मैं धीरे-धीरे यहूदिया पर्ल के कार्य-कारण पुस्तक के माध्यम से अपना रास्ता बना रहा हूं, इसलिए मुझे उस ओर इंगित करने की कोई आवश्यकता नहीं है)


3
आपको मॉर्गन और विंसशिप, 2007 पढ़ने की सलाह देते हैं । अध्याय 4 और 5 एक स्पष्ट तुलना और प्रतिगमन के विपरीत और कारण प्रभाव पहचान के लिए मिलान करते हैं।
संयुक्ताक्षरी

1
जब आप संतुलन के आँकड़ों की जाँच करते हैं, तो आप यह सुनिश्चित कर रहे हैं कि उन उपचार समूहों के बीच कोई एक्सट्रपलेशन नहीं है जिनकी आप बहु-आयामी कोवरिएट स्थान के संबंध में तुलना कर रहे हैं। प्रतिगमन केवल इसके लिए जांच के बिना एक्सट्रपलेशन करता है, इसलिए एक्सट्रपलेशन खराब पूर्वानुमान दे सकते हैं।
स्टेट्सटूडेंट

जवाबों:


17

एक बड़ा अंतर यह है कि प्रतिगमन एक रैखिक फैशन में उन विशेषताओं के लिए "नियंत्रण" करता है। प्रॉपर्टीज स्कोर से मिलान करने से रैखिकता धारणा समाप्त हो जाती है, लेकिन, जैसा कि कुछ टिप्पणियों का मिलान नहीं किया जा सकता है, आप कुछ समूहों के बारे में कुछ भी कहने में सक्षम नहीं हो सकते हैं।

उदाहरण के लिए, यदि आप एक कार्यकर्ता प्रशिक्षण कार्यक्रम का अध्ययन कर रहे हैं, तो हो सकता है कि आप सभी दूत पुरुष हों, लेकिन नियंत्रण, गैर-प्रतिभागी जनसंख्या पुरुषों और महिलाओं से बनी हो। प्रतिगमन का उपयोग करना, आप एक भागीदारी सूचक चर और एक पुरुष सूचक पर, आय, कह सकते हैं। आप अपने सभी डेटा का उपयोग करेंगे और अनुमान लगा सकते हैं कि एक महिला की आय ने कार्यक्रम में भाग लिया था।

यदि आप मिलान कर रहे थे, तो आप केवल पुरुषों को पुरुषों से मिला सकते थे। नतीजतन, आप अपने विश्लेषण में किसी भी महिला का उपयोग नहीं करेंगे और आपके परिणाम उनसे संबंधित नहीं होंगे।

प्रतिगमन रैखिकता धारणा का उपयोग करके एक्सट्रपलेशन कर सकता है, लेकिन मिलान नहीं कर सकता। अन्य सभी धारणाएं अनिवार्य रूप से प्रतिगमन और मिलान के बीच समान हैं। प्रतिगमन पर मिलान का लाभ यह है कि यह गैर-पैरामीट्रिक है (इसके अलावा आपको यह मानकर चलना होगा कि आपके पास सही प्रवृत्ति स्कोर है, यदि ऐसा है तो आप अपना मिलान कैसे कर रहे हैं)।

अधिक चर्चा के लिए, मेरे पृष्ठ को यहां एक ऐसे पाठ्यक्रम के लिए देखें जो मिलान विधियों पर बहुत अधिक केंद्रित था। विशेष रूप से Causal Effects अनुमान रणनीति अनुमान देखें ।

इसके अलावा, रोसेनबाउम और रुबिन (1983) लेख की जांच करना सुनिश्चित करें जो प्रवृत्ति स्कोर मिलान की रूपरेखा बनाते हैं ।

अंत में, 1983 से मिलान एक लंबा सफर तय कर चुका है। अपने आनुवंशिक मिलान एल्गोरिथ्म के बारे में जानने के लिए जैस सेखों के वेबपेज की जाँच करें ।


3
शायद यह इसलिए है क्योंकि मैं एक सांख्यिकीविद् नहीं हूं, लेकिन जब ओपी सामान्य रूप से प्रतिगमन के बारे में पूछता है तो आपको लगता है कि आपने रेखीय प्रतिगमन ग्रहण किया है। लेकिन मुझे लगता है कि जीस्ट यह है कि किसी भी तरह के रेजिस्टर में कोवरेट्स को जोड़ने से इनपुट स्पेस के बारे में कुछ धारणाएं बनती हैं, ताकि यह नए उदाहरणों के लिए एक्सट्रपलेट कर सके और किस तरह की चीजों को एक्सट्रापोल किया जा सकता है, इसके बारे में अधिक सतर्क है।
रेनाउड

2
जब आप प्रसार फ़ंक्शन का अनुमान लगाते हैं तो आप कंफ्यूज़िंग वेरिएबल्स के कार्यात्मक रूप के बारे में कुछ धारणाएँ बनाते हैं। आप बाद में उन व्यक्तियों पर भी मेल खाते हैं, जिनके पास प्रवृत्ति के "करीब" मूल्य हैं, इसलिए मैं तुरंत यह नहीं मानूंगा कि मिलान मिलान nonlinear confounder प्रभावों की समस्या को हल करता है।
एडमों

2
लिंक टूट गए हैं।
कार्लोस Cinelli

11

संक्षिप्त उत्तर यह है कि प्रवृत्ति स्कोर समतुल्य ANCOVA मॉडल से बेहतर नहीं है, विशेष रूप से कारण व्याख्या के संबंध में।

डेटा रिकवरी विधि के रूप में प्रॉपर्टीज स्कोर को सबसे अच्छा समझा जाता है। वे एक एकल स्कोर में कई कोवरिएट्स को कम करने के लिए एक प्रभावी साधन हैं जिसका उपयोग चर के सेट के लिए ब्याज के प्रभाव को समायोजित करने के लिए किया जा सकता है। ऐसा करने में, आप कई कोवरिएट्स के बजाय एक एकल प्रवृत्ति स्कोर के लिए समायोजन करके स्वतंत्रता की डिग्री को बचाते हैं। यह एक सांख्यिकीय लाभ प्रस्तुत करता है, निश्चित रूप से, लेकिन अधिक कुछ नहीं।

एक सवाल जो प्रॉपर्टीज स्कोर के साथ रिग्रेशन एडजस्टमेंट का उपयोग करते समय उत्पन्न हो सकता है, वह यह है कि क्या मॉडल में शामिल प्रोवेंस स्कोर का अनुमान लगाने के लिए इस्तेमाल किए गए सभी कोवरिएट्स के साथ रिग्रेशन एडजस्टमेंट करने के बजाय प्रॉपर्टीज स्कोर का उपयोग करने में कोई लाभ है। रोसेनबाउम और रुबिन ने दिखाया कि "मल्टीवेरेट एक्स के लिए सहसंयोजक समायोजन के विश्लेषण से उपचार के प्रभाव का बिंदु अनुमान एक्स पर आधारित नमूना रैखिक भेदभावपूर्ण के लिए एक अविभाज्य सहसंयोजक समायोजन से प्राप्त अनुमान के बराबर है, जब भी एक ही नमूना सहसंयोजक मैट्रिक्स का उपयोग किया जाता है। दोनों कोवरेज समायोजन और विभेदक विश्लेषण के लिए "। इस प्रकार, दोनों विधियों के परिणामों से समान निष्कर्ष निकल सकते हैं। तथापि, द्वि-चरणीय प्रक्रिया को करने का एक फायदा यह है कि पहले बातचीत और उच्च क्रम की शर्तों के साथ एक बहुत ही जटिल प्रवृत्ति स्कोर मॉडल को फिट किया जा सकता है। चूंकि इस प्रवृत्ति स्कोर मॉडल का लक्ष्य उपचार असाइनमेंट की सर्वोत्तम अनुमानित संभावना प्राप्त करना है, इसलिए कोई भी इस मॉडल को ओवर-पैरामीटर करने से चिंतित नहीं है।

से:

एक गैर-नियंत्रित नियंत्रण समूह के लिए उपचार के परिसर में बायस रिडक्शन के लिए संभावनाएं

डी'आगोस्टिनो (रोसेनबाउम और रुबिन के हवाले से)

डी'आगोस्टीनो, आरबी 1998। एक गैर-यादृच्छिक नियंत्रण समूह के लिए एक उपचार की तुलना में पूर्वाग्रह में कमी के लिए मिलान के प्रतिमान स्कोर। सांख्यिकीय चिकित्सा 17: 2265–2281।


5
(+1) इस संबंधित प्रश्न में कार्य-कारण के मुद्दे के बारे में एक दिलचस्प सूत्र भी था, एक सांख्यिकीय दृष्टिकोण से, क्या कोई अवलोकन अध्ययन के साथ प्रवृत्ति स्कोर का उपयोग करके कार्य-कारण का अनुमान लगा सकता है?
CHL

3
मैं इस जवाब के सामान्य आधार से सहमत हूं, लेकिन जब एक प्रॉपर्टी स्कोर के आधार पर मैच होता है तो यह सभी कोवरिएट्स को मॉडल में बंद करने जैसा नहीं होता (और इसलिए यह केवल एक आयाम घटाने की तकनीक नहीं है)। यह एक ही नहीं है अगर एक या तो प्रसार स्कोर द्वारा वजन।
एंडी डब्ल्यू

1
मैं इस जवाब से असहमत हूं। अनुमानित प्रसार स्कोर अच्छे होते हैं जब वे उपचार और नियंत्रण समूहों में कोवरिएट्स को संतुलित करते हैं और खराब नहीं होते हैं। एक प्रतिगमन कंडीशनिंग दृष्टिकोण के लिए बस के रूप में ही। चाहे वे 'बेहतर' हों, केवल उस संपत्ति पर निर्भर करता है, जो समस्या से समस्या में भिन्न होगी।
संयुक्ताक्षरी

1
मैं असहमत हूं, क्योंकि कसौटी, संतुलन, एक ही है कि दोनों रणनीतियां अलग-अलग हैं, क्योंकि उनकी ताकत और कमजोरियां हैं। समस्या के आधार पर एक बेहतर दृष्टिकोण हो सकता है या नहीं भी हो सकता है। वास्तव में, ' समतुल्य ANCOVA मॉडल' मुझे अच्छी तरह से परिभाषित नहीं लगता है। (समतुल्य कैसे?)
संयुक्ताक्षरी

1
सही। मैं अब देखता हूं कि 'समतुल्य' का क्या अर्थ है, लेकिन आपके उद्धरण में 'वाक्य' शुरू होने वाला वाक्य प्रासंगिक अंतर का परिचय देता है: व्यवहार में। स्कोर का अलग-अलग अनुमान लगाया जाता है ताकि वे विश्लेषण मॉडल की तुलना में अधिक बेहतर तरीके से हो सकें । (और लेख के निम्नलिखित पैराग्राफ में एक और अंतर है, उद्धृत नहीं किया गया है।)
संयुग्मपत्री

7

एक संभावित प्रसंग संदर्भ, लेकिन अगर आप संयोग से इसके पास हैं, तो मैं इस पुस्तक अध्याय ( एपेल और स्वीटन, 2010 ) को पढ़ने की सलाह दूंगा । यह सामाजिक वैज्ञानिकों के उद्देश्य से है और इसलिए शायद उतना गणितीय रूप से कठोर नहीं है जितना आप चाहते हैं, लेकिन यह आपके प्रश्न के संतोषजनक उत्तर से अधिक होने के लिए पर्याप्त गहराई में जाना चाहिए।

कुछ अलग-अलग तरीके हैं जो लोग प्रवृत्ति स्कोर का इलाज करते हैं, जिसके परिणामस्वरूप रिग्रेशन मॉडल में कोवरिएट्स सहित विभिन्न निष्कर्ष निकाले जा सकते हैं। जब एक मैच स्कोर होता है, तो जरूरी नहीं कि सभी टिप्पणियों के लिए आम समर्थन हो (यानी किसी के पास कुछ अवलोकन हैं जो कभी भी उपचार समूह में होने का मौका नहीं देते हैं, और कुछ ऐसे हैं जो हमेशा उपचार समूह में होते हैं)। इसके अलावा, विभिन्न तरीकों से टिप्पणियों का वजन किया जा सकता है जिसके परिणामस्वरूप विभिन्न निष्कर्ष निकल सकते हैं।

यहाँ जवाबों के अलावा, मैं आपको यह भी सुझाव दूंगा कि आप प्रश्न के उत्तर के प्रश्नों की जाँच करें । कोवरिएट संतुलन प्राप्त करने के लिए केवल सांख्यिकीय चाल की तुलना में प्रवृत्ति स्कोर के पीछे अधिक पदार्थ है। यह आप रोसेनबाम और रूबिन के उच्च उद्धृत लेखों को पढ़ते और समझते हैं, यह अधिक स्पष्ट होगा कि दृष्टिकोण प्रतिगमन मॉडल में कोवरिएट्स में जोड़ने से अलग क्यों है। मुझे लगता है कि आपके प्रश्न का अधिक संतोषजनक उत्तर जरूरी नहीं कि गणित में प्रॉपर्टीज स्कोर के पीछे हो बल्कि उनके तर्क में हो।


@Andy W ने मेरे अद्यतन किए गए पोस्ट में कोवरिएट्स और प्रॉपेर्सिटी स्कोर समायोजन के साथ प्रतिगमन की समानता पर रोसेनबॉम और रुबिन के उद्धरण देखें।
ब्रेट

0

मुझे अध्ययन के एक डिज़ाइन भाग के रूप में पीएस के बारे में सोचना पसंद है जो विश्लेषण से पूरी तरह से अलग हो गया। यही है, आप डिजाइन (पीएस) और विश्लेषण (प्रतिगमन आदि ...) के संदर्भ में सोचना चाह सकते हैं। इसके अलावा, पीएस बाइनरी उपचार के लिए विनिमेयता का समर्थन करने का एक मतलब है; हो सकता है कि अन्य लोग इस बात पर टिप्पणी कर सकें कि परिणाम मॉडल में सहसंयोजकों को शामिल किया जा सकता है, वे विनिमय क्षमता का समर्थन कर सकते हैं, या क्या कोई परिणाम मॉडल में सहसंयोजकों को शामिल करने से पहले विनिमेयता मान सकता है।


-3

स्टैट मेथड्स मेड रेस। 2016 अप्रैल 19।

प्रवृत्ति स्कोर में पूर्वाग्रह का मूल्यांकन गैर-रेखीय प्रतिगमन मॉडल को समायोजित करता है।

अवलोकन अध्ययनों में सशर्त उपचार प्रभाव का आकलन करते समय प्रेक्षित घनत्व के तरीकों का उपयोग आमतौर पर मनाया गया भ्रम के समायोजन के लिए किया जाता है। एक प्रचलित विधि, प्रतिगमन मॉडल में प्रवृत्ति स्कोर के कोवरिएट समायोजन को गैर-रेखीय मॉडल में पक्षपाती रूप से दिखाया गया है। हालांकि, कोई भी अनिवार्य अंतर्निहित सैद्धांतिक कारण प्रस्तुत नहीं किया गया है। हम पूर्वाग्रह की जांच करने के लिए एक नए ढांचे का प्रस्ताव करते हैं और गैर-रैखिक मॉडल में प्रवृत्ति स्कोर-समायोजित उपचार प्रभावों की स्थिरता है जो प्रवृत्ति स्कोर अनुमानक की स्थिरता और गैर-रैखिक मॉडल की संगतता के बीच एक कड़ी बनाने के लिए एक सरल ज्यामितीय दृष्टिकोण का उपयोग करता है। इस ढांचे के तहत, हम एक परिणाम मॉडल में प्रवृत्ति स्कोर के उस समायोजन को प्रदर्शित करते हैं जिसके परिणामस्वरूप प्रेवसिव स्कोर और शेष अवधि में कोवरेट्स के अपघटन होता है। एक गैर-बंधनेवाला प्रतिगमन मॉडल से इस शेष अवधि का प्रवेश सशर्त बाधाओं अनुपात और सशर्त खतरे के अनुपात के पक्षपाती अनुमानों की ओर जाता है, लेकिन सशर्त दर अनुपात के लिए नहीं। हम अनुकार अध्ययन के माध्यम से दिखाते हैं कि इन प्रसार स्कोर-समायोजित अनुमानों में पूर्वाग्रह बड़े उपचार प्रभाव आकार, बड़े कोवरिएट प्रभाव, और उपचार मॉडल बनाम परिणाम मॉडल में सहसंयोजकों के गुणांकों के बीच बढ़ती असमानता के साथ बढ़ता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.