कई इंप्यूटेशन के बाद प्रॉपर्टीज स्कोर का मिलान


34

मैं इस पत्र का उल्लेख करता हूं : हेस जेआर, ग्रोनर जेआई। "ट्रॉमा रजिस्ट्री डेटा से चोट की गंभीरता पर कार की सीटों और सीट बेल्ट के उपयोग के प्रभाव का परीक्षण करने के लिए कई अभेद्यता और प्रवृत्ति स्कोर का उपयोग करना।" जे पीडियाट्रर सर्जन। 2008 मई; 43 (5): 924-7।

इस अध्ययन में, 15 पूर्ण डेटासेट प्राप्त करने के लिए कई प्रतिरूपण किए गए थे। प्रॉपर्टीज स्कोर तब प्रत्येक डेटासेट के लिए गणना की गई थी। फिर, प्रत्येक अवलोकन इकाई के लिए, रिकॉर्ड किए गए 15 डेटासेट (संबंधित प्रवृत्ति स्कोर सहित) में से एक से यादृच्छिक रूप से चुना गया था, जिससे एक एकल अंतिम डेटासेट बन गया था, जिसके बाद भविष्यवाणी स्कोर मिलान द्वारा विश्लेषण किया गया था।

मेरे प्रश्न हैं: क्या यह वैधता स्कोर करने के लिए कई प्रतिरूपण के बाद मिलान करने का वैध तरीका है? क्या इसे करने के लिए वैकल्पिक तरीके हैं?

संदर्भ के लिए: अपने नए प्रोजेक्ट में, मैं 2 उपचार विधियों के प्रभाव की तुलना करना चाहता हूं ताकि प्रॉपर्टीज स्कोर मिलान का उपयोग किया जा सके। अनुपलब्ध डेटा है और मैं MICEअनुपलब्ध मानों को लागू करने के लिए आर में पैकेज का उपयोग करने का इरादा करता हूं , फिर twangप्रॉपर्टीज स्कोर मिलान करने के लिए, और फिर lme4मिलान किए गए डेटा का विश्लेषण करने के लिए।

Update1:

मुझे यह पेपर मिला है जो एक अलग दृष्टिकोण लेता है: मित्रा, रॉबिन और राइटर, जेरोम पी। (2011) पुनरावृत्ति, क्रमिक एकाधिक प्रतिरूपण [वर्किंग पेपर] के माध्यम से लापता कोवरिएट्स के साथ मिलान करने वाले प्रवृत्ति स्कोर।

इस पत्र में लेखक सभी प्रतिरूपित डेटासेट पर प्रसार स्कोर की गणना करते हैं और फिर उन्हें औसत से पूल करते हैं, जो रुबिन के नियम का एक बिंदु अनुमान के लिए उपयोग करते हुए कई प्रतिरूपण की भावना में है - लेकिन क्या यह वास्तव में एक प्रवृत्ति स्कोर के लिए लागू है?

यह बहुत अच्छा होगा अगर CV पर कोई भी इन 2 अलग-अलग दृष्टिकोणों पर टिप्पणी के साथ उत्तर दे सकता है, और / या कोई अन्य…।

जवाबों:


20

पहली बात यह है कि, मेरे लिए, विधि 1 (नमूना) बहुत योग्यता के बिना लगता है - यह कई प्रतिरूपण के लाभों को छोड़ रहा है, और प्रत्येक अवलोकन के लिए एकल प्रतिरूपण को कम कर देता है, जैसा कि स्टास द्वारा उल्लिखित है। मैं इसका उपयोग करने में कोई फायदा नहीं देख सकता।

हिल, जे: हिल में लापता डेटा के साथ प्रवृत्ति स्कोर विश्लेषण आसपास के मुद्दों का एक बहुत अच्छा विचार-विमर्श (2004) नहीं है "गैर-मौजूद डेटा से अवलोकन अध्ययन पीड़ा में उपचार के प्रभाव आकलन में पूर्वाग्रह को कम करना" ISERP कार्य पत्रों, 2004 यह से डाउनलोड है यहाँ

पेपर कई प्रतिरूपण का उपयोग करने के लिए दो दृष्टिकोणों पर विचार करता है (और लापता डेटा से निपटने के अन्य तरीके) और प्रवृत्ति स्कोर:

  • कई प्रतिरूपण के बाद प्रवृत्ति स्कोर का औसत, इसके बाद कारण निष्कर्ष (आपकी पोस्ट में ऊपर विधि 2)

  • कारण अनुमानों के औसत के बाद कई अशुद्धियों से प्रवृत्ति स्कोर के प्रत्येक सेट का उपयोग करके कारण निष्कर्ष।

इसके अतिरिक्त, कागज विचार करता है कि क्या परिणाम को प्रतिरूपण मॉडल में एक भविष्यवक्ता के रूप में शामिल किया जाना चाहिए।

हिल का दावा है कि लापता डेटा से निपटने के अन्य तरीकों को पसंद किया जाता है, जबकि सामान्य रूप से, कोई प्राथमिकता नहीं हैइन तकनीकों में से एक को दूसरे पर पसंद करने का कारण। हालांकि, विशेष रूप से कुछ मिलान एल्गोरिदम का उपयोग करते समय, प्रवृत्ति स्कोर के औसत को प्राथमिकता देने के कारण हो सकते हैं। हिल ने एक ही पेपर में एक अनुकार अध्ययन किया और पाया कि कारण अनुमान से पहले प्रवृत्ति स्कोर के औसत, जब प्रतिरूपण मॉडल में परिणाम सहित औसत चुकता त्रुटि के मामले में सबसे अच्छा परिणाम उत्पन्न किया, और पहले स्कोर का औसत, लेकिन परिणाम के बिना इंप्यूटेशन मॉडल में, औसत पूर्वाग्रह (अनुमानित और सच्चे उपचार प्रभाव के बीच पूर्ण अंतर) के संदर्भ में सबसे अच्छे परिणाम उत्पन्न हुए। आम तौर पर, इंप्यूटेशन मॉडल (उदाहरण के लिए यहां देखें ) में परिणाम को शामिल करना उचित है ।

तो ऐसा लगेगा कि आपका तरीका 2 जाने का रास्ता है।


1
मैं विधि संख्या 2 को समझता हूं, लेकिन मैं इसे आर में लागू करने के तरीके के बारे में नुकसान पर हूं। क्या किसी के पास मुझे इंगित करने के लिए कोई संदर्भ है?
सैम

2
दोनों तरीकों के लिए आर कोड cobalt"जटिल डेटा के साथ कोबाल्ट का उपयोग" शीर्षक पैकेज के लिए विगनेट में प्रदान किया गया है । आप इसे यहां एक्सेस कर सकते हैं: CRAN.R-project.org/package=cobalt
नूह

13

दो प्रतिमानों का टकराव हो सकता है। मल्टीपल इंप्यूटेशन एक भारी मॉडल-आधारित बेसेसियन समाधान है: उचित इंप्यूटेशन की अवधारणा अनिवार्य रूप से बताती है कि आपको डेटा के अच्छी तरह से परिभाषित पश्च वितरण से नमूना लेने की आवश्यकता है, अन्यथा आप खराब हो गए हैं। दूसरी ओर, घनत्व स्कोर मिलान, अर्ध-पैरामीट्रिक प्रक्रिया है: एक बार जब आप अपने प्रवृत्ति स्कोर की गणना कर लेते हैं (कोई फर्क नहीं पड़ता कि, आप कर्नेल घनत्व अनुमान का उपयोग कर सकते हैं, जरूरी नहीं कि एक लॉजिट मॉडल), तो आप बाकी काम कर सकते हैं बस एक ही प्रवृत्ति स्कोर के साथ इलाज और गैर-इलाज टिप्पणियों के बीच अंतर लेने से, जो अब थोड़े गैर पैरामीट्रिक है, क्योंकि कोई मॉडल नहीं बचा है जो अन्य सहसंयोजकों के लिए नियंत्रण करता है। मैं डॉन'अबदी और इमबेंस (2008) ने चर्चा की कि यह वास्तव में कुछ मिलान स्थितियों में मानक त्रुटियों को ठीक से प्राप्त करना असंभव बनाता है)। मैं उल्टे प्रवृत्ति के द्वारा भारित करने जैसे सहज दृष्टिकोणों पर अधिक विश्वास करूंगा। इस पर मेरा पसंदीदा संदर्भ है "ज्यादातर हानिकारक अर्थमिति" , "एन एम्पैरिसिस्ट कम्पेनियन", और अर्थशास्त्रियों के उद्देश्य से सबटाइटल, लेकिन मुझे लगता है कि इस पुस्तक को अन्य सामाजिक वैज्ञानिकों, अधिकांश जैव-भौतिकविदों और गैर-जैव सांख्यिकीविदों के लिए भी आवश्यक पढ़ना चाहिए। वे जानते हैं कि अन्य विशेषज्ञ डेटा विश्लेषण कैसे करते हैं।

किसी भी दर पर, प्रति अवलोकन 15 प्रतिरूपित पूर्ण डेटा लाइनों में से केवल एक का उपयोग करना एक ही प्रतिरूपण के बराबर है। नतीजतन, आप सभी 15 पूर्ण डेटा सेट की तुलना में दक्षता खो देते हैं, और आप मानक त्रुटियों का ठीक से अनुमान नहीं लगा सकते हैं। मुझे किसी भी कोण से, एक कमी की प्रक्रिया की तरह लगता है।

बेशक, हम ख़ुशी से कालीन के नीचे झाड़ू लगाते हैं कि कई प्रतिरूपण मॉडल और प्रवृत्ति मॉडल दोनों सभी सही कार्यात्मक रूपों में सभी सही चर होने के अर्थ में सही हैं। यह जांचने का बहुत कम तरीका है कि (हालाँकि मैं इन दोनों तरीकों के नैदानिक ​​उपायों के बारे में सुनकर खुश हूँ)।


(+1) विशेष रूप से मैं मिलान के शाब्दिक कार्यान्वयन द्वारा शुरू की गई छूट के बारे में अच्छा महसूस नहीं करता हूं (प्रस्ताव स्कोर के निकटतम संभावित मूल्य के साथ नियंत्रण ढूंढें, और बाकी को अनदेखा करें) । प्रॉपर्टीज स्कोरिंग ने मुझे हमेशा काफी कठिन प्रक्रिया के रूप में मारा है।
कार्डिनल

@ कार्डिनल, अपडेट देखें।
StasK

मैंने वास्तव में IPTW की अधिक आलोचना देखी है, क्योंकि मुझे अन्य विधियों द्वारा मिलान करना है (मुझे पढ़ने की आवश्यकता होगी)। प्रॉपर्टीज स्कोर ( फ्रीडमैन और बर्क, 2008 ) द्वारा वेटिंग रेजिस्टेंस देखें, और एक लागू उदाहरण के लिए बज़र्क, 2009 देखें । मुझे यकीन नहीं है कि आप यहां प्रतिक्रिया के लिए हानिरहित अर्थमिति की सिफारिश क्यों करते हैं, लेकिन यह अवलोकन संबंधी अध्ययनों में रुचि रखने वाले किसी भी व्यक्ति के लिए एक अच्छी सिफारिश है।
एंडी डब्ल्यू

@ और, फ्रीडमैन और बर्क टुकड़ा बहुत सरल स्थिति से निपटने के लिए लगता है जब आप एक लॉजिस्टिक रिग्रेशन में सब कुछ मॉडल कर सकते हैं। मेरी समझ यह है कि पीएसएम जैसी विधियां बहुत अधिक खतरनाक स्थितियों में लागू होती हैं, जब आपके पास कई और सहसंयोजक होते हैं, और आप मॉडल पर अच्छी तरह से भरोसा नहीं करते हैं कि यह सही ढंग से निर्दिष्ट है। उन्होंने देखा कि स्थिति भार के लिए अनुकूल थी, लेकिन मुझे लगता है कि यह अन्य संभावित तरीकों की तुलना में मॉडल के लिए अनुकूल था।
StasK

2
क्योंकि आपका डेटा iid नहीं है, और व्युत्क्रम हेस्सियन की समानता और ढाल के बाहरी उत्पाद के बारे में महान अधिकतम संभावना प्रमेय अब नहीं रखता है, और न ही उनमें से कोई भी परिवर्तन का एक सुसंगत अनुमान है। एक सैंडविच वेरिएंट अनुमानक का उपयोग करने की जरूरत है, सर्वेक्षण के आंकड़ों में उर्फ ​​रैखिककरण अनुमानक, अर्थमिति में उर्फ ​​व्हाइट मजबूत अनुमानक।
21

10

मैं वास्तव में प्रश्न के सैद्धांतिक पहलुओं पर बात नहीं कर सकता, लेकिन मैं अपने अनुभव को PS / IPTW मॉडल और कई प्रतिरूपण का उपयोग करके दे दूँगा।

  1. मैंने कभी भी किसी एकल डेटा सेट का निर्माण करने के लिए गुणा किए गए डेटा सेट और यादृच्छिक नमूने का उपयोग करते हुए नहीं सुना है। यह जरूरी नहीं है कि यह गलत है, लेकिन इसका उपयोग करने के लिए एक अजीब तरीका है। डेटा सेट भी इतना बड़ा नहीं है कि आपको समय और संगणना को बचाने के लिए केवल एक के बजाय 3-5 मॉडल चलाने के लिए रचनात्मक प्राप्त करने की आवश्यकता होगी।
  2. रुबिन का नियम और पूलिंग विधि एक बहुत ही सामान्य उपकरण है। देखते हुए, गुणा किए गए परिणाम की गणना केवल विचरण और अनुमानों का उपयोग करके की जा सकती है, कोई कारण नहीं है कि मैं देख सकता हूं कि इसका उपयोग आपकी परियोजना के लिए नहीं किया जा सकता है - प्रतिधारित डेटा बनाना, प्रत्येक सेट पर विश्लेषण करना, और फिर पूलिंग। यह वही है जो मैंने किया है, यह वही है जो मैंने किया है, और जब तक कि आपके पास ऐसा करने का कोई विशिष्ट औचित्य नहीं है, मैं वास्तव में कुछ और अधिक विदेशी के साथ जाने का कारण नहीं देख सकता हूं - खासकर यदि आप समझ नहीं पाते हैं कि क्या है विधि के साथ चल रहा है।

+1 यह एक ऐसा प्रश्न है, जो एक अच्छा उत्तर प्रदान करना कठिन है क्योंकि ऐसा लगता है कि यह एक विशेष पेपर है। लेकिन पिछले एक इसी तरह के सवाल पर इनाम खोने का दावा करने के अलावा, ओपी ने एक सवाल भी जोड़ा, जो मेटा में माइग्रेट किए गए समाधानों के लिए भीख मांग रहा था। मैंने अपने उत्तर में आपके साथ भी ऐसी ही टिप्पणी की। मैं विशेष रूप से डेटा के बहुप्रतीक्षित सेट से नमूने के बारे में संदिग्ध हूं।
माइकल आर। चेरनिक

धन्यवाद ! क्या आपके पास कोई संदर्भ है जहां विधि 2 का उपयोग किया गया है?
जो राजा

@ जोकिंग दुखी, मेरे सिर के ऊपर से नहीं।
फोमाइट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.