कितनी अच्छी तरह से कई प्रतिगमन "के लिए नियंत्रण" covariates कर सकते हैं?


45

हम सभी अवलोकन संबंधी अध्ययनों से परिचित हैं जो एक गैर-आयामी भविष्यवक्ता एक्स के बीच एक कारण लिंक स्थापित करने का प्रयास करते हैं और एक परिणाम के रूप में हर कल्पनाशील संभावित कन्फ़्यूडर को कई प्रतिगमन मॉडल में शामिल करते हैं। इस प्रकार सभी कन्फ्यूजर्स के लिए "कंट्रोलिंग" के लिए, तर्क जाता है, हम ब्याज के भविष्यवक्ता के प्रभाव को अलग करते हैं।

मैं इस विचार के साथ एक बढ़ती बेचैनी विकसित कर रहा हूं, जो ज्यादातर मेरे सांख्यिकी वर्गों के विभिन्न प्रोफेसरों द्वारा की गई ऑफ-हैंड टिप्पणियों पर आधारित है। वे कुछ मुख्य श्रेणियों में आते हैं:

1. आप केवल उन कोवरेट्स के लिए नियंत्रण कर सकते हैं जो आप सोचते हैं और मापते हैं।
यह स्पष्ट है, लेकिन मुझे आश्चर्य है कि अगर यह वास्तव में सभी के लिए सबसे खतरनाक और दुर्गम है।

2. इस दृष्टिकोण ने अतीत में कुरूप गलतियों को जन्म दिया है।

उदाहरण के लिए, पेटिट्टी और फ्रीडमैन (2005) चर्चा करते हैं कि हृदय रोग जोखिम पर हार्मोन रिप्लेसमेंट थेरेपी के प्रभाव पर सांख्यिकीय रूप से समायोजित अवलोकन संबंधी अध्ययनों के दशकों दशकों के दौरान कैसे गलत निष्कर्ष निकले । बाद में आरसीटी को लगभग विपरीत प्रभाव मिला।

3. जब आप सहसंयोजकों के लिए नियंत्रण करते हैं तो भविष्यवक्ता-परिणाम संबंध अजीब व्यवहार कर सकते हैं।

यू-कांग तू, गननेल, और गिल्थर्प (2008) कुछ अलग अभिव्यक्तियों पर चर्चा करते हैं, जिसमें लॉर्ड्स पैराडॉक्स, सिम्पसन के विरोधाभास और दमनकारी चर शामिल हैं।

4. एक मॉडल (बहु प्रतिगमन) के लिए कोवरिएट्स के लिए पर्याप्त रूप से समायोजित करना और साथ ही साथ भविष्यवक्ता-परिणाम संबंध को मॉडल करना मुश्किल है।

मैंने इसे प्रॉपर्टीज स्कोर और कन्फ्यूजन पर स्तरीकरण जैसे तरीकों की श्रेष्ठता के कारण के रूप में सुना है, लेकिन मुझे यकीन नहीं है कि मैं वास्तव में इसे समझता हूं।

5. ANCOVA मॉडल को स्वतंत्र होने के लिए सहसंयोजक और ब्याज के भविष्यवक्ता की आवश्यकता होती है।

बेशक, हम कन्फ्यूजर्स के लिए समायोजित करते हैं कि ठीक है, क्योंकि वे ब्याज के पूर्वसूचक के साथ सहसंबद्ध हैं, इसलिए, ऐसा लगता है, मॉडल सटीक उदाहरणों में असफल होगा जब हम इसे सबसे अधिक चाहते हैं। तर्क यह जाता है कि यादृच्छिक यादृच्छिक परीक्षणों में शोर-कटौती के लिए समायोजन केवल उचित है। मिलर एंड चैपमैन, 2001 एक बेहतरीन समीक्षा देते हैं।

तो मेरे सवाल हैं:

  1. ये समस्याएं कितनी गंभीर हैं और दूसरों को मैं नहीं जानता?
  2. जब मुझे एक अध्ययन दिखाई देता है तो मुझे कितना डर ​​होना चाहिए कि "सब कुछ के लिए नियंत्रण"?

(मुझे उम्मीद है कि यह प्रश्न चर्चा क्षेत्र में बहुत दूर नहीं है और इसे सुधारने के लिए किसी भी सुझाव को खुशी से आमंत्रित करें।)

संपादित करें : मैंने एक नया संदर्भ खोजने के बाद बिंदु 5 को जोड़ा।


1
प्रश्न 2 के लिए, मुझे लगता है कि 'सब कुछ के लिए नियंत्रण' विनिर्देश का अधिक सामान्य मुद्दा है। मुझे ऐसी स्थिति के बारे में सोचने में परेशानी होती है जहां एक पैरामीट्रिक मॉडल सही ढंग से निर्दिष्ट किया गया हो। यह कहा जा रहा है, एक मॉडल वास्तविकता को सरल करता है, और यही वह जगह है जहां इस तरह के अध्ययन की कला निहित है। शोधकर्ता को यह तय करना होगा कि मॉडल में क्या महत्वपूर्ण है और क्या नहीं है।
kirk

4
इस सवाल के साथ आपने मुझे प्रशंसक बना दिया है।
rolando2

1
मुझे लगता है कि यह कुछ बहुत अच्छे बिंदुओं को उठाता है; लेकिन मुझे लगता है कि जवाब कड़ाई से सांख्यिकीय क्षेत्र के बाहर हैं। इस प्रकार, कोई भी सांख्यिकीय परिणाम अधिक मूल्यवान है यदि यह 1 है) 2 को दोहराया गया है) काफी व्यवहार्य है आदि भी मैजिक मानदंड और सामान्य तर्क एबेल्सन देखते हैं ।
पीटर Flom - को पुनः स्थापित मोनिका

1
प्वाइंट # 5 बिल्कुल झूठ है। मिलर और चैपमैन कागज पूरी तरह से गलत है, पूर्ण विराम।
जेक वेस्टफॉल

1
@ आधा-पास निश्चित नहीं है कि इसके बारे में और क्या कहना है कि कागज के केंद्रीय दावे के अलावा - यानी, कि फोकल प्रेडिक्टर एक्स और कोवरिएट सी को असंबद्ध होना चाहिए - बस सच नहीं है। ध्यान दें कि ANCOVA सिर्फ एक प्रतिगमन मॉडल है, इसलिए तर्क की यह एक ही रेखा स्पष्ट रूप से कई प्रतिगमन के लगभग सभी वास्तविक-विश्व उपयोगों को अमान्य कर देगी! मैंने इस भयानक पेपर के बारे में कई महीने पहले कुछ ट्विटर चर्चा की थी: twitter.com/CookieSci/status/902298218494644228
जेक वेस्टफॉल

जवाबों:


4

व्यापक रूप से स्वीकृत, गैर-सांख्यिकीय हो रहा है, शायद इसका जवाब है - किसी को यह दावा करने के लिए कि किन मान्यताओं के लिए वास्तव में कोवरियों के लिए नियंत्रित किया जाना चाहिए।

यह यहूदिया पर्ल के कारण रेखांकन के साथ किया जा सकता है और पथरी कर सकता है

Http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf के साथ-साथ उनकी वेबसाइट पर अन्य सामग्री देखें ।

अब सांख्यिकीविदों के रूप में हम जानते हैं कि सभी मॉडल झूठे हैं, और असली सांख्यिकीय सवाल यह है कि पहचाने जाने की संभावना बहुत गलत नहीं है, ताकि हमारा उत्तर लगभग ठीक हो। पर्ल को इस बारे में पता है और वह अपने काम में इसकी चर्चा करता है, लेकिन शायद स्पष्ट रूप से नहीं और अक्सर पर्याप्त होता है कि वह कई सांख्यिकीविदों को अपने दावे के साथ उत्तर देने से बचने के लिए (जो मुझे लगता है कि उसकी धारणाओं के लिए क्या करना चाहिए? )

(वर्तमान में ASA शिक्षण सामग्री के लिए पुरस्कार की पेशकश कर रहा है, इन विधियों को इन पाठ्यक्रमों में शामिल करने के लिए यहाँ देखें )


एक सुरुचिपूर्ण चित्रमय प्रतिनिधित्व के लिए महान संदर्भ, धन्यवाद।
आधा

0

प्रश्न 1 का उत्तर:

  • गंभीरता की परिमाण का आकलन एक संदर्भात्मक तरीके से किया जाता है (यानी, वैधता में योगदान करने वाले सभी कारकों पर विचार करना चाहिए)।
  • गंभीरता की मात्रा का आंकलन श्रेणीबद्ध तरीके से नहीं किया जाना चाहिए एक उदाहरण अध्ययन डिजाइनों के उदाहरण के पदानुक्रम की धारणा है (उदाहरण के लिए मामले की रिपोर्ट सबसे कम है और आरसीटी स्पष्ट रूप से उच्चतम हैं)। इस तरह की योजना को अक्सर मेडिकल स्कूलों में उच्च गुणवत्ता वाले सबूतों की जल्दी से पहचान करने के लिए एक आसान उत्तराधिकारी के रूप में पढ़ाया जाता है। इस प्रकार की सोच के साथ समस्या यह है कि यह एल्गोरिथम है और वास्तव में अति निर्धारक है जिसका उत्तर स्वयं ही निर्धारित है। जब ऐसा होता है, तो आप उन तरीकों को याद कर सकते हैं जिनमें खराब तरीके से डिज़ाइन किए गए आरसीटी अच्छी तरह से डिज़ाइन किए गए अवलोकन अध्ययन की तुलना में खराब परिणाम दे सकते हैं।
  • महामारी विज्ञानी (रोथमैन, 2014) के दृष्टिकोण से उपरोक्त बिंदुओं की पूरी चर्चा के लिए समीक्षा पढ़ने के लिए यह आसान देखें ।

प्रश्न 2 का उत्तर:

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.