सादे अंग्रेजी में, मॉडल समायोजन की व्याख्या करें


14

सांख्यिकीय विश्लेषण के तरीकों और परिणामों के बारे में पढ़ना, विशेष रूप से महामारी विज्ञान में, मैं अक्सर मॉडल के समायोजन या नियंत्रण के बारे में सुनता हूं ।

एक गैर-सांख्यिकीविद् को, आप किस तरह से समझाएंगे? कुछ चर के लिए नियंत्रण करने के बाद आप अपने परिणामों की व्याख्या कैसे करते हैं?

Stata या R, या एक ऑनलाइन के लिए एक सूचक के माध्यम से लघु चलना, एक सच्चा रत्न होगा।

जवाबों:


29

एक उदाहरण के माध्यम से समझाने के लिए सबसे आसान:

कल्पना अध्ययन में पाया गया है कि विश्व कप फाइनल देखने वाले लोगों को मैच के दौरान या बाद के 24 घंटों में दिल का दौरा पड़ने की संभावना अधिक थी, जो इसे नहीं देखते थे। क्या सरकार को टीवी से फुटबॉल पर प्रतिबंध लगाना चाहिए? लेकिन पुरुषों में महिलाओं की तुलना में फुटबॉल देखने की अधिक संभावना होती है, और पुरुषों को भी महिलाओं की तुलना में दिल का दौरा पड़ने की अधिक संभावना होती है। तो संघ फुटबॉल: देखने से और दिल के दौरे के बीच एक से समझाया जा सकता है तीसरा पहलू ऐसे दोनों को प्रभावित करता है कि सेक्स के रूप में। (समाजशास्त्री यहां लिंग , एक सांस्कृतिक निर्माण के बीच अंतर करेंगे , जो फुटबॉल देखने और सेक्स से जुड़ा है, एक जैविक श्रेणी जो दिल के दौरे की घटना से जुड़ी है, लेकिन दोनों बहुत स्पष्ट रूप से सहसंबद्ध हैं इसलिए मैं सादगी के लिए उस भेद को अनदेखा करने जा रहा हूं।)

सांख्यिकीविदों, और विशेष रूप से महामारी विज्ञानियों, इस तरह के एक तीसरे कारक को एक कन्फ्यूडर और घटना को जटिल कहते हैं । समस्या को दूर करने का सबसे स्पष्ट तरीका है कि पुरुषों और महिलाओं में फ़ुटबॉल-वॉचिंग और हार्ट-अटैक की घटनाओं के बीच संबंध को देखें या सेक्स के द्वारा स्तरीकृत करने के लिए शब्दजाल में । यदि हम पाते हैं कि दोनों लिंगों में एसोसिएशन (यदि अभी भी एक है) समान है, तो हम फिर दो लिंगों के बीच एसोसिएशन के दो अनुमानों को संयोजित करने का विकल्प चुन सकते हैं। फुटबॉल देखने और दिल का दौरा पड़ने की घटना के बीच संबंध के परिणामस्वरूप अनुमान को तब सेक्स के लिए समायोजित या नियंत्रित किया जाता है

हम शायद इसी तरह अन्य कारकों के लिए भी नियंत्रण करना चाहेंगे। आयु एक और स्पष्ट है (वास्तव में महामारी विज्ञानियों ने या तो उम्र और लिंग द्वारा लगभग हर संघटन को स्तरीकृत या समायोजित / नियंत्रित किया है)। सामाजिक-आर्थिक वर्ग शायद एक और है। दूसरों को मुश्किल हो सकती है, जैसे कि हमें मैच देखने के दौरान बीयर की खपत के लिए समायोजित करना चाहिए? शायद हां, अगर हम अकेले मैच देखने के तनाव के प्रभाव में रुचि रखते हैं; लेकिन शायद नहीं, अगर हम विश्व कप फुटबॉल के प्रसारण पर प्रतिबंध लगाने पर विचार कर रहे हैं और इससे बीयर की खपत भी कम होगी। दिया गया वेरिएबल एक कन्फ़्यूडर है या नहीं, यह इस बात पर निर्भर करता है कि हम किस प्रश्न को संबोधित करना चाहते हैं, और इसके लिए बहुत सावधानी से विचार करने की आवश्यकता होती है और काफी पेचीदा और विवादास्पद भी हो सकता है।

स्पष्ट रूप से, हम कई कारकों के लिए समायोजन / नियंत्रण की इच्छा कर सकते हैं, जिनमें से कुछ को कई श्रेणियों (जैसे सामाजिक वर्ग) में मापा जा सकता है जबकि अन्य निरंतर (उदाहरण के लिए) हो सकता है। हम (आयु) समूहों में विभाजित करके निरंतर लोगों के साथ व्यवहार कर सकते हैं, जिससे वे श्रेणीबद्ध हो सकते हैं। तो कहते हैं कि हमारे पास 2 लिंग, 5 सामाजिक वर्ग समूह और 7 आयु वर्ग हैं। अब हम 2 × 5 × 7 = 70 स्ट्रैट में फुटबॉल-देखने और दिल के दौरे की घटना के बीच संबंध को देख सकते हैं। लेकिन अगर हमारा अध्ययन काफी छोटा है, तो उनमें से कुछ लोगों में बहुत कम लोग हैं, हम इस दृष्टिकोण के साथ समस्याओं में भाग लेने जा रहे हैं। और व्यवहार में हम एक दर्जन या अधिक चरों के लिए समायोजित करना चाह सकते हैं। वैरिएबल के लिए समायोजन / नियंत्रण का एक वैकल्पिक तरीका जो विशेष रूप से तब उपयोगी होता है जब उनमें से कई प्रतिगमन विश्लेषण द्वारा प्रदान किए जाते हैंकई आश्रित चर के साथ, कभी-कभी बहुक्रियात्मक प्रतिगमन विश्लेषण के रूप में जाना जाता है । (परिणाम चर के प्रकार के आधार पर विभिन्न प्रकार के प्रतिगमन मॉडल हैं: कम से कम वर्ग प्रतिगमन, लॉजिस्टिक प्रतिगमन, आनुपातिक खतरे (कॉक्स) प्रतिगमन ...)। अवलोकन संबंधी अध्ययनों में, प्रयोगों के विपरीत, हम लगभग हमेशा कई संभावित कन्फ़्यूज़नरों के लिए समायोजित करना चाहते हैं, इसलिए कन्फ़्यूज़न करने वालों के लिए अभ्यास समायोजन / नियंत्रण अक्सर प्रतिगमन विश्लेषण द्वारा किया जाता है, हालांकि अन्य विकल्प भी हैं, जैसे कि मानकीकरण, भार, प्रवृत्ति। मिलान हो रहा है ...


3
+1 (हालाँकि यह कम से कम +3 का हकदार है) - बहुत गहन और व्यापक। पूरे मामले को मेरे लिए बहुत स्पष्ट कर दिया। धन्यवाद!
radek

"वैरिएबल के लिए समायोजन / नियंत्रण का एक वैकल्पिक तरीका जो विशेष रूप से तब उपयोगी होता है जब उनमें से कई कई निर्भर चर के साथ प्रतिगमन विश्लेषण द्वारा प्रदान किए जाते हैं, जिन्हें कभी-कभी बहु-परिवर्तनीय प्रतिगमन विश्लेषण के रूप में जाना जाता है।" क्या यह "स्वतंत्र" माना जाता है या मैं गलत समझ रहा हूं? और इसके लिए अधिक सामान्य शब्दजाल है, "एकाधिक प्रतिगमन"? (मुझे पता है कि यह बहस का मुद्दा है)
रिचर्ड डिसाल्वो

10

ओनेस्टॉप ने इसे बहुत अच्छी तरह से समझाया, मैं अभी बनाये गए डेटा के साथ एक सरल आर उदाहरण दूंगा। कहो कि x वजन है और y ऊंचाई है, और हम यह पता लगाना चाहते हैं कि क्या पुरुषों और महिलाओं के बीच अंतर है:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

आप देख सकते हैं कि वजन को नियंत्रित किए बिना (एनोवा (एलएम 1)) लिंगों के बीच बहुत कम अंतर होता है, लेकिन जब वजन कोवेरिएट (lm2 के लिए नियंत्रित) के रूप में शामिल किया जाता है तो अंतर और अधिक स्पष्ट हो जाता है।

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.