चरों के लिए नियंत्रण के कई तरीके हैं।
सबसे आसान, और एक जो आप के साथ आया था, अपने डेटा को स्तरीकृत करना है ताकि आपके पास समान विशेषताओं के साथ उप-समूह हों - फिर उन परिणामों को एक साथ लाने के लिए एक "जवाब" प्राप्त करने के तरीके हैं। यह तब काम करता है जब आपके पास बहुत कम संख्या में चर होते हैं जिन्हें आप नियंत्रित करना चाहते हैं, लेकिन जैसा कि आपने सही तरीके से खोजा है, यह तेजी से अलग हो जाता है क्योंकि आप अपने डेटा को छोटे और छोटे हिस्से में विभाजित करते हैं।
एक प्रतिगमन मॉडल में उन चरों को शामिल करना है जिन्हें आप नियंत्रित करना चाहते हैं। उदाहरण के लिए, यदि आपके पास एक प्रतिगमन मॉडल है जिसे वैचारिक रूप से वर्णित किया जा सकता है:
BMI = Impatience + Race + Gender + Socioeconomic Status + IQ
आप को अधीरता के लिए जो अनुमान मिलेगा वह अन्य सहसंयोजकों के स्तरों के भीतर अधीरता का प्रभाव होगा - प्रतिगमन आपको उन स्थानों पर अनिवार्य रूप से सुचारू करने की अनुमति देता है जहां आपके पास बहुत अधिक डेटा नहीं है (स्तरीकरण दृष्टिकोण के साथ समस्या), हालांकि यह किया जाना चाहिए सावधानी से।
अन्य चर के लिए नियंत्रित करने के और भी अधिक परिष्कृत तरीके हैं, लेकिन जब कोई व्यक्ति "अन्य चर के लिए नियंत्रित" कहता है, तो उनका मतलब है कि वे एक प्रतिगमन मॉडल में शामिल थे।
ठीक है, आपने एक उदाहरण के लिए कहा है जिस पर आप काम कर सकते हैं, यह देखने के लिए कि यह कैसे जाता है। मैं आपको इसके माध्यम से कदम से कदम मिला कर चलता हूँ। आप सभी की जरूरत है स्थापित आर की एक प्रति है।
सबसे पहले, हमें कुछ डेटा चाहिए। कोड के निम्नलिखित विखंडू को R में काटें और चिपकाएँ। ध्यान रखें कि यह एक आकस्मिक उदाहरण है जिसे मैंने मौके पर बनाया था, लेकिन यह प्रक्रिया को दर्शाता है।
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
वह आपका डेटा है। ध्यान दें कि हम पहले से ही परिणाम, एक्सपोज़र और कोवरिएट के बीच संबंध जानते हैं - यह कई सिमुलेशन अध्ययनों का बिंदु है (जिनमें से यह एक अत्यंत बुनियादी उदाहरण है। आप एक ऐसी संरचना से शुरू करते हैं जिसे आप जानते हैं, और आप यह सुनिश्चित करते हैं कि आप अपना तरीका सुनिश्चित करें। आपको सही उत्तर मिलेगा।
अब, प्रतिगमन मॉडल पर। निम्नलिखित टाइप करें:
lm(outcome~exposure)
क्या आपको इंटरसेप्ट = 2.0 और एक्सपोज़र = 0.6766 मिला है? या इसके कुछ पास, दिए गए डेटा में कुछ यादृच्छिक भिन्नता होगी? अच्छा - यह जवाब गलत है। हम जानते हैं कि यह गलत है। यह गलत क्यों है? हम एक चर के लिए नियंत्रित करने में विफल रहे हैं जो परिणाम और जोखिम को प्रभावित करता है। यह एक द्विआधारी चर है, इसे आप कुछ भी करें - लिंग, धूम्रपान / धूम्रपान न करने वाला, आदि।
अब इस मॉडल को चलाएं:
lm(outcome~exposure+covariate)
इस बार आपको इंटरसेप्ट = 2.00 का गुणांक, एक्सपोजर = 0.50 और 0.25 का सहसंयोजक मिलना चाहिए। यह, जैसा कि हम जानते हैं, सही उत्तर है। आपने अन्य चर के लिए नियंत्रित किया है।
अब, क्या होगा जब हम नहीं जानते कि अगर हमने उन सभी चरों का ध्यान रखा है जिनकी हमें आवश्यकता है (हम वास्तव में कभी नहीं करते हैं)? इसे अवशिष्ट भ्रामक कहा जाता है , और अधिकांश अवलोकन अध्ययनों में इसकी चिंता है - कि हमने अपूर्ण रूप से नियंत्रित किया है, और हमारा उत्तर, जबकि सही के करीब है, सटीक नहीं है। क्या यह अधिक मदद करता है?