वास्तव में एक “अन्य चर के लिए नियंत्रण” कैसे होता है?


141

यहाँ वह लेख है जिसने इस प्रश्न को प्रेरित किया है: क्या अधीरता हमें मोटा करती है?

मुझे यह लेख पसंद आया, और यह "अन्य चर के लिए नियंत्रण" (आईक्यू, कैरियर, आय, आयु, आदि) की अवधारणा को अच्छी तरह से प्रदर्शित करता है ताकि प्रश्न में सिर्फ 2 चर के बीच के सच्चे रिश्ते को सर्वश्रेष्ठ रूप से अलग किया जा सके।

क्या आप मुझे समझा सकते हैं कि आप एक विशिष्ट डेटा सेट पर चर के लिए वास्तव में कैसे नियंत्रित करते हैं?

उदाहरण के लिए, यदि आपके पास एक ही अधीरता स्तर और बीएमआई वाले 2 लोग हैं, लेकिन विभिन्न आय हैं, तो आप इन आंकड़ों का इलाज कैसे करते हैं? क्या आप उन्हें अलग-अलग उपसमूहों में वर्गीकृत करते हैं जिनमें समान आय, धैर्य और बीएमआई है? लेकिन, अंततः (आईक्यू, करियर, आय, उम्र, आदि) को नियंत्रित करने के लिए दर्जनों चर हैं। फिर आप इन (संभावित) 100 के उपसमूहों को कैसे एकत्रित करते हैं? वास्तव में, मुझे लगता है कि यह दृष्टिकोण गलत पेड़ को भौंक रहा है, अब जब मैंने इसे मौखिक रूप से बदल दिया है।

मैं कुछ वर्षों के लिए नीचे करने के लिए प्राप्त करने के लिए कुछ है पर किसी भी प्रकाश बहा के लिए धन्यवाद ...!


3
Epi & Bernd, इस जवाब देने की कोशिश करने के लिए बहुत बहुत धन्यवाद। दुर्भाग्य से, ये उत्तर मेरे प्रश्न से बड़ी छलांग हैं, और मेरे सिर के ऊपर हैं। हो सकता है कि यह मेरे पास आर के साथ अनुभव नहीं है, और बस एक बुनियादी सांख्यिकी 101 नींव है। अपने शिक्षण की प्रतिक्रिया के रूप में, एक बार जब आप बीएमआई, आयु, अधीरता आदि से दूर हो गए, तो "कोवरिएट" एट अल, आपने मुझे पूरी तरह से खो दिया। ऑटो-जनरेटिंग स्यूडो-डेटा भी अवधारणाओं को स्पष्ट करने में सहायक नहीं था। वास्तव में, यह बदतर बना दिया। डमी डेटा पर कोई अंतर्निहित अर्थ के साथ सीखना मुश्किल है, जब तक कि आप पहले से ही समझाए गए सिद्धांत को नहीं जानते हैं (यानी: शिक्षक मुझे जानता है
जैकऑफऑल

7
मौलिक महत्व के इस प्रश्न को पूछने के लिए धन्यवाद, @JackOfAll - इन पंक्तियों के साथ साइट बिना किसी प्रश्न के अधूरी होगी - मैंने इसे 'फेवरेट' किया है। यहाँ उत्तर मेरे लिए बहुत मददगार रहे हैं और जाहिरा तौर पर कई अन्य लोग अपवोट की संख्या के आधार पर। यदि, यह विचार करने के बाद, आपको उत्तर अपने आप में उपयोगी (या आपके किसी भी प्रश्न के उत्तर) मिल गए हैं, तो मैं आपको अपने उत्थान का उपयोग करने और यदि आपको यह निश्चित लगता है, तो उत्तर स्वीकार करने के लिए प्रोत्साहित करता है। यह क्रमशः उत्तर और चेकमार्क के बगल में थोड़ा ऊपर की ओर इशारा करते हुए घंटी वक्र पर क्लिक करके किया जा सकता है।
मैक्रों

4
यह एक पूर्ण उत्तर या कुछ भी नहीं है, लेकिन मुझे लगता है कि क्रिस ऐचेन द्वारा "लेट्स पुट कचरा-कैन रेजग्रेसन और कचरा-कैन प्रॉबिट्स वे कहां से उत्पन्न होते हैं" पढ़ना सार्थक है। (पीडीएफ लिंक: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) यह बायेसियन और फ़्रीक्वेंटिस्ट दोनों तरीकों पर समान रूप से लागू होता है। अपने सेट-अप में शब्दों को फेंकना केवल प्रभावों के लिए "नियंत्रण" करने के लिए पर्याप्त नहीं है, लेकिन दुख की बात है कि यह बहुत सारे साहित्य में नियंत्रण के लिए गुजरता है।
एली

9
आप पूछते हैं " कंप्यूटर सॉफ्टवेयर एक ही समय में सभी चर के लिए कैसे गणितीय नियंत्रण करता है "। आप यह भी कहते हैं कि "मुझे एक उत्तर की आवश्यकता है जिसमें सूत्र शामिल नहीं हैं"। मैं यह नहीं देखता कि वास्तव में एक ही समय में दोनों को कैसे करना संभव है। कम से कम आपको गंभीर अंतर्ज्ञान के साथ छोड़ने के गंभीर जोखिम के बिना नहीं।
Glen_b

2
मुझे आश्चर्य है कि इस सवाल पर ज्यादा ध्यान नहीं गया। मैं ओपी की टिप्पणी से सहमत हूं कि साइट पर अन्य प्रश्न उस विशेष मुद्दे को शामिल नहीं करते हैं जो यहां लाया गया है। @, आपके (दूसरे) प्रश्न का बहुत ही संक्षिप्त उत्तर यह है कि एकाधिक सहसंयोजक वास्तव में एक साथ आंशिक रूप से भिन्न होते हैं और आपके द्वारा वर्णित के रूप में पुनरावृत्त नहीं होते हैं। अब मैं इस बारे में सोचूंगा कि इन सवालों का अधिक विस्तृत और सहज जवाब कैसा दिखेगा।
जेक वेस्टफॉल

जवाबों:


124

चरों के लिए नियंत्रण के कई तरीके हैं।

सबसे आसान, और एक जो आप के साथ आया था, अपने डेटा को स्तरीकृत करना है ताकि आपके पास समान विशेषताओं के साथ उप-समूह हों - फिर उन परिणामों को एक साथ लाने के लिए एक "जवाब" प्राप्त करने के तरीके हैं। यह तब काम करता है जब आपके पास बहुत कम संख्या में चर होते हैं जिन्हें आप नियंत्रित करना चाहते हैं, लेकिन जैसा कि आपने सही तरीके से खोजा है, यह तेजी से अलग हो जाता है क्योंकि आप अपने डेटा को छोटे और छोटे हिस्से में विभाजित करते हैं।

एक प्रतिगमन मॉडल में उन चरों को शामिल करना है जिन्हें आप नियंत्रित करना चाहते हैं। उदाहरण के लिए, यदि आपके पास एक प्रतिगमन मॉडल है जिसे वैचारिक रूप से वर्णित किया जा सकता है:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

आप को अधीरता के लिए जो अनुमान मिलेगा वह अन्य सहसंयोजकों के स्तरों के भीतर अधीरता का प्रभाव होगा - प्रतिगमन आपको उन स्थानों पर अनिवार्य रूप से सुचारू करने की अनुमति देता है जहां आपके पास बहुत अधिक डेटा नहीं है (स्तरीकरण दृष्टिकोण के साथ समस्या), हालांकि यह किया जाना चाहिए सावधानी से।

अन्य चर के लिए नियंत्रित करने के और भी अधिक परिष्कृत तरीके हैं, लेकिन जब कोई व्यक्ति "अन्य चर के लिए नियंत्रित" कहता है, तो उनका मतलब है कि वे एक प्रतिगमन मॉडल में शामिल थे।

ठीक है, आपने एक उदाहरण के लिए कहा है जिस पर आप काम कर सकते हैं, यह देखने के लिए कि यह कैसे जाता है। मैं आपको इसके माध्यम से कदम से कदम मिला कर चलता हूँ। आप सभी की जरूरत है स्थापित आर की एक प्रति है।

सबसे पहले, हमें कुछ डेटा चाहिए। कोड के निम्नलिखित विखंडू को R में काटें और चिपकाएँ। ध्यान रखें कि यह एक आकस्मिक उदाहरण है जिसे मैंने मौके पर बनाया था, लेकिन यह प्रक्रिया को दर्शाता है।

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

वह आपका डेटा है। ध्यान दें कि हम पहले से ही परिणाम, एक्सपोज़र और कोवरिएट के बीच संबंध जानते हैं - यह कई सिमुलेशन अध्ययनों का बिंदु है (जिनमें से यह एक अत्यंत बुनियादी उदाहरण है। आप एक ऐसी संरचना से शुरू करते हैं जिसे आप जानते हैं, और आप यह सुनिश्चित करते हैं कि आप अपना तरीका सुनिश्चित करें। आपको सही उत्तर मिलेगा।

अब, प्रतिगमन मॉडल पर। निम्नलिखित टाइप करें:

lm(outcome~exposure)

क्या आपको इंटरसेप्ट = 2.0 और एक्सपोज़र = 0.6766 मिला है? या इसके कुछ पास, दिए गए डेटा में कुछ यादृच्छिक भिन्नता होगी? अच्छा - यह जवाब गलत है। हम जानते हैं कि यह गलत है। यह गलत क्यों है? हम एक चर के लिए नियंत्रित करने में विफल रहे हैं जो परिणाम और जोखिम को प्रभावित करता है। यह एक द्विआधारी चर है, इसे आप कुछ भी करें - लिंग, धूम्रपान / धूम्रपान न करने वाला, आदि।

अब इस मॉडल को चलाएं:

lm(outcome~exposure+covariate)

इस बार आपको इंटरसेप्ट = 2.00 का गुणांक, एक्सपोजर = 0.50 और 0.25 का सहसंयोजक मिलना चाहिए। यह, जैसा कि हम जानते हैं, सही उत्तर है। आपने अन्य चर के लिए नियंत्रित किया है।

अब, क्या होगा जब हम नहीं जानते कि अगर हमने उन सभी चरों का ध्यान रखा है जिनकी हमें आवश्यकता है (हम वास्तव में कभी नहीं करते हैं)? इसे अवशिष्ट भ्रामक कहा जाता है , और अधिकांश अवलोकन अध्ययनों में इसकी चिंता है - कि हमने अपूर्ण रूप से नियंत्रित किया है, और हमारा उत्तर, जबकि सही के करीब है, सटीक नहीं है। क्या यह अधिक मदद करता है?


धन्यवाद। किसी को भी एक सरल उदाहरण प्रतिगमन आधारित उदाहरण ऑनलाइन या एक पाठ्यपुस्तक में पता है जिसके माध्यम से मैं काम कर सकता हूं?
जैकऑफऑल

@JackOfAll ऐसे सैकड़ों उदाहरण हैं - आप किस क्षेत्र / प्रकार के प्रश्नों में रुचि रखते हैं और आप किस सॉफ्टवेयर पैकेज का उपयोग कर सकते हैं?
फोमाइट

वैसे, मेरे द्वारा कोई भी अकादमिक / वंचित उदाहरण ठीक है। मेरे पास एक्सेल है, जो एक बहु-चर प्रतिगमन को सही कर सकता है? या मुझे ऐसा करने के लिए R जैसी किसी चीज़ की ज़रूरत है?
जैकऑफऑल

10
+1 नकारात्मकता के बिना इसका उत्तर देने के लिए जिसका मैं उपयोग करूंगा। :) आम बोलचाल में, अन्य चर को नियंत्रित करने का मतलब है कि लेखकों ने उन्हें प्रतिगमन में फेंक दिया। इसका वास्तव में मतलब नहीं है कि वे क्या सोचते हैं इसका मतलब है कि अगर उन्होंने यह पुष्टि नहीं की है कि चर अपेक्षाकृत स्वतंत्र हैं और संपूर्ण मॉडल संरचना (आमतौर पर किसी तरह का जीएलएम) अच्छी तरह से स्थापित है। संक्षेप में, मेरा विचार है कि जब भी कोई इस वाक्यांश का उपयोग करता है, तो इसका मतलब है कि उनके पास आंकड़ों के बारे में बहुत कम सुराग है, और आपके द्वारा प्रस्तुत स्तरीकरण पद्धति का उपयोग करके परिणामों की फिर से गणना करनी चाहिए।
इटरेटर

7
@ SibbsGambling आप ध्यान देंगे कि मूल प्रश्नकर्ता ने सरल काम के लिए उदाहरण दिया है।
फोमाइट

56
  1. परिचय

    मुझे @ एपिग्रैड का उत्तर (+1) पसंद है, लेकिन मुझे एक अलग दृष्टिकोण लेना चाहिए। निम्नलिखित में मैं इस पीडीएफ दस्तावेज़ का उल्लेख कर रहा हूं: "मल्टीपल रिग्रेशन एनालिसिस: एस्टिमेशन" , जिसमें "ए 'पार्टिऑलिंग आउट' इंटरप्रिटेशन ऑफ मल्टीपल रिग्रेशन" (पृष्ठ 83 एफ) पर एक सेक्शन है। दुर्भाग्य से, मुझे नहीं पता कि इस अध्याय का लेखक कौन है और मैं इसे REGCHAPTER के रूप में संदर्भित करूंगा। इसी तरह की व्याख्या कोहलर / क्रेउटर (2009) "डेटा एनालिसिस यूजिंग स्टाटा" , अध्याय 8.2.3 "वॉट्स अंडर कंट्रोल 'मीन?" में मिल सकती है।

    मैं इस दृष्टिकोण को समझाने के लिए @ EpiGrad के उदाहरण का उपयोग करूंगा। परिशिष्ट में आर कोड और परिणाम देखे जा सकते हैं।

    यह भी ध्यान दिया जाना चाहिए कि "अन्य चर के लिए नियंत्रण" केवल तभी समझ में आता है जब व्याख्यात्मक चर मामूली रूप से सहसंबद्ध होते हैं (कोलिनियरिटी)। ऊपर उल्लिखित उदाहरण में, के बीच उत्पाद-पल सहसंबंध exposureऔर covariateहै 0.50, यानी,

    > cor(covariate, exposure)
    [1] 0.5036915
  2. बच गया

    मुझे लगता है कि आपको प्रतिगमन विश्लेषण में अवशिष्टों की अवधारणा की एक बुनियादी समझ है। यहाँ विकिपीडिया स्पष्टीकरण दिया गया है : "यदि कोई किसी डेटा पर एक प्रतिगमन चलाता है, तो फिट किए गए फ़ंक्शन से आश्रित चर टिप्पणियों के विचलन अवशिष्ट हैं"।

  3. 'अंडर कंट्रोल ’का क्या अर्थ है?

    चर के लिए नियंत्रित करना covariate, प्रभाव (प्रतिगमन वजन) के exposureपर outcomeके रूप में वर्णित किया जा सकता है इस प्रकार है (मैं, खराब कर रहा हूँ और सबसे सूचकांक और सभी टोपी छोड़ एक सटीक विवरण के लिए ऊपर उल्लेख पाठ देखें):

    β1=residi1yiresidi12

    residi1जब हम पुनः प्राप्त exposureकरते हैं covariate, अर्थात, हम अवशेष / होते हैं ,

    exposure=const.+βcovariatecovariate+resid

    "अवशिष्ट [..] का हिस्सा है जो साथ असंबंधित है । [...] इस प्रकार, बाद और बीच नमूना संबंध को है। पक्षपातपूर्ण "(REGCHAPTER 84)। "पक्षपातपूर्ण" का अर्थ है "के लिए नियंत्रित"। एक्स मैं 2 β 1 y एक्स 1 एक्स 2xi1xi2β^1yx1x2

    मैं @ EpiGrad के उदाहरण डेटा का उपयोग करके इस विचार को प्रदर्शित करूंगा। सबसे पहले, मैं पीछे की ओर हटाना होगा exposureपर covariate। चूंकि मुझे केवल अवशेषों में दिलचस्पी है lmEC.resid, इसलिए मैं आउटपुट को छोड़ देता हूं।

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    अगला कदम outcomeइन अवशेषों पर फिर से पाना है ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    जैसा कि आप देख सकते हैं, इस साधारण प्रतिगमन में lmEC.residस्तंभ का अनुमान (स्तंभ एस्टिमेट, ) के लिए , प्रतिगमन के लिए कई प्रतिगमन वजन के बराबर है , जो भी (देखें @ एपीरोड का जवाब या आर आउटपुट नीचे)।0.50βlmEC.resid=0.50covariate0.50

अनुबंध

आर कोड

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

आर आउटपुट

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
यह अध्याय बेबी वोल्ड्रिज (उर्फ परिचयात्मक अर्थमिति: ए मॉडर्न अप्रोच बाय जेफरी एम
। वोल्ड्रिज

2
मुझे कुछ गलतफहमी हो सकती है, लेकिन आपको कोवरिएट पर परिणाम को फिर से प्राप्त करने की आवश्यकता क्यों नहीं है और आखिरकार परिणाम अवशिष्ट को अवशिष्ट अवशिष्ट पर फिर से प्राप्त करें?
hlinee

@ हाईलाइन सही है। क्या आप समझा सकते हैं कि आप ऐसा क्यों नहीं करते?
पार्सल्टॉन्ग जुए

41

बेशक कुछ गणित शामिल होंगे, लेकिन यह ज्यादा नहीं है: यूक्लिड ने इसे अच्छी तरह से समझा होगा। आप सभी को वास्तव में यह जानना होगा कि वैक्टर को कैसे जोड़ना और पुनर्विक्रय करना है। हालांकि यह आजकल "रैखिक बीजगणित" के नाम से जाता है, आपको केवल दो आयामों में इसकी कल्पना करने की आवश्यकता है। यह हमें रैखिक बीजगणित की मैट्रिक्स मशीनरी से बचने और अवधारणाओं पर ध्यान केंद्रित करने में सक्षम बनाता है।


एक ज्यामितीय कहानी

yy1αx1x1ααβγ

आकृति 1

x1yyx1x1yαyy1yx1"लगातार संकेत देगा कि किस वैक्टर का" मिलान किया गया है, "" बाहर निकाल दिया गया, "या" के लिए नियंत्रित किया गया। "

x1x2x1βx1x21

चित्र 2

x1x2x1yx1x3,x4,x1

y1x21x21x1x21

चित्र तीन

yx2y1

x21y1x1y1x1γx21y12x1

x31,x41,x2

y12x1x2y12x1,x2,yx1,x2yx1x2x2x1

(यदि अतिरिक्त वैक्टर हैं, तो हम इसे "एक माचिस निकालेंगे" प्रक्रिया जारी रखेंगे, जब तक कि उन वैक्टरों में से प्रत्येक का मिलान करने वाला होने की बारी नहीं थी। हर मामले में संचालन वही होगा जैसा कि यहां दिखाया गया है और हमेशा इसमें होगा। विमान ।)


एकाधिक प्रतिगमन के लिए आवेदन

X1X2,YX1X2YX1X2X1,X2,

  1. मिलान क्रमिक रूप से और किया जा सकता है

  2. जिस क्रम में मिलान किया जाता है, वह मायने नहीं रखता।

अन्य अवशिष्टों को उनके अवशिष्टों द्वारा प्रतिस्थापित करके एक मिलानकर्ता को "बाहर निकालने" की प्रक्रिया को अक्सर मिलानकर्ता के लिए "नियंत्रित" के रूप में संदर्भित किया जाता है। जैसा कि हमने आंकड़ों में देखा है, एक बार एक मिलानकर्ता के लिए नियंत्रित किया गया है, बाद की सभी गणनाएं उस मिलानकर्ता के लिए लंबवत समायोजन करती हैं। यदि आप चाहें, तो आप "नियंत्रित करना" को "लेखांकन के रूप में" (कम से कम चौकोर अर्थ में) अन्य सभी चरों पर एक मिलानकर्ता के योगदान / प्रभाव / प्रभाव / सहयोग के लिए सोच सकते हैं। "


संदर्भ

आप https://stats.stackexchange.com/a/46508 पर जवाब में डेटा और कार्य कोड के साथ कार्रवाई में यह सब देख सकते हैं । यह उत्तर उन लोगों को अधिक पसंद आ सकता है जो विमान चित्रों पर अंकगणित पसंद करते हैं। (गुणांक को समायोजित करने के लिए अंकगणितीय के रूप में मिलान क्रमिक रूप से लाया जाता है, फिर भी सीधा है।) मिलान की भाषा फ्रेड मोस्टेलर और जॉन टुकी से है।


1
इन पंक्तियों के साथ और अधिक चित्र विन्के की पुस्तक "द जियोमेट्री ऑफ मल्टीवेरेट स्टैटिस्टिक्स" (1994) में देखे जा सकते हैं। कुछ उदाहरण इस उत्तर में हैं
caracal

2
xi

1
मुझे यह उत्तर पसंद है क्योंकि यह बीजगणित की तुलना में बहुत अधिक अंतर्ज्ञान देता है। BTW, यकीन नहीं होता कि आपने इस आदमी का यूट्यूब चैनल चेक किया है । मैंने इसे बहुत पसंद किया
हायतो दू

3

"अन्य चर के लिए नियंत्रण" के साधन के रूप में कोवरिएट समायोजन की अब तक एक उत्कृष्ट चर्चा है । लेकिन मुझे लगता है कि यह कहानी का हिस्सा है। वास्तव में, कई (अन्य) डिज़ाइन, मॉडल और मशीन लर्निंग आधारित रणनीतियाँ हैं, जो कई संभावित भ्रमित चर के प्रभाव को दूर करने के लिए हैं। यह कुछ सबसे महत्वपूर्ण (गैर-समायोजन) विषयों का एक संक्षिप्त सर्वेक्षण है। जबकि समायोजन अन्य चर के लिए "नियंत्रित" करने का सबसे व्यापक रूप से उपयोग किया जाने वाला साधन है, मुझे लगता है कि एक अच्छे सांख्यिकीविद् को अन्य प्रक्रियाओं और प्रक्रियाओं के संदर्भ में यह समझने की आवश्यकता होनी चाहिए कि यह क्या करता है (और क्या नहीं करता है)।

मेल मिलाना:

मिलान एक युग्मित विश्लेषण डिजाइन करने की एक विधि है जहां टिप्पणियों को 2 के सेट में वर्गीकृत किया जाता है जो अन्यथा उनके सबसे महत्वपूर्ण पहलुओं में समान हैं। उदाहरण के लिए, आप उन दो व्यक्तियों का नमूना ले सकते हैं जो अपनी शिक्षा, आय, व्यावसायिक कार्यकाल, आयु, वैवाहिक स्थिति, (आदि) में समवर्ती हैं, लेकिन जो अपनी अधीरता के संदर्भ में असंगत हैं। बाइनरी एक्सपोज़र के लिए, सरल युग्मित-टी परीक्षण सभी मिलान सुविधाओं के लिए उनके बीएमआई नियंत्रण में औसत अंतर के लिए परीक्षण करने के लिए पर्याप्त है। यदि आप एक निरंतर प्रदर्शन को मॉडलिंग कर रहे हैं, तो अंतर के मूल के माध्यम से एक अनुरूप माप एक प्रतिगमन मॉडल होगा। कारलिन 2005 देखें

E[Y1Y2]=β0(X1X2)

भार

XYएक बाइनरी एक्सपोज़र की संभावना और उस संबंध में उन चर के लिए नियंत्रण। यह एक प्रदर्शन के लिए प्रत्यक्ष मानकीकरण के समान है। रोथमैन, आधुनिक महामारी विज्ञान 3 संस्करण देखें।

रैंडमाइजेशन और क्वासिरैजिनेशन

यह एक सूक्ष्म बिंदु है, लेकिन यदि आप वास्तव में लोगों को एक निश्चित प्रयोगात्मक स्थिति में यादृच्छिक करने में सक्षम हैं, तो अन्य चर का प्रभाव कम हो जाता है। यह उल्लेखनीय रूप से मजबूत स्थिति है, क्योंकि आपको यह जानने की भी आवश्यकता नहीं है कि अन्य चर क्या हैं। उस अर्थ में, आपने उनके प्रभाव के लिए "नियंत्रित" किया है। यह अवलोकन अनुसंधान में संभव नहीं है, लेकिन यह पता चला है कि प्रवृत्ति के स्कोर के तरीके एक्सपोज़र के लिए एक सरल संभाव्य उपाय बनाते हैं, जो प्रतिभागियों को वजन, समायोजन, या मैच करने की अनुमति देता है ताकि उन्हें एक अर्ध-यादृच्छिक अध्ययन के रूप में एक ही फैशन में विश्लेषण किया जा सके। । रोसेनबूम, रुबिन 1983 देखें ।

Microsimulation

डेटा का अनुकरण करने का एक और तरीका जो एक यादृच्छिक अध्ययन से प्राप्त किया जा सकता है, वह है माइक्रोसिमुलेशन। यहाँ, कोई वास्तव में बड़े और अधिक परिष्कृत, मॉडल की तरह मशीन सीखने पर अपना ध्यान केंद्रित कर सकता है। एक शब्द जो यहूदिया पर्ल ने गढ़ा है कि मुझे " ओरेकल मॉडल " पसंद है : जटिल नेटवर्क जो कई विशेषताओं और परिणामों के लिए पूर्वानुमान और पूर्वानुमान पैदा करने में सक्षम हैं। यह पता चलता है कि इस तरह के एक ओरेकल मॉडल की जानकारी को "लोगों को संतुलित" करने के लिए एक संतुलित तालमेल में परिणामों को अनुकरण करने के लिए इस तरह के एक "मॉडल को मोड़ना" हो सकता है, जो उनके "नियंत्रण चर" वितरण में संतुलित है, और मूल्यांकन करने के लिए सरल टी-टेस्ट दिनचर्या का उपयोग कर रहा है। परिमाण और संभावित अंतर की शुद्धता। रटर, ज़ैस्लावस्की और फ़्यूअर 2012 देखें

प्रतिगमन मॉडल में मिलान, भार और सहसंयोजक समायोजन सभी समान संघों का अनुमान लगाते हैं, और इस प्रकार सभी को अन्य चर के लिए "नियंत्रित" करने के तरीके का दावा किया जा सकता है


पूरी तरह से मेरे सिर पर।
जैकऑफऑल

यह उस प्रश्न का उत्तर है जो पूछा गया था, अब तक की गई अच्छी चर्चा कुछ हद तक बहुभिन्नरूपी मॉडल में समायोजन के पक्ष में है।
एडमो

बहुभिन्नरूपी मॉडल, मिलान, आदि सभी मान्य तकनीक हैं, लेकिन एक शोधकर्ता आमतौर पर एक तकनीक का दूसरे पर उपयोग कब करता है?
एमएनएन

-1

Y=Xβ+εb=(XTX)1XTY


4
इस जानकारी की पेशकश करने का अवसर लेने के लिए धन्यवाद। प्रश्न में दी गई आवश्यकताओं को संबोधित करने के उत्तर के लिए, हमें दूसरी अभिव्यक्ति में अभिप्राय का अर्थ और दूसरी अभिव्यक्ति का अर्थ जानना होगा। मैं समझता हूं कि ढलान एक धुरी में परिवर्तन दूसरे में परिवर्तन है। याद रखें, संकेतन एक विशेष भाषा है जिसे मूल रूप से गैर उल्लेखनीय शब्दावली का उपयोग करके बनाया और सीखा गया था। उन लोगों तक पहुंचना, जो यह नहीं जानते कि भाषा को दूसरे शब्दों का उपयोग करने की आवश्यकता होती है और यह अनुशासन में ज्ञान लाने की चल रही चुनौती है।
जेन

2
XX
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.