समस्वरता सम्‍मिलित होने पर सम्‍मिलित निदान सम्‍मिलित करता है


26

मैंने यूएस काउंटियों पर एक प्रतिगमन चलाया है, और अपने 'स्वतंत्र' चर में कोलिनियरिटी के लिए जाँच कर रहा हूँ। Belsley, Kuh, और Welsch का Regगमन डायग्नॉस्टिक्स सुझाव देता है कि वह इंडेक्स इंडेक्स और वियरेन्स अपघटन अनुपात देख रहा है:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif सुझाव है कि VIF> 5 समस्याग्रस्त हैं:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

जबकि जॉन फॉक्स के प्रतिगमन निदान VIF के वर्गमूल को देखने का सुझाव देते हैं:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

पहले दो मामलों में (जहां एक स्पष्ट कटऑफ का सुझाव दिया गया है), मॉडल केवल तभी समस्याग्रस्त होता है जब बातचीत शब्द शामिल होता है।

इंटरेक्शन शब्द वाला मॉडल तब तक है जब तक यह बिंदु मेरा पसंदीदा विनिर्देश नहीं है।

मेरे पास डेटा के इस प्रश्न के दो प्रश्न हैं:

  1. क्या एक इंटरेक्शन शब्द हमेशा डेटा की मिलीभगत को खराब करता है?
  2. चूंकि इंटरैक्शन शब्द के बिना दो चर थ्रेशोल्ड से ऊपर नहीं हैं, इसलिए मैं इंटरैक्शन टर्म के साथ मॉडल का उपयोग करके ठीक हूं। विशेष रूप से, कारण मुझे लगता है कि यह ठीक हो सकता है कि मैं गुणांक (नकारात्मक द्विपद मॉडल) की व्याख्या करने के लिए राजा, टॉमज़ और विटनबर्ग (2000) पद्धति का उपयोग कर रहा हूं, जहां मैं आमतौर पर अन्य गुणांक को अर्थ में रखता हूं, और फिर व्याख्या क्या मेरी आश्रित चर के पूर्वानुमानों से होता है जब मैं ले जाने inc09_10kऔर unins09स्वतंत्र रूप से और संयुक्त रूप से चारों ओर।

जवाबों:


31

हां, यह आमतौर पर गैर-केंद्रित बातचीत के साथ होता है। दो स्वतंत्र चर और उनके "इंटरैक्शन" के सहसंबंध पर क्या होता है, इस पर एक त्वरित नज़र

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

और फिर जब आप उन्हें केन्द्रित करते हैं:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

संयोग से, एक ही पहले केंद्र के बिना बहुपद शब्दों (यानी, ) सहित हो सकता है ।X, X2, ...

तो आप अपनी जोड़ी के साथ एक शॉट दे सकते हैं।


के रूप में क्यों केंद्रित करने में मदद करता है - लेकिन चलो covariance की परिभाषा पर वापस जाते हैं

Cov(X,XY)=E[(XE(X))(XYE(XY))]=E[(Xμx)(XYμxy)]=E[X2YXμxyXYμx+μxμxy]=E[X2Y]E[X]μxyE[XY]μx+μxμxy

यहां तक ​​कि X और Y की स्वतंत्रता दी गई

=E[X2]E[Y]μxμxμyμxμyμx+μxμxμy=(σx2+μx2)μyμx2μy=σx2μy

यह सीधे आपके प्रतिगमन समस्या से संबंधित नहीं है, क्योंकि आपके पास शायद पूरी तरह से स्वतंत्र और , और चूंकि दो व्याख्यात्मक चर के बीच सहसंबंध हमेशा रिग्रेशन में बहुरंगी मुद्दों का परिणाम नहीं होता है। लेकिन यह दिखाता है कि दो गैर-केंद्रित स्वतंत्र चर के बीच बातचीत कैसे सहसंबंध का कारण बनती है, और यह सहसंबंध बहुसंस्कृति मुद्दों का कारण बन सकता है।वाईXY


मेरे लिए सहज रूप से, गैर-केंद्रित वैरिएबल होने का सीधा सा मतलब है कि जब बड़ा होता है, तो भी बिना पूर्ण पैमाने पर बड़ा होने वाला है , और इसलिए और सहसंबद्ध हो जाएगा, और इसी तरह ।एक्स वाई वाई एक्स एक्स वाई वाई वाईXXYYXXYY


दिलचस्प है, धन्यवाद। क्या आपके पास एक स्पष्टीकरण या प्रशस्ति पत्र है कि केंद्र क्यों मायने रखता है?
अरी बी। फ्रीडमैन

मुझे लगता है कि जैसा कि यह उत्तर पूरे इनाम के लायक नहीं है, लेकिन मैं इसे आधा इनाम देना चाहूंगा। सुनिश्चित नहीं है कि ऐसा तब तक होता है जब तक कि इसमें दूसरा अप-वोट न हो: - /।
अरी बी। फ्रीडमैन

1
@ AriB.Friedman, आप (वास्तव में) आधा इनाम देने का विकल्प नहीं है। आप बाउंटी को पुरस्कृत नहीं कर सकते (हालाँकि आप अभी भी इस तरह से प्रतिनिधि को खो देंगे) और इस पोस्ट को संभवतः आधे इनाम से स्वचालित रूप से सम्मानित किया जाएगा ( सहायता पृष्ठ के संबंधित अनुभाग देखें )। हालाँकि, यह उत्तर इनाम के लायक क्यों नहीं होगा? Affine ठीक यहीं है (+1)।
गंग - मोनिका

@gung मैं पूर्व-संपादन देख रहा था। निश्चित रूप से अब इसके हकदार हैं। थैंक्स @Affine! आधे-बाउंटी भाग के रूप में, मेरी समझ >=+2 का उत्तर है, अगर इनाम मैन्युअल रूप से सम्मानित नहीं किया जाता है, तो एक आधा जवाब एक आधा-इनाम मिलता है।
अरी बी। फ्रीडमैन

@ AriB.Friedman, यह सही है, लेकिन इससे पहले कि मैं टिप्पणी करता (और upvoted, और किसी और ने भी किया था), उसके पास 2+ अपवोट्स नहीं थे।
गंग - मोनिका

0

मुझे इस विषय पर निम्नलिखित प्रकाशन उपयोगी लगे हैं:

रॉबिन्सन एंड शूमाकर (2009): इंटरेक्शन प्रभाव: केंद्रित, विचरण मुद्रास्फीति कारक और व्याख्या मुद्दे

'प्रतिगमन समीकरणों के गुणांक पर केंद्रित भविष्यवक्ता के प्रभाव (केंद्रित बनाम असूचीबद्ध समाधान और उच्च क्रम इंटरैक्शन प्रभाव (3-तरह की बातचीत; निरंतर प्रभावों द्वारा स्पष्ट)) को एकेन और वेस्ट (1991) द्वारा कवर किया गया है। उनका उदाहरण काफी बहुस्तरीयता दिखाता है। एक प्रतिगमन शब्द के साथ एक प्रतिगमन समीकरण में पेश किया जाता है जब चर केंद्रित नहीं होते हैं। '

Afshartous & Preston (2011): केंद्र के साथ सहभागिता मॉडल के प्रमुख परिणाम

'चर केंद्रीकरण को नियोजित करने के लिए प्रेरणा में कोफी-मरीजों की बढ़ी हुई व्याख्या शामिल है और बहुसंस्कृति से जुड़े अनुमान के लिए संख्यात्मक अस्थिरता कम हो गई है।'

जाहिर है ऐकेन और वेस्ट (1991) भी इस विषय को कवर करते हैं, लेकिन मेरे पास उनकी किताब नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.