क्या बहुविकल्पीता को श्रेणीबद्ध चर में निहित किया गया है?


10

मैंने देखा कि एक बहुभिन्नरूपी प्रतिगमन मॉडल के साथ छेड़छाड़ करते समय एक छोटी लेकिन ध्यान देने योग्य बहुसंस्कृति प्रभाव था, जैसा कि एक परिवर्तनशील चर की श्रेणियों के भीतर विचरण मुद्रास्फीति कारकों द्वारा मापा गया था (संदर्भ श्रेणी को छोड़कर, निश्चित रूप से)।

उदाहरण के लिए, मान लें कि हमारे पास निरंतर चर y और एक नाममात्र श्रेणीगत चर x के साथ एक डेटासेट है जिसमें संभव परस्पर अनन्य मान हैं। हम उन संभावित मानों को 0/1 डमी चर x 1 , x 2 , , x k के रूप में कोड करते हैं । फिर हम एक प्रतिगमन मॉडल चलाने y = b 0 + 1 एक्स 1 + 2 एक्स 2 + + कश्मीर - 1 एक्स कश्मीर - 1K - 1 के लिए VIF स्कोरkx1,x2,,xky=b0+b1x1+b2x2++bk1xk1k1डमी चर गैर शून्य हो जाते हैं। वास्तव में, जैसे-जैसे श्रेणियों की संख्या बढ़ती है, VIF बढ़ते जाते हैं। डमी चरों को केन्द्रित करना VIF को बदलने के लिए प्रकट नहीं होता है।

सहज स्पष्टीकरण से लगता है कि श्रेणीगत चर के भीतर श्रेणियों की पारस्परिक रूप से अनन्य स्थिति इस मामूली बहुरूपता का कारण बनती है। क्या यह एक तुच्छ खोज है या यह विचार करने के लिए एक मुद्दा है जब श्रेणीबद्ध चर के साथ प्रतिगमन मॉडल का निर्माण किया जाता है?

जवाबों:


8

मैं वास्तव में इस घटना को पुन: पेश नहीं कर सकता, लेकिन मैं यह प्रदर्शित कर सकता हूं कि वीआईएफ आवश्यक रूप से नहीं बढ़ता क्योंकि श्रेणियों की संख्या बढ़ जाती है

अंतर्ज्ञान सरल है: उपयुक्त प्रयोगात्मक डिजाइनों द्वारा श्रेणीबद्ध चर को ऑर्थोगोनल बनाया जा सकता है। इसलिए, सामान्य रूप से श्रेणियों की संख्या और बहुसंस्कृति के बीच कोई संबंध नहीं होना चाहिए ।

Rn

trial <- function(n, k1=2, k2=2) {
  df <- expand.grid(1:k1, 1:k2)
  df <- do.call(rbind, lapply(1:n, function(i) df))
  df$y <- rnorm(k1*k2*n)
  fit <- lm(y ~ Var1+Var2, data=df)
  vif(fit)
}

1

sapply(1:5, trial) # Two binary categories, 1-5 replicates per combination
sapply(1:5, function(i) trial(i, 10, 3)) # 30 categories, 1-5 replicates

इससे पता चलता है कि डिजाइन में बढ़ते असंतुलन के कारण बहुसंस्कृति बढ़ रही है । इसे जांचने के लिए, लाइन डालें

  df <- subset(df, subset=(y < 0))

में fitलाइन से पहले trial। यह यादृच्छिक पर आधा डेटा निकालता है। फिर से चल रहा है

sapply(1:5, function(i) trial(i, 10, 3))

1sapply(1:5, function(i) trial(i, 10, 10))


2

xixi=1x1=1xii1


मुझे यह समझ में नहीं आता है कि इस स्थिति से बहुराष्ट्रीय वितरण को क्या करना है। क्या आप समझाएँगे?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.