क्या बहुविकल्पीता को श्रेणीबद्ध चर में निहित किया गया है?

10

मैंने देखा कि एक बहुभिन्नरूपी प्रतिगमन मॉडल के साथ छेड़छाड़ करते समय एक छोटी लेकिन ध्यान देने योग्य बहुसंस्कृति प्रभाव था, जैसा कि एक परिवर्तनशील चर की श्रेणियों के भीतर विचरण मुद्रास्फीति कारकों द्वारा मापा गया था (संदर्भ श्रेणी को छोड़कर, निश्चित रूप से)।

उदाहरण के लिए, मान लें कि हमारे पास निरंतर चर y और एक नाममात्र श्रेणीगत चर x के साथ एक डेटासेट है जिसमें संभव परस्पर अनन्य मान हैं। हम उन संभावित मानों को 0/1 डमी चर । फिर हम एक प्रतिगमन मॉडल चलाने । लिए VIF स्कोर $k$ $x_1, x_2,\dots ,x_k$ $y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}$ $k-1$ डमी चर गैर शून्य हो जाते हैं। वास्तव में, जैसे-जैसे श्रेणियों की संख्या बढ़ती है, VIF बढ़ते जाते हैं। डमी चरों को केन्द्रित करना VIF को बदलने के लिए प्रकट नहीं होता है।

सहज स्पष्टीकरण से लगता है कि श्रेणीगत चर के भीतर श्रेणियों की पारस्परिक रूप से अनन्य स्थिति इस मामूली बहुरूपता का कारण बनती है। क्या यह एक तुच्छ खोज है या यह विचार करने के लिए एक मुद्दा है जब श्रेणीबद्ध चर के साथ प्रतिगमन मॉडल का निर्माण किया जाता है?

regression categorical-data multicollinearity

— RobertF
स्रोत

8

मैं वास्तव में इस घटना को पुन: पेश नहीं कर सकता, लेकिन मैं यह प्रदर्शित कर सकता हूं कि वीआईएफ आवश्यक रूप से नहीं बढ़ता क्योंकि श्रेणियों की संख्या बढ़ जाती है ।

अंतर्ज्ञान सरल है: उपयुक्त प्रयोगात्मक डिजाइनों द्वारा श्रेणीबद्ध चर को ऑर्थोगोनल बनाया जा सकता है। इसलिए, सामान्य रूप से श्रेणियों की संख्या और बहुसंस्कृति के बीच कोई संबंध नहीं होना चाहिए ।

R $n$

trial <- function(n, k1=2, k2=2) {
  df <- expand.grid(1:k1, 1:k2)
  df <- do.call(rbind, lapply(1:n, function(i) df))
  df$y <- rnorm(k1*k2*n)
  fit <- lm(y ~ Var1+Var2, data=df)
  vif(fit)
}

$1$

sapply(1:5, trial) # Two binary categories, 1-5 replicates per combination
sapply(1:5, function(i) trial(i, 10, 3)) # 30 categories, 1-5 replicates

इससे पता चलता है कि डिजाइन में बढ़ते असंतुलन के कारण बहुसंस्कृति बढ़ रही है । इसे जांचने के लिए, लाइन डालें

  df <- subset(df, subset=(y < 0))

में fitलाइन से पहले trial। यह यादृच्छिक पर आधा डेटा निकालता है। फिर से चल रहा है

sapply(1:5, function(i) trial(i, 10, 3))

$1$ sapply(1:5, function(i) trial(i, 10, 10))

— व्हीबर
स्रोत

2

$x_i$ $\sum x_i =1$ $x_1 =1 - \sum x_i$ $i \neq 1$

— माइकल आर। चेरिक
स्रोत

मुझे यह समझ में नहीं आता है कि इस स्थिति से बहुराष्ट्रीय वितरण को क्या करना है। क्या आप समझाएँगे?

— whuber