क्या मल्टीकोलिनरिटी और स्प्लिन रिग्रेशन के लिए कोई समस्या है?


12

प्राकृतिक (यानी प्रतिबंधित) क्यूबिक स्प्लिन का उपयोग करते समय, बनाए गए आधार फ़ंक्शन अत्यधिक मिलीभगत होते हैं, और जब एक प्रतिगमन में उपयोग किया जाता है तो बहुत अधिक वीआईएफ (विचरण मुद्रास्फीति कारक) आंकड़े का उत्पादन होता है, जो मल्टीकोलिनरिटी का संकेत देता है। जब कोई भविष्यवाणी उद्देश्यों के लिए एक मॉडल के मामले पर विचार कर रहा है, तो क्या यह एक मुद्दा है? ऐसा लगता है कि यह हमेशा की तरह होगा क्योंकि स्पैन निर्माण की प्रकृति है।

यहाँ R में एक उदाहरण दिया गया है:

library(caret)
library(Hmisc)
library(car)
data(GermanCredit)

spl_mat<-rcspline.eval(GermanCredit$Amount,  nk=5, inclx=TRUE) #natural cubic splines with 5 knots

class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))

cor(spl_mat)

OUTPUT:
              x                              
    x 1.0000000 0.9386463 0.9270723 0.9109491
      0.9386463 1.0000000 0.9994380 0.9969515
      0.9270723 0.9994380 1.0000000 0.9989905
      0.9109491 0.9969515 0.9989905 1.0000000


mod<-glm(class~.,data=dat,family=binomial()) #model

vif(mod) #massively high

OUTPUT:
x         V2         V3         V4 
319.573 204655.833 415308.187  45042.675

अपडेट करें:

मैं आर (और अन्य) में Hmisc पैकेज के लेखक डॉ। हरेल के पास पहुंचा और उन्होंने जवाब दिया कि जब तक एल्गोरिथ्म परिवर्तित हो जाता है (जैसे लॉजिस्टिक रिग्रेशन) और मानक त्रुटियां नहीं हुई हैं (जैसा कि मैर्टन ने नीचे कहा है - और) मॉडल अच्छी तरह से फिट बैठता है, एक परीक्षण सेट पर सबसे अच्छा दिखाया गया है, फिर इस कोलीनियरिटी के साथ कोई समस्या नहीं है।

इसके अलावा, उन्होंने कहा (और यह उनकी उत्कृष्ट प्रतिगमन मॉडलिंग रणनीतियाँ पुस्तक के पृष्ठ 65 पर मौजूद है ) जो कि बीजगणितीय फैशन जैसे कि प्रतिबंधित क्यूबिक स्प्लिन में निर्मित चरों के बीच समतुल्यता एक मुद्दा नहीं है, जब बहुसंख्यात्मकता उन मामलों में होती है जब नमूना से नमूना में परिवर्तन होता है।


1
आप हमेशा उत्पन्न rcsgen
स्प्लिट्स को

जवाबों:


7

इस तरह के एक फ़ंक्शन का आकलन करते समय मल्टीकोलीनिटी संख्यात्मक समस्याओं को जन्म दे सकती है। यही कारण है कि कुछ प्रतिबंधित क्यूबिक स्प्लिन के बजाय बी-स्प्लिन (या उस विषय पर भिन्नता) का उपयोग करते हैं। इसलिए, मैं प्रतिबंधित क्यूबिक विभाजन को एक बड़े टूलबॉक्स में एक संभावित उपयोगी उपकरण के रूप में देखता हूं।


हाय मैर्टन, जब आप कहते हैं कि संख्यात्मक समस्याएं क्या आप अभिसरण या इस तरह का उल्लेख करती हैं? यदि प्रतिगमन परिवर्तित हो गया और एक परीक्षण सेट पर अच्छा करने के लिए प्रकट होता है - क्या आप निष्कर्ष निकालते हैं कि स्थिति कोई समस्या नहीं है?
B_Miner

यदि संख्यात्मक समस्याएं हैं तो अभिसरण की कमी की संभावना है (लेकिन आवश्यक नहीं) परिणाम। अवास्तविक गुणांक अनुमान और / या अवास्तविक उच्च मानक त्रुटियां अन्य संभावित परिणाम हैं।
मैर्टन ब्यूस

1
क्यूआर अपघटन जैसे तरीकों ने बहुत मदद की। हालाँकि, आप अभी भी आधुनिक सॉफ़्टवेयर को तोड़ सकते हैं, ऐसा करना कठिन हो गया है।
Maarten Buis

1
यह एक समस्या नहीं हो सकती है। लेकिन अगर कोई संख्यात्मक समस्या है, तो scale=TRUEआर rmsपैकेज में फिटिंग के कुछ कार्यों का तर्क फिटिंग से पहले सभी कॉलमों को मानकीकृत करेगा और फिटिंग के बाद गुणांक को इस तरह से अनियंत्रित करेगा कि उपयोगकर्ता को इसकी आवश्यकता नहीं है।
फ्रैंक हरेल

2
इतनी अधिक गुणांक और मानक त्रुटियों को मत देखो। पूरे फिटेड कर्व को देखें।
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.