प्राकृतिक (यानी प्रतिबंधित) क्यूबिक स्प्लिन का उपयोग करते समय, बनाए गए आधार फ़ंक्शन अत्यधिक मिलीभगत होते हैं, और जब एक प्रतिगमन में उपयोग किया जाता है तो बहुत अधिक वीआईएफ (विचरण मुद्रास्फीति कारक) आंकड़े का उत्पादन होता है, जो मल्टीकोलिनरिटी का संकेत देता है। जब कोई भविष्यवाणी उद्देश्यों के लिए एक मॉडल के मामले पर विचार कर रहा है, तो क्या यह एक मुद्दा है? ऐसा लगता है कि यह हमेशा की तरह होगा क्योंकि स्पैन निर्माण की प्रकृति है।
यहाँ R में एक उदाहरण दिया गया है:
library(caret)
library(Hmisc)
library(car)
data(GermanCredit)
spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots
class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))
cor(spl_mat)
OUTPUT:
x
x 1.0000000 0.9386463 0.9270723 0.9109491
0.9386463 1.0000000 0.9994380 0.9969515
0.9270723 0.9994380 1.0000000 0.9989905
0.9109491 0.9969515 0.9989905 1.0000000
mod<-glm(class~.,data=dat,family=binomial()) #model
vif(mod) #massively high
OUTPUT:
x V2 V3 V4
319.573 204655.833 415308.187 45042.675
अपडेट करें:
मैं आर (और अन्य) में Hmisc पैकेज के लेखक डॉ। हरेल के पास पहुंचा और उन्होंने जवाब दिया कि जब तक एल्गोरिथ्म परिवर्तित हो जाता है (जैसे लॉजिस्टिक रिग्रेशन) और मानक त्रुटियां नहीं हुई हैं (जैसा कि मैर्टन ने नीचे कहा है - और) मॉडल अच्छी तरह से फिट बैठता है, एक परीक्षण सेट पर सबसे अच्छा दिखाया गया है, फिर इस कोलीनियरिटी के साथ कोई समस्या नहीं है।
इसके अलावा, उन्होंने कहा (और यह उनकी उत्कृष्ट प्रतिगमन मॉडलिंग रणनीतियाँ पुस्तक के पृष्ठ 65 पर मौजूद है ) जो कि बीजगणितीय फैशन जैसे कि प्रतिबंधित क्यूबिक स्प्लिन में निर्मित चरों के बीच समतुल्यता एक मुद्दा नहीं है, जब बहुसंख्यात्मकता उन मामलों में होती है जब नमूना से नमूना में परिवर्तन होता है।
rcsgen