एआईसी, बीआईसी और जीसीवी: दंडित प्रतिगमन विधियों में निर्णय लेने के लिए सबसे अच्छा क्या है?


14

मेरी सामान्य समझ है AIC मॉडल के फिट की अच्छाई और मॉडल की जटिलता के बीच व्यापार बंद से संबंधित है।

AIC=2k2ln(L)

k = मॉडल में मापदंडों की संख्या

L = संभावना

बायसियन सूचना मानदंड बीआईसी एआईसी के साथ निकटता से संबंधित है। एआईसी बीआईसी की तुलना में मापदंडों की संख्या को कम दृढ़ता से दंडित करता है। मैं देख सकता हूँ कि इन दोनों का उपयोग ऐतिहासिक रूप से हर जगह किया जाता है। लेकिन सामान्यीकृत क्रॉस सत्यापन (जीसीवी) मेरे लिए नया है। GCV BIC या AIC से कैसे संबंधित हो सकता है? रिज जैसे पैनलबद्ध प्रतिगमन में दंड अवधि के चयन में इन मानदंडों को एक साथ या अलग-अलग कैसे उपयोग किया जाता है?

संपादित करें: यहां एक उदाहरण सोचने और चर्चा करने का है:

    require(lasso2)
    data(Prostate)
    require(rms)

    ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
           method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
    p <- pentrace(ridgefits, seq(0,1,by=.01))
    effective.df(ridgefits,p)
    out <- p$results.all
    par(mfrow=c(3,2))
    plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df"  )
    plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC",  xlab = "df" )
    plot(out$penalty, out$df,  type = "l", col = "red", 
     xlab = expression(paste(lambda)), ylab = "df" )
    plot(out$penalty, out$aic, col = "blue", type = "l",  
      ylab = "AIC", xlab = expression(paste(lambda))  )
    plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC", 
      xlab= expression(paste(lambda))

require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l", 
      ylab = "CVM",   xlab= expression(paste(lambda))

यहाँ छवि विवरण दर्ज करें

जवाबों:


10

मुझे लगता है कि बीआईसी को पसंद किया जा रहा है जब "सच" कम-आयामी मॉडल है, जो मुझे लगता है कि अनुभवजन्य कार्य में कभी ऐसा नहीं होता है। AIC यह मानने के साथ अधिक है कि हम जितना अधिक डेटा एक मॉडल को प्राप्त करेंगे उतना अधिक जटिल हो सकते हैं। मेरे अनुभव में, स्वतंत्रता की प्रभावी डिग्री का उपयोग करते हुए AIC, दंड पैरामीटर का चयन करने का एक बहुत अच्छा तरीका है क्योंकि यह एक नए, स्वतंत्र, नमूने में मॉडल के प्रदर्शन को अनुकूलित करने की संभावना है।λ


2
महान व्यावहारिक व्याख्या, और बायेसियन संदर्भ में भी समझ में आता है ... "सिद्धांतवादी" आधारित संभावना अनुपात बनाम "नास्तिक" भविष्यवाणी त्रुटि।
छायाकार

3
यह संभवतया विस्तृत करने में मदद करेगा कि एक नियमित समाधान के लिए "स्वतंत्रता की प्रभावी डिग्री" को कैसे गणना और एआईसी में उपयोग किया जा सकता है।
ब्रायन बोरकर्स

2
R rmsपैकेज effective.dfफ़ंक्शन और मेरी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ में कोड देखें । रॉबर्ट ग्रे से मुख्य विचार यह है कि आप कोविएरिएंस मैट्रिक्स को बिना दंड के मानते हैं बनाम पेनिज़ेरिज़ के साथ सहसंयोजक मैट्रिक्स। इन दोनों के एक प्रकार के अनुपात के विकर्ण का योग आपको प्रभावी df देता है
फ्रैंक हरेल

@FrankHarrell: तो अगर मैं आपको सही तरीके से समझूं - glmnet(प्रत्येक अलग लैम्ब्डा पैरामीटर के साथ प्रत्येक में ) मॉडल की एक गुच्छा की गणना करना और प्रत्येक मॉडल के लिए एआईसी की गणना करना ठीक है, और फिर सबसे कम एआईसी के साथ मॉडल के अनुरूप लैम्ब्डा चुनें? यह मूल रूप से लैंबडा पैरामीटर चुनने का एक और तरीका है, क्रॉस वैलिडेशन का उपयोग करने के अलावा। क्या मैं सही हू?
कोरल

1
मैं उस rmsपैकेज के संदर्भ में लिख रहा था, जहां एक जोड़ी फिटिंग कार्य जब effective.dfमापदंडों की प्रभावी संख्या की गणना करता है, तो आप एक प्रभावी एआईसी प्राप्त कर सकते हैं। यह अनुमानित होगा कि आपको CV'ing के साथ क्रॉस-वेलिडेशन से क्या मिलता है। देखें इस
फ्रैंक Harrell

10

इस पर मेरे अपने विचार बहुत संग्रहित नहीं हैं, लेकिन यहाँ उन बिंदुओं का एक संग्रह है, जिनके बारे में मुझे पता है कि इससे मदद मिल सकती है।


एआईसी की बायेसियन व्याख्या यह है कि यह अपेक्षित लॉग पॉइंटवाइड प्रेडिक्टिव घनत्व यानी आउट-ऑफ-सैंपल प्रिडिक्शन एरर का बायस-करेक्टेड एंबेडेशन है। यह व्याख्या जेलमैन, ह्वांग और व्हीत्सारी (2013) में अच्छी तरह से रखी गई है और जेलमैन के ब्लॉग पर भी संक्षेप में चर्चा की गई है । क्रॉस-मान्यता एक ही चीज के लिए एक अलग सन्निकटन है।

इस बीच, BIC एक विशेष पूर्व ( Raftery, 1999 में स्पष्ट रूप से समझाया गया ) के तहत " बेयस फैक्टर " का एक अनुमान है । यह एक संभावना अनुपात के लगभग बायेसियन एनालॉग है।

एआईसी और बीआईसी के बारे में दिलचस्प बात यह है कि दंडित प्रतिगमन की एक बायेसियन व्याख्या भी है, उदाहरण के लिए LASSO गुणांक पर स्वतंत्र लाप्लास पादरियों के साथ बायेशियन प्रतिगमन का एमएपी अनुमान है। इस पिछले प्रश्न में थोड़ा और जानकारी और क्यूंग, गिल, घोष, और कैसेला (2010) में बहुत अधिक जानकारी ।

यह मुझे सुझाव देता है कि आप बायेसियन शब्दों में सोचकर और मॉडलिंग करके कुछ माइलेज या कम से कम अधिक सुसंगत अनुसंधान डिजाइन प्राप्त कर सकते हैं। मुझे पता है कि यह उच्च-आयामी मशीन सीखने जैसे कई अनुप्रयोगों में थोड़ा असामान्य है, और नियमितीकरण के अधिक व्याख्या योग्य ज्यामितीय और हानि-फ़ंक्शन व्याख्याओं से (मेरी राय में) कुछ हद तक हटा दिया गया है। बहुत कम से कम, मैं एआईसी और बीआईसी के बीच निर्णय लेने और आम लोगों, गैर-सांख्यिकीय-उन्मुख सहकर्मियों / मालिकों, आदि के बीच अंतर को समझाने के लिए बायेसियन व्याख्या पर बहुत भरोसा करता हूं।

मुझे पता है कि यह क्रॉस-वेलिडेशन के लिए ज्यादा नहीं बोलता है। बायेसियन इंट्रेंस के बारे में एक अच्छी बात यह है कि यह पॉइंट के अनुमानों के बजाय आपके मापदंडों के अनुमानित वितरण का उत्पादन करता है । यह, मुझे लगता है, भविष्यवाणी त्रुटि के बारे में अनिश्चितता को मापने के मुद्दे को दरकिनार करने के लिए इस्तेमाल किया जा सकता है। हालांकि, अगर आप अनुमान hyperparameters को सीवी का उपयोग कर, जैसे के बारे में बात कर रहे हैं LASSO के लिए, मैं फिर से करने के लिए आस्थगित करें Gelman :λ

क्रॉस-वैलिडेशन द्वारा एक ट्यूनिंग पैरामीटर का चयन करना केवल पदानुक्रमित बेस का एक विशेष कार्यान्वयन है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.