एआईसी, बीआईसी और जीसीवी: दंडित प्रतिगमन विधियों में निर्णय लेने के लिए सबसे अच्छा क्या है?

मेरी सामान्य समझ है AIC मॉडल के फिट की अच्छाई और मॉडल की जटिलता के बीच व्यापार बंद से संबंधित है।

$AIC =2k -2ln(L)$

$k$ = मॉडल में मापदंडों की संख्या

$L$ = संभावना

बायसियन सूचना मानदंड बीआईसी एआईसी के साथ निकटता से संबंधित है। एआईसी बीआईसी की तुलना में मापदंडों की संख्या को कम दृढ़ता से दंडित करता है। मैं देख सकता हूँ कि इन दोनों का उपयोग ऐतिहासिक रूप से हर जगह किया जाता है। लेकिन सामान्यीकृत क्रॉस सत्यापन (जीसीवी) मेरे लिए नया है। GCV BIC या AIC से कैसे संबंधित हो सकता है? रिज जैसे पैनलबद्ध प्रतिगमन में दंड अवधि के चयन में इन मानदंडों को एक साथ या अलग-अलग कैसे उपयोग किया जाता है?

संपादित करें: यहां एक उदाहरण सोचने और चर्चा करने का है:

    require(lasso2)
    data(Prostate)
    require(rms)

    ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45,
           method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE)
    p <- pentrace(ridgefits, seq(0,1,by=.01))
    effective.df(ridgefits,p)
    out <- p$results.all
    par(mfrow=c(3,2))
    plot(out$df, out$aic, col = "blue", type = "l", ylab = "AIC", xlab = "df"  )
    plot(out$df, out$bic, col = "green4", type = "l", ylab = "BIC",  xlab = "df" )
    plot(out$penalty, out$df,  type = "l", col = "red", 
     xlab = expression(paste(lambda)), ylab = "df" )
    plot(out$penalty, out$aic, col = "blue", type = "l",  
      ylab = "AIC", xlab = expression(paste(lambda))  )
    plot(out$penalty, out$bic, col = "green4", type = "l", ylab = "BIC", 
      xlab= expression(paste(lambda))

require(glmnet)
y <- matrix(Prostate$lpsa, ncol = 1)
x <- as.matrix (Prostate[,- length(Prostate)])
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
plot(cv$lambda, cv$cvm, col = "red", type = "l", 
      ylab = "CVM",   xlab= expression(paste(lambda))

यहाँ छवि विवरण दर्ज करें

— राम शर्मा
स्रोत

जवाबों:

मुझे लगता है कि बीआईसी को पसंद किया जा रहा है जब "सच" कम-आयामी मॉडल है, जो मुझे लगता है कि अनुभवजन्य कार्य में कभी ऐसा नहीं होता है। AIC यह मानने के साथ अधिक है कि हम जितना अधिक डेटा एक मॉडल को प्राप्त करेंगे उतना अधिक जटिल हो सकते हैं। मेरे अनुभव में, स्वतंत्रता की प्रभावी डिग्री का उपयोग करते हुए AIC, दंड पैरामीटर का चयन करने का एक बहुत अच्छा तरीका है क्योंकि यह एक नए, स्वतंत्र, नमूने में मॉडल के प्रदर्शन को अनुकूलित करने की संभावना है। $\lambda$

— फ्रैंक हैरेल
स्रोत

महान व्यावहारिक व्याख्या, और बायेसियन संदर्भ में भी समझ में आता है ... "सिद्धांतवादी" आधारित संभावना अनुपात बनाम "नास्तिक" भविष्यवाणी त्रुटि।

— छायाकार

यह संभवतया विस्तृत करने में मदद करेगा कि एक नियमित समाधान के लिए "स्वतंत्रता की प्रभावी डिग्री" को कैसे गणना और एआईसी में उपयोग किया जा सकता है।

— ब्रायन बोरकर्स

R rmsपैकेज effective.dfफ़ंक्शन और मेरी पुस्तक प्रतिगमन मॉडलिंग रणनीतियाँ में कोड देखें । रॉबर्ट ग्रे से मुख्य विचार यह है कि आप कोविएरिएंस मैट्रिक्स को बिना दंड के मानते हैं बनाम पेनिज़ेरिज़ के साथ सहसंयोजक मैट्रिक्स। इन दोनों के एक प्रकार के अनुपात के विकर्ण का योग आपको प्रभावी df देता है

— फ्रैंक हरेल

@FrankHarrell: तो अगर मैं आपको सही तरीके से समझूं - glmnet(प्रत्येक अलग लैम्ब्डा पैरामीटर के साथ प्रत्येक में ) मॉडल की एक गुच्छा की गणना करना और प्रत्येक मॉडल के लिए एआईसी की गणना करना ठीक है, और फिर सबसे कम एआईसी के साथ मॉडल के अनुरूप लैम्ब्डा चुनें? यह मूल रूप से लैंबडा पैरामीटर चुनने का एक और तरीका है, क्रॉस वैलिडेशन का उपयोग करने के अलावा। क्या मैं सही हू?

— कोरल

मैं उस rmsपैकेज के संदर्भ में लिख रहा था, जहां एक जोड़ी फिटिंग कार्य जब effective.dfमापदंडों की प्रभावी संख्या की गणना करता है, तो आप एक प्रभावी एआईसी प्राप्त कर सकते हैं। यह अनुमानित होगा कि आपको CV'ing के साथ क्रॉस-वेलिडेशन से क्या मिलता है। देखें इस

— फ्रैंक Harrell

इस पर मेरे अपने विचार बहुत संग्रहित नहीं हैं, लेकिन यहाँ उन बिंदुओं का एक संग्रह है, जिनके बारे में मुझे पता है कि इससे मदद मिल सकती है।

एआईसी की बायेसियन व्याख्या यह है कि यह अपेक्षित लॉग पॉइंटवाइड प्रेडिक्टिव घनत्व यानी आउट-ऑफ-सैंपल प्रिडिक्शन एरर का बायस-करेक्टेड एंबेडेशन है। यह व्याख्या जेलमैन, ह्वांग और व्हीत्सारी (2013) में अच्छी तरह से रखी गई है और जेलमैन के ब्लॉग पर भी संक्षेप में चर्चा की गई है । क्रॉस-मान्यता एक ही चीज के लिए एक अलग सन्निकटन है।

इस बीच, BIC एक विशेष पूर्व ( Raftery, 1999 में स्पष्ट रूप से समझाया गया ) के तहत " बेयस फैक्टर " का एक अनुमान है । यह एक संभावना अनुपात के लगभग बायेसियन एनालॉग है।

एआईसी और बीआईसी के बारे में दिलचस्प बात यह है कि दंडित प्रतिगमन की एक बायेसियन व्याख्या भी है, उदाहरण के लिए LASSO गुणांक पर स्वतंत्र लाप्लास पादरियों के साथ बायेशियन प्रतिगमन का एमएपी अनुमान है। इस पिछले प्रश्न में थोड़ा और जानकारी और क्यूंग, गिल, घोष, और कैसेला (2010) में बहुत अधिक जानकारी ।

यह मुझे सुझाव देता है कि आप बायेसियन शब्दों में सोचकर और मॉडलिंग करके कुछ माइलेज या कम से कम अधिक सुसंगत अनुसंधान डिजाइन प्राप्त कर सकते हैं। मुझे पता है कि यह उच्च-आयामी मशीन सीखने जैसे कई अनुप्रयोगों में थोड़ा असामान्य है, और नियमितीकरण के अधिक व्याख्या योग्य ज्यामितीय और हानि-फ़ंक्शन व्याख्याओं से (मेरी राय में) कुछ हद तक हटा दिया गया है। बहुत कम से कम, मैं एआईसी और बीआईसी के बीच निर्णय लेने और आम लोगों, गैर-सांख्यिकीय-उन्मुख सहकर्मियों / मालिकों, आदि के बीच अंतर को समझाने के लिए बायेसियन व्याख्या पर बहुत भरोसा करता हूं।

मुझे पता है कि यह क्रॉस-वेलिडेशन के लिए ज्यादा नहीं बोलता है। बायेसियन इंट्रेंस के बारे में एक अच्छी बात यह है कि यह पॉइंट के अनुमानों के बजाय आपके मापदंडों के अनुमानित वितरण का उत्पादन करता है । यह, मुझे लगता है, भविष्यवाणी त्रुटि के बारे में अनिश्चितता को मापने के मुद्दे को दरकिनार करने के लिए इस्तेमाल किया जा सकता है। हालांकि, अगर आप अनुमान hyperparameters को सीवी का उपयोग कर, जैसे के बारे में बात कर रहे हैं LASSO के लिए, मैं फिर से करने के लिए आस्थगित करें Gelman : $\lambda$

क्रॉस-वैलिडेशन द्वारा एक ट्यूनिंग पैरामीटर का चयन करना केवल पदानुक्रमित बेस का एक विशेष कार्यान्वयन है।

— shadowtalker
स्रोत