कैसे> 50K चर के साथ लासो या रिज प्रतिगमन में संकोचन पैरामीटर का अनुमान लगाने के लिए?


36

मैं 50,000 से अधिक वैरिएबल वाले मॉडल के लिए लासो या रिज रिग्रेशन का उपयोग करना चाहता हूं। मैं आर में सॉफ्टवेयर पैकेज का उपयोग करना चाहता हूं। मैं सिकुड़न पैरामीटर ( ) का अनुमान कैसे लगा सकता हूं ?λ

संपादन:

यहाँ बिंदु है जो मुझे मिला है:

set.seed (123)
Y <- runif (1000)
Xv <- sample(c(1,0), size= 1000*1000,  replace = T)
X <- matrix(Xv, nrow = 1000, ncol = 1000)

mydf <- data.frame(Y, X)

require(MASS)
lm.ridge(Y ~ ., mydf)

plot(lm.ridge(Y ~ ., mydf,
              lambda = seq(0,0.1,0.001)))

यहाँ छवि विवरण दर्ज करें

मेरा सवाल है: मुझे कैसे पता चलेगा कि मेरे मॉडल के लिए कौन सा सबसे अच्छा है?λ


3
चौरसाई पैरामीटर सांख्यिकीय रूप से अनुमान लगाने योग्य नहीं है, लेकिन उदाहरण के लिए, क्रॉस सत्यापन से बाहर का उपयोग करने के लिए चुना गया है। मुझे लगता है कि आर में LASSO और रिज रिग्रेशन के लिए मानक पैकेजों ने आपके लिए ऐसा करने के लिए कार्यक्षमता में बनाया है - क्या आपने उस पर ध्यान दिया है?
मैक्रों

4
मैं असहमत हूं - आप मिश्रित मॉडल दृष्टिकोण का उपयोग करके, चौरसाई पैरामीटर का अनुमान लगा सकते हैं। रेमरल तरीके मौजूद हैं जैसे कि उत्तराधिकारी तरीके हैं। आपको महंगे क्रॉस सत्यापन की आवश्यकता नहीं है।
probabilityislogic

1
@probabilityislogic जानकारी के लिए धन्यवाद। यह बहुत अच्छा होगा अगर वहाँ स्क्रिप्ट पर कुछ विस्तार है कि हम कैसे इस reml का उपयोग कर सकते है
जॉन

2
रिज रिग्रेशन के लिए लीव-वन-आउट क्रॉस-वेलिडेशन अनिवार्य रूप से नि: शुल्क है (एलेन प्रैस स्टेटिस्टिक) और मैंने इसे यथोचित अच्छी विधि के रूप में पाया है। हालाँकि, आपके द्वारा उपयोग की जाने वाली कोई भी विधि अस्थिर हो सकती है और पूरी तरह से दोनों मापदंडों पर हाशिए पर जाने वाले बायेसियन दृष्टिकोण का उपयोग किया जाएगा और नियमितीकरण मापदंडों के एक अधिक विश्वसनीय समाधान होने की संभावना है (जैसा कि मुझे लगता है कि प्रायिकतालोगिक सुझाव दे रहा था)। यदि आप बेयसियन तरीके पसंद नहीं करते हैं, तो हर बार बैगिंग और फिर से अनुमान लगा लें।
डिक्रान मार्सुपियल

2
@ मैक्रो - (18 महीने बाद प्रतिक्रिया की तरह कुछ भी नहीं)। मिश्रित मॉडल दृष्टिकोण में दो अतिरिक्त शब्द हैं जो केवल पर निर्भर करते हैं, लेकिन पर नहीं । ये हैं औरजहां बेटास और X का पूर्वसूचक मैट्रिक्स है। पहला शब्द जहां त्रुटि विचरण है। दूसरा शब्द में प्लग इन करने की अनिश्चितता के लिए एक REML- सुधार है । बीटा - कश्मीर लॉग ( λ ) लॉग | X T X + λ I | कश्मीर β ~ एन ( 0 , σ 2λβklog(λ)log|XTX+λI|kσ 2 β = ββN(0,σ2λ1)σ2β=β^
प्रोबेबिलिसोलॉजिक

जवाबों:


25

cv.glmnetR पैकेज glmnet से फ़ंक्शन -penalized प्रतिगमन समस्याओं के लिए उपयोग किए जाने वाले मानों की ग्रिड पर स्वचालित क्रॉस-सत्यापन करता है। विशेष रूप से, लासो के लिए। Glmnet पैकेज अधिक सामान्य लोचदार शुद्ध जुर्माना का भी समर्थन करता है , जो कि और दंड का संयोजन है । संस्करण 1.7.3 के रूप में। पैकेज के 0 के बराबर पैरामीटर लेने से रिज प्रतिगमन (कम से कम, इस कार्यक्षमता को हाल ही तक दस्तावेज नहीं किया गया था)।1 1 2 αλ112α

क्रॉस-मान्यता प्रत्येक लिए अपेक्षित सामान्यीकरण त्रुटि का एक अनुमान है और को इस अनुमान के न्यूनतम के रूप में चुना जा सकता है। समारोह के दो मानों रिटर्न । न्यूनतम, और हमेशा बड़ा , जो कि एक कम जटिल मॉडल का उत्पादन करने वाला का एक अनुमानी विकल्प है , जिसके लिए अनुमानित अपेक्षित सामान्यीकरण त्रुटि के मामले में प्रदर्शन न्यूनतम के एक मानक त्रुटि के भीतर है। ग्लेमनेट पैकेज में सामान्यीकरण त्रुटि को मापने के लिए नुकसान कार्यों के विभिन्न विकल्प संभव हैं। तर्क हानि फ़ंक्शन को निर्दिष्ट करता है।λλλcv.glmnetλλlambda.minlambda.1seλtype.measure

वैकल्पिक रूप से, आर पैकेज mgcv में दंडात्मक मापदंडों के स्वत: चयन सहित द्विघात दंड के साथ आकलन के लिए व्यापक संभावनाएं हैं। लागू किए गए तरीकों में सामान्यीकृत क्रॉस-सत्यापन और REML शामिल हैं, जैसा कि एक टिप्पणी में उल्लेख किया गया है। पैकेज लेखक पुस्तक में अधिक विवरण पाया जा सकता है: लकड़ी, एसएन (2006) सामान्यीकृत एडिटिव मॉडल: आर, सीआरसी के साथ एक परिचय।


1
आप शायद , और ("वन-स्टैंडर्ड-एरर" नियम) के cv.glmnetलिए दो मानों को जोड़ना चाहते हैं । λlambda.minlambda.1se
CHL

@chl, सुझाव के लिए धन्यवाद। मुझे वह जोड़ना चाहिए था।
NRH

15

यह उत्तर MATLAB विशिष्ट है, हालांकि, मूल अवधारणाओं को आर के साथ आपके द्वारा उपयोग किए जाने के समान होना चाहिए ...

MATLAB के मामले में, आपके पास क्रॉस सत्यापन सक्षम के साथ लासो चलाने का विकल्प है।

यदि आप ऐसा करते हैं, तो लासो फ़ंक्शन दो महत्वपूर्ण पैरामीटर मानों की रिपोर्ट करेगा

  1. लैंबडा मूल्य जो क्रॉस वैरिफाइड माध्य चुकता त्रुटि को कम करता है
  2. लैम्ब्डा मान सिकुड़न की सबसे बड़ी राशि जिसका CVMSE न्यूनतम की एक मानक त्रुटि के भीतर है।

आपको एक अच्छा सा चार्ट भी मिलता है जिसका उपयोग आप लैम्ब्डा और सीवीएमएसई के बीच संबंधों का निरीक्षण करने के लिए कर सकते हैं

यहाँ छवि विवरण दर्ज करें

सामान्य तौर पर, आपने लैम्ब्डा का मान चुना होगा जो नीली रेखा और हरी रेखा के बीच में पड़ता है।

निम्नलिखित ब्लॉग पोस्टिंग में कुछ उदाहरणों के आधार पर कुछ डेमो कोड शामिल हैं

टिबशिरानी, ​​आर। (1996)। कमंद के माध्यम से प्रतिगमन संकोचन और चयन। जे रॉयल। सांख्यिकीविद। सोक बी, वॉल्यूम। 58, नंबर 1, पृष्ठ 267-288)।

http://blogs.mathworks.com/loren/2011/11/29/subset-selection-and-regularization-part-2/


10

मुझे प्रभावी एआईसी का उपयोग करके अच्छी सफलता मिली है, जो आजादी की प्रभावी डिग्री के साथ एआईसी का उपयोग कर रहा है - ग्रे जेएएसए 87 देखें: 942 1992 प्रभावी डीएफ के लिए यह रैखिक और उपस्कर मॉडल के लिए आर पैकेज में दंड के लिए लागू किया गया है , और समारोह संकोचन गुणांक है कि प्रभावी AIC का अनुकूलन के लिए हल करने के लिए इस्तेमाल किया जा सकता। एक केस स्टडी जो यह बताती है कि डिफरेंशियल सिकुड़न (उदाहरण के लिए अधिक संकोचन) कैसे किया जाता है, यह मेड 17: 909, 1998 में हरेल एट अल स्टेट है।L2rmsrms pentrace


एक बहुत ही दिलचस्प जवाब की तरह लगता है, क्या आप थोड़ा विस्तार करना चाहेंगे?
यार दून

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.