ग्लोमनेट का उपयोग करके लस्सो के परिणाम कैसे प्रस्तुत करें?


40

मैं 30 स्वतंत्र चर के एक सेट के बाहर एक सतत निर्भर चर के लिए भविष्यवाणियों को खोजना चाहता हूं। मैं Lasso प्रतिगमन का उपयोग कर रहा हूँ जैसा कि R में glmnet पैकेज में लागू किया गया है। यहाँ कुछ डमी कोड है:

# generate a dummy dataset with 30 predictors (10 useful & 20 useless) 
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)

# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1

# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res 

मेरा सवाल है कि आउटपुट की व्याख्या कैसे करें:

  • क्या यह कहना सही है कि अंतिम आउटपुट में सभी भविष्यवक्ता जो शून्य से भिन्न गुणांक दिखाते हैं, वे आश्रित चर से संबंधित हैं?

  • क्या वह किसी पत्रिका के प्रकाशन के संदर्भ में एक पर्याप्त रिपोर्ट होगी? या यह गुणांक के महत्व के लिए परीक्षण-आँकड़े प्रदान करने की उम्मीद है? (संदर्भ मानव आनुवंशिकी है)

  • क्या महत्व का दावा करने के लिए पी-वैल्यू या अन्य टेस्ट-स्टेटिस्टिक की गणना करना उचित है? यह कैसे संभव होगा? क्या R में एक प्रक्रिया लागू की गई है?

  • क्या प्रत्येक भविष्यवक्ता के लिए एक साधारण प्रतिगमन प्लॉट (एक रेखीय फिट के साथ प्लॉट किए गए बिंदु) इस डेटा की कल्पना करने का एक उपयुक्त तरीका होगा?

  • हो सकता है कि कोई व्यक्ति किसी वास्तविक डेटा के संदर्भ में लास्सो के उपयोग को दिखाते हुए प्रकाशित लेखों के कुछ आसान उदाहरण प्रदान कर सकता है और किसी पत्रिका में यह कैसे रिपोर्ट कर सकता है?


आप "फिट मॉडल" अनुभाग के तहत ग्लेमनेट क्यों चलाते हैं? क्या आप cvभविष्यवाणी कदम के लिए भी उपयोग नहीं कर सकते हैं ?
बुर्बकि4481472

जवाबों:


22

मेरी समझ यह है कि आप जरूरी नहीं कह सकते हैं कि कौन से चर "महत्वपूर्ण" हैं या "वास्तविक" प्रभाव हैं जो इस आधार पर हैं कि क्या उनके गुणांक गैर-शून्य हैं। एक चरम उदाहरण देने के लिए, यदि आपके पास दो भविष्यवक्ता हैं जो पूरी तरह से मेल खाते हैं, तो लसो उनमें से एक को अनिवार्य रूप से यादृच्छिक रूप से पूरा वजन लेने के लिए उठाएगा और दूसरे को शून्य वजन मिलेगा।

यह पत्र , जिसमें ग्लमैनेट के लेखकों में से एक शामिल है, कुछ ग्लमैनेट-आधारित विश्लेषण प्रस्तुत करता है (विशेष रूप से देखें: परिचय, अनुभाग 2.3 और 4.3, और टेबल्स 4 और 5)। के माध्यम से glancing, ऐसा लगता है कि वे सीधे glmnet मॉडल से पी-मूल्य की गणना नहीं की थी। उन्होंने अन्य तरीकों का उपयोग करके दो अलग-अलग प्रकार के पी-मूल्यों की गणना की, लेकिन ऐसा नहीं लगता कि वे पूरी तरह से दोनों पर भरोसा करते हैं।

मैं 100% यकीन नहीं कर रहा हूँ कि आप प्लॉटिंग के तरीकों के बारे में क्या सुझाव दे रहे हैं, लेकिन मुझे लगता है कि यह उचित लगता है।

उम्मीद है की वो मदद करदे।


1
हाय डेविड! जवाब के लिए धन्यवाद। गैर-शून्य गुणांक वाले भविष्यवक्ताओं के चयन के लिए LASSO का उपयोग करने के खिलाफ कुछ भी बोलेंगे और फिर एक रेखीय प्रतिगमन मॉडल में केवल उन भविष्यवाणियों का उपयोग करते हैं जो कि शिकारियों के महत्व के बारे में पी-मान प्राप्त करते हैं। : इस पत्र के रूप में उदाहरण के लिए ncbi.nlm.nih.gov/pmc/articles/PMC3412288
jokel

4
@ जोकेल मुझे लगता है कि आप जो सुझाव दे रहे हैं, वह "शिथिल लासो" का एक विशेष मामला है, और यह कुछ उद्देश्यों के लिए बहुत अच्छा काम कर सकता है। मुझे यकीन नहीं है कि आप उस पी-वैल्यू पर भरोसा कर सकते हैं जो आप वर्णित प्रक्रिया से प्राप्त करेंगे, हालांकि, चूंकि आपका एफ स्टेटिस्टिक या टी-स्टेटिस्टिक आपके द्वारा किए गए चर चयन चरण के बारे में "पता नहीं" करेगा, और आपका टाइप- I त्रुटि दर बढ़ेगी। इस बारे में सोचने का एक तरीका: एफ सांख्यिकी के लिए स्वतंत्रता की डिग्री की सही संख्या क्या होगी? LASSO प्रतिगमन में चर की कुल संख्या? द्वितीयक प्रतिगमन में चर की संख्या? बीच में कुछ है?
डेविड जे। हैरिस

सच - तो यह एक वैध दृष्टिकोण भी नहीं लगता है। क्या आपके पास कोई अन्य विचार होगा कि 300 स्वतंत्र चर (n> p जैसे उपरोक्त उदाहरण) में से महत्वपूर्ण भविष्यवाणियों को कैसे खोजें? ताकि अंत में मैं यह दावा करने में सक्षम हो जाऊं: "भविष्यवक्ता X काफी निर्भर चर Y से संबंधित है"?
जोकेल

हर चीज के लिए मेरा जवाब जहां मुझे नहीं पता कि गणना कैसे करना है यादृच्छिकरण करना। एक संभावना आपके डेटा सेट की पंक्तियों (जैसे बूटस्ट्रैपिंग के साथ) को फिर से खोलना और LASSO विश्लेषण को बार-बार चलाना होगा। मॉडल में जितना अधिक बार चर को शामिल किया जाता है, उतना ही महत्वपूर्ण होने की संभावना है। एक और बेहतर विकल्प में पंक्तियों और स्तंभों को शामिल करना शामिल हो सकता है , जो "मास्किंग" प्रभावों से बचने में मदद कर सकता है। ब्राइमन इसी तरह की नस में [इस पीडीएफ] (चित्र 2 के पास) ( संकाय.स्मू.आडू / टीओफॉम्बी /eco5385/lecture/… ) में कुछ सुझाता है ।
डेविड जे। हैरिस

9

मैं केवल यह बताना चाहता था कि हाल ही में LASSO के लिए एक परीक्षण आँकड़ा विकसित करने की कोशिश में काम किया जा रहा है, जो कि प्रदर्शन के लिए चयन की सुविधा को ध्यान में रखता है:

लासो के लिए एक महत्व परीक्षण। रिचर्ड लॉकहार्ट, जोनाथन टेलर, रयान जे टिब्शिरानी, ​​रॉबर्ट टिब्शिरानी। http://arxiv.org/abs/1301.7161

मैंने इसे अभी तक लागू काम में नहीं देखा है, जबकि बूटस्ट्रैपिंग निश्चित रूप से उपयोग की जाती है।


0

LASSO या इलास्टिक नेट मॉडल्स के संदर्भ में CRAN पैकेज सेलेक्टिवइन्फरेंस और hdi पर एक नज़र है , वे ठीक वैसा ही करते हैं जैसा कि वैरिएबल सिलेक्शन स्टेप को ध्यान में रखते हुए किया जाता है!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.