मैं 30 स्वतंत्र चर के एक सेट के बाहर एक सतत निर्भर चर के लिए भविष्यवाणियों को खोजना चाहता हूं। मैं Lasso प्रतिगमन का उपयोग कर रहा हूँ जैसा कि R में glmnet पैकेज में लागू किया गया है। यहाँ कुछ डमी कोड है:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
मेरा सवाल है कि आउटपुट की व्याख्या कैसे करें:
क्या यह कहना सही है कि अंतिम आउटपुट में सभी भविष्यवक्ता जो शून्य से भिन्न गुणांक दिखाते हैं, वे आश्रित चर से संबंधित हैं?
क्या वह किसी पत्रिका के प्रकाशन के संदर्भ में एक पर्याप्त रिपोर्ट होगी? या यह गुणांक के महत्व के लिए परीक्षण-आँकड़े प्रदान करने की उम्मीद है? (संदर्भ मानव आनुवंशिकी है)
क्या महत्व का दावा करने के लिए पी-वैल्यू या अन्य टेस्ट-स्टेटिस्टिक की गणना करना उचित है? यह कैसे संभव होगा? क्या R में एक प्रक्रिया लागू की गई है?
क्या प्रत्येक भविष्यवक्ता के लिए एक साधारण प्रतिगमन प्लॉट (एक रेखीय फिट के साथ प्लॉट किए गए बिंदु) इस डेटा की कल्पना करने का एक उपयुक्त तरीका होगा?
हो सकता है कि कोई व्यक्ति किसी वास्तविक डेटा के संदर्भ में लास्सो के उपयोग को दिखाते हुए प्रकाशित लेखों के कुछ आसान उदाहरण प्रदान कर सकता है और किसी पत्रिका में यह कैसे रिपोर्ट कर सकता है?
cv
भविष्यवाणी कदम के लिए भी उपयोग नहीं कर सकते हैं ?