मैं सोच रहा हूँ कि R में glmnet का उपयोग करके एक LASSO मॉडल का ठीक से प्रशिक्षण और परीक्षण कैसे किया जाए?
- विशेष रूप से, मैं सोच रहा हूं कि अगर मेरे LASSO मॉडल का परीक्षण करने के लिए बाहरी सत्यापन डेटा (या अन्य समान दृष्टिकोण) का उपयोग करने की आवश्यकता होती है, तो बाहरी डेटा की कमी की वजह से मैं ऐसा कैसे कर सकता हूं।
मुझे मेरे परिदृश्य को तोड़ने दें:
मेरे पास अपने glmnet मॉडल को सूचित करने और प्रशिक्षित करने के लिए केवल एक डेटा-सेट है। नतीजतन, मुझे अपने मॉडल के परीक्षण के लिए एक तरीका भी उत्पन्न करने के लिए अपने डेटा को विभाजित करने के लिए क्रॉस-मान्यता का उपयोग करना होगा।
मैं पहले से ही उपयोग कर रहा हूं cv.glmnet
, जो पैकेज विवरण के अनुसार है :
क्या glmnet के लिए k- गुना क्रॉस-वैलिडेशन करता है, एक प्लॉट का उत्पादन करता है, और लैम्ब्डा के लिए एक मान लौटाता है।
क्या क्रॉस-वेलिडेशन
cv.glmnet
केवल सर्वश्रेष्ठ लंबो को चुनने के लिए किया जाता है , या यह एक अधिक सामान्य क्रॉस-सत्यापन प्रक्रिया के रूप में भी सेवा कर रहा है?- दूसरे शब्दों में, क्या मुझे अभी भी अपने मॉडल को "परीक्षण" करने के लिए एक और क्रॉस-मान्यता कदम करने की आवश्यकता है?
मैं इस धारणा के साथ काम कर रहा हूं कि, "हां मैं करता हूं।"
यह मामला होने के नाते, मैं अपने cv.glmnet
मॉडल को मान्य करने के लिए कैसे पार करूं ?
क्या मुझे ऐसा मैन्युअल रूप से करना है, या शायद यह
caret
फ़ंक्शन glmnet मॉडल के लिए उपयोगी है?मैं दो संकेंद्रित पार सत्यापन के "छोरों" का उपयोग करें? ... मैं के माध्यम से सीवी का एक "आंतरिक लूप" का उपयोग करते हैं
cv.glmnet
सबसे अच्छा लैम्ब्डा मूल्य निर्धारित करने के लिए अंदर से प्रत्येक कश्मीर के एक "बाहरी पाश 'की परतों कश्मीर गुना पार सत्यापन प्रसंस्करण ?यदि मैं अपने पहले से ही क्रॉस-वैलिडिंग
cv.glmnet
मॉडल का क्रॉस-सत्यापन करता हूं, तो मैं क्रॉस वैलिडेशनcv.glmnet
के प्रत्येक अन्यथा "बाहरी लूप" के भीतर प्रत्येक मॉडल से "सर्वश्रेष्ठ" मॉडल ("सर्वश्रेष्ठ" लैम्ब्डा मूल्य से) को कैसे अलग करूं?- नोट: मैं परिभाषित करने कर रहा हूँ "सर्वश्रेष्ठ" एक लैम्ब्डा कि कम से कम 1 एसई के भीतर एक एमएसई का उत्पादन के साथ जुड़े मॉडल के रूप में मॉडल ... यह है
$lambda.1se
मेंcv.glmnet
मॉडल।
- नोट: मैं परिभाषित करने कर रहा हूँ "सर्वश्रेष्ठ" एक लैम्ब्डा कि कम से कम 1 एसई के भीतर एक एमएसई का उत्पादन के साथ जुड़े मॉडल के रूप में मॉडल ... यह है
प्रसंग:
मैं पेड़ के व्यास ("डी"), डी ^ 2, और प्रजातियों ("कारक (विनिर्देश)") के आधार पर पेड़ की उम्र ("उम्र") की भविष्यवाणी करने की कोशिश कर रहा हूं। [परिणाम समीकरण: Age ~ D + factor(SPEC) + D^2
]। मेरे पास डेटा की ~ 50K पंक्तियां हैं, लेकिन डेटा अनुदैर्ध्य है (समय के माध्यम से व्यक्तियों को ट्रैक करता है) और इसमें ~ 65 प्रजातियां शामिल हैं।