मैं सोच रहा हूँ कि R में glmnet का उपयोग करके एक LASSO मॉडल का ठीक से प्रशिक्षण और परीक्षण कैसे किया जाए?
- विशेष रूप से, मैं सोच रहा हूं कि अगर मेरे LASSO मॉडल का परीक्षण करने के लिए बाहरी सत्यापन डेटा (या अन्य समान दृष्टिकोण) का उपयोग करने की आवश्यकता होती है, तो बाहरी डेटा की कमी की वजह से मैं ऐसा कैसे कर सकता हूं।
मुझे मेरे परिदृश्य को तोड़ने दें:
मेरे पास अपने glmnet मॉडल को सूचित करने और प्रशिक्षित करने के लिए केवल एक डेटा-सेट है। नतीजतन, मुझे अपने मॉडल के परीक्षण के लिए एक तरीका भी उत्पन्न करने के लिए अपने डेटा को विभाजित करने के लिए क्रॉस-मान्यता का उपयोग करना होगा।
मैं पहले से ही उपयोग कर रहा हूं cv.glmnet, जो पैकेज विवरण के अनुसार है :
क्या glmnet के लिए k- गुना क्रॉस-वैलिडेशन करता है, एक प्लॉट का उत्पादन करता है, और लैम्ब्डा के लिए एक मान लौटाता है।
क्या क्रॉस-वेलिडेशन
cv.glmnetकेवल सर्वश्रेष्ठ लंबो को चुनने के लिए किया जाता है , या यह एक अधिक सामान्य क्रॉस-सत्यापन प्रक्रिया के रूप में भी सेवा कर रहा है?- दूसरे शब्दों में, क्या मुझे अभी भी अपने मॉडल को "परीक्षण" करने के लिए एक और क्रॉस-मान्यता कदम करने की आवश्यकता है?
मैं इस धारणा के साथ काम कर रहा हूं कि, "हां मैं करता हूं।"
यह मामला होने के नाते, मैं अपने cv.glmnetमॉडल को मान्य करने के लिए कैसे पार करूं ?
क्या मुझे ऐसा मैन्युअल रूप से करना है, या शायद यह
caretफ़ंक्शन glmnet मॉडल के लिए उपयोगी है?मैं दो संकेंद्रित पार सत्यापन के "छोरों" का उपयोग करें? ... मैं के माध्यम से सीवी का एक "आंतरिक लूप" का उपयोग करते हैं
cv.glmnetसबसे अच्छा लैम्ब्डा मूल्य निर्धारित करने के लिए अंदर से प्रत्येक कश्मीर के एक "बाहरी पाश 'की परतों कश्मीर गुना पार सत्यापन प्रसंस्करण ?यदि मैं अपने पहले से ही क्रॉस-वैलिडिंग
cv.glmnetमॉडल का क्रॉस-सत्यापन करता हूं, तो मैं क्रॉस वैलिडेशनcv.glmnetके प्रत्येक अन्यथा "बाहरी लूप" के भीतर प्रत्येक मॉडल से "सर्वश्रेष्ठ" मॉडल ("सर्वश्रेष्ठ" लैम्ब्डा मूल्य से) को कैसे अलग करूं?- नोट: मैं परिभाषित करने कर रहा हूँ "सर्वश्रेष्ठ" एक लैम्ब्डा कि कम से कम 1 एसई के भीतर एक एमएसई का उत्पादन के साथ जुड़े मॉडल के रूप में मॉडल ... यह है
$lambda.1seमेंcv.glmnetमॉडल।
- नोट: मैं परिभाषित करने कर रहा हूँ "सर्वश्रेष्ठ" एक लैम्ब्डा कि कम से कम 1 एसई के भीतर एक एमएसई का उत्पादन के साथ जुड़े मॉडल के रूप में मॉडल ... यह है
प्रसंग:
मैं पेड़ के व्यास ("डी"), डी ^ 2, और प्रजातियों ("कारक (विनिर्देश)") के आधार पर पेड़ की उम्र ("उम्र") की भविष्यवाणी करने की कोशिश कर रहा हूं। [परिणाम समीकरण: Age ~ D + factor(SPEC) + D^2]। मेरे पास डेटा की ~ 50K पंक्तियां हैं, लेकिन डेटा अनुदैर्ध्य है (समय के माध्यम से व्यक्तियों को ट्रैक करता है) और इसमें ~ 65 प्रजातियां शामिल हैं।