मैं निरंतर परिणाम के साथ LASSO का उपयोग करते हुए कुछ उम्मीदवार भविष्यवाणियों पर मॉडल चयन करने की कोशिश कर रहा हूं। लक्ष्य सबसे अच्छा भविष्यवाणी प्रदर्शन के साथ इष्टतम मॉडल का चयन करना है, जो आमतौर पर एलएएसओ से ट्यूनिंग मापदंडों का एक समाधान पथ प्राप्त करने के बाद के-गुना क्रॉस सत्यापन द्वारा किया जा सकता है। यहां मुद्दा यह है कि डेटा एक जटिल मल्टी-स्टेज सर्वे डिज़ाइन (NHANES) से है, जिसमें क्लस्टर नमूनाकरण और स्तरीकरण है। अनुमान का हिस्सा कठिन नहीं है क्योंकि glmnet
R, नमूना भार ले सकता है। लेकिन क्रॉस वेलिडेशन पार्ट मेरे लिए कम स्पष्ट है क्योंकि अब टिप्पणियों में आईआईडी नहीं हैं, और एक परिमित आबादी का प्रतिनिधित्व करने वाले वजन का नमूना लेने की प्रक्रिया कैसे हो सकती है?
तो मेरे सवाल हैं:
1) इष्टतम ट्यूनिंग पैरामीटर का चयन करने के लिए जटिल सर्वेक्षण डेटा के साथ K- गुना क्रॉस सत्यापन कैसे करें? विशेष रूप से, नमूना डेटा को प्रशिक्षण और सत्यापन सेट में उचित रूप से कैसे विभाजित किया जाए? और भविष्यवाणी त्रुटि के अनुमान को कैसे परिभाषित किया जाए?
2) क्या इष्टतम ट्यूनिंग पैरामीटर का चयन करने का एक वैकल्पिक तरीका है?