जटिल सर्वेक्षण डेटा में LASSO के बाद क्रॉस सत्यापन


11

मैं निरंतर परिणाम के साथ LASSO का उपयोग करते हुए कुछ उम्मीदवार भविष्यवाणियों पर मॉडल चयन करने की कोशिश कर रहा हूं। लक्ष्य सबसे अच्छा भविष्यवाणी प्रदर्शन के साथ इष्टतम मॉडल का चयन करना है, जो आमतौर पर एलएएसओ से ट्यूनिंग मापदंडों का एक समाधान पथ प्राप्त करने के बाद के-गुना क्रॉस सत्यापन द्वारा किया जा सकता है। यहां मुद्दा यह है कि डेटा एक जटिल मल्टी-स्टेज सर्वे डिज़ाइन (NHANES) से है, जिसमें क्लस्टर नमूनाकरण और स्तरीकरण है। अनुमान का हिस्सा कठिन नहीं है क्योंकि glmnetR, नमूना भार ले सकता है। लेकिन क्रॉस वेलिडेशन पार्ट मेरे लिए कम स्पष्ट है क्योंकि अब टिप्पणियों में आईआईडी नहीं हैं, और एक परिमित आबादी का प्रतिनिधित्व करने वाले वजन का नमूना लेने की प्रक्रिया कैसे हो सकती है?

तो मेरे सवाल हैं:

1) इष्टतम ट्यूनिंग पैरामीटर का चयन करने के लिए जटिल सर्वेक्षण डेटा के साथ K- गुना क्रॉस सत्यापन कैसे करें? विशेष रूप से, नमूना डेटा को प्रशिक्षण और सत्यापन सेट में उचित रूप से कैसे विभाजित किया जाए? और भविष्यवाणी त्रुटि के अनुमान को कैसे परिभाषित किया जाए?

2) क्या इष्टतम ट्यूनिंग पैरामीटर का चयन करने का एक वैकल्पिक तरीका है?


हो सकता है कि resampling (जैसे बूटस्ट्रैप) k गुना cv के बजाय एक अधिक उपयुक्त प्रक्रिया होगी?
g3o2

लुमली ने चेतावनी दी कि "बूटस्ट्रैप के लिए सिद्धांत को प्रत्येक स्ट्रैटम के भीतर समान-संभाव्यता नमूनाकरण की स्थिति के लिए विकसित किया गया था, यह स्पष्ट नहीं है कि यह मनमाना संभावनाओं के साथ कितनी अच्छी तरह काम करेगा।" (२ () एनएचएएनईएस डेटा में समता के भीतर समान-संभाव्यता का नमूना नहीं है।
दान हिक्स

ओपी के इस छोटे से विवरण को जानना दिलचस्प होगा। मल्टीस्टेज क्लस्टर और स्तरीकृत नमूने के बारे में इतना जटिल क्या होगा ...
g3o2

@ डॉक्स हिक्स: मुझे नहीं लगता कि यह वास्तव में मायने रखता है, जब रीसम्प्लिमेंट कर रहे हैं, तो आप वास्तव में एक ही नमूना योजना के कई उदाहरणों को दोहराते हैं।
g3o2

यहाँ वर्णित विधियों की तरह कुछ का उपयोग करना? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591 (या कुछ और हाल ही में?) यदि आप उस विचार को उत्तर के रूप में थोड़ा और विस्तार के साथ लिखना चाहते हैं, तो मैं आपको इनाम दूंगा।
दान हिक्स

जवाबों:


2

मेरे पास एक विस्तृत उत्तर नहीं है, बस कुछ संकेत काम करने के लिए हैं जिन्हें मैं पढ़ने के लिए अर्थ देता हूं:

आप जटिल-सर्वेक्षण LASSO पर मैककोविल (2011) पर एक नज़र डाल सकते हैं, यह सुनिश्चित करने के लिए कि आपके डेटा के लिए LASSO का उपयोग उचित है। लेकिन शायद यह कोई बड़ी बात नहीं है अगर आप LASSO को केवल वैरिएबल सेलेक्शन के लिए कर रहे हैं, तो बाकी वेरिएबल्स के लिए कुछ और फिटिंग करें।

जटिल सर्वेक्षण डेटा (हालांकि LASSO नहीं) के साथ क्रॉस-मान्यता के लिए, मैककॉनविले ऑप्सोमर और मिलर (2005) और यू (2009) का भी हवाला देते हैं । लेकिन उनकी विधियां लीव-वन-आउट सीवी का उपयोग करती हैं, के-गुना नहीं।

जटिल सर्वेक्षणों को लागू करने के लिए छुट्टी-एक-आउट सरल होना चाहिए --- डेटा को सही तरीके से विभाजित करने के तरीके के बारे में कम चिंता है। (दूसरी ओर, K-fold की तुलना में अधिक समय लग सकता है। और यदि आपका लक्ष्य मॉडल चयन है, तो यह ज्ञात है कि बड़े नमूनों के लिए ली-वन-आउट K- गुना से भी बदतर हो सकता है।)


0

ED द्वारा EDIT: जटिल सर्वेक्षण डेटा पर लागू नहीं है।

Cv.glmet फ़ंक्शन आपको आवश्यक क्रॉस सत्यापन करने में मदद कर सकता है। Lambda.min मान λ का मान है जहां CV त्रुटि न्यूनतम है। Lambda.1se उस खोज में λ के मूल्य का प्रतिनिधित्व करता है जो सबसे अच्छे मॉडल (lambda.min) की तुलना में सरल था, लेकिन जिसमें सर्वश्रेष्ठ मॉडल के 1 मानक त्रुटि के भीतर त्रुटि है।

  1. अल्फा और लैंबडा दोनों के लिए आपके द्वारा चुने जा सकने वाले मूल्यों का ग्रिड चुनें

ग्रिड <- Expand.grid (.alpha = (1:10) * 0.1, .lambda = (1:10) *)

  1. अपने मॉडल के नियंत्रण मापदंडों को सेट करें। नीचे दिया गया ट्रेन नियंत्रण 10 पुनरावृत्तियों के लिए दोहराया जाता है। उपलब्ध तरीकों पर जाएं और जो आपके वर्तमान परिदृश्य में फिट होगा, उसे चुनें।

.alpha,>=T,lambda=grid

Lambda.min मान को नीचे दिखाए गए अनुसार मॉडल से ही एक्सेस किया जा सकता है।

cv.glmmod $ lambda.min


1
मुझे पता है कि glmnet का उपयोग करके iid डेटा के लिए क्रॉस सत्यापन कैसे किया जाता है। मैं सहसंबद्ध जटिल सर्वेक्षण डेटा के बारे में पूछ रहा था।
एनीमा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.