मेरी स्थिति:
- छोटे नमूने का आकार: 116
- बाइनरी परिणाम चर
- व्याख्यात्मक चर की लंबी सूची: 44
- व्याख्यात्मक चर मेरे सिर के ऊपर से नहीं आए थे; उनकी पसंद साहित्य पर आधारित थी।
- नमूने के अधिकांश मामलों और अधिकांश चर में लापता मान हैं।
चयनित चयन की सुविधा के लिए दृष्टिकोण: LASSO
R का ग्लमैनेट पैकेज मुझे ग्लमैनेट रूटीन को चलाने नहीं देगा, जाहिर तौर पर मेरे डेटा सेट में गुम मूल्यों के अस्तित्व के कारण। लापता डेटा को संभालने के लिए कई तरीके प्रतीत होते हैं, इसलिए मैं जानना चाहूंगा:
- क्या LASSO प्रतिरूपण की विधि के संदर्भ में कोई प्रतिबंध लगाता है जिसका मैं उपयोग कर सकता हूं?
- इंप्यूटेशन मेथड के लिए सबसे अच्छी शर्त क्या होगी? आदर्श रूप से, मुझे एक ऐसी विधि की आवश्यकता है जिसे मैं SPSS (अधिमानतः) या R पर चला सकूं।
UPDATE1: नीचे दिए गए कुछ उत्तरों से यह स्पष्ट हो गया है कि मैं प्रतिरूपण विधियों पर विचार करने से पहले अधिक बुनियादी मुद्दों से निपटता हूं। मैं उस संबंध में नए प्रश्न जोड़ना चाहूंगा। उत्तर पर कोडिंग को निरंतर मान के रूप में और 'लागू नहीं' मूल्यों और समूह लसो के उपयोग से निपटने के लिए एक नए चर के निर्माण के रूप में सुझाव दिया गया है:
- क्या आप कहेंगे कि यदि मैं समूह LASSO का उपयोग करता हूं, तो मैं निरंतर भविष्यवक्ताओं को सुझाए गए दृष्टिकोण का उपयोग करने में सक्षम होऊंगा जो कि श्रेणीबद्ध भविष्यवक्ताओं के लिए भी है? यदि हां, तो मुझे लगता है कि यह एक नई श्रेणी बनाने के बराबर होगा - मैं सावधान हूं कि यह पूर्वाग्रह का परिचय दे सकता है।
- क्या किसी को पता है कि R का glmnet पैकेज ग्रुप LASSO को सपोर्ट करता है? यदि नहीं, तो क्या कोई अन्य ऐसा सुझाव देगा जो लॉजिस्टिक प्रतिगमन के संयोजन में करता है? समूह LASSO का उल्लेख करने वाले कई विकल्प CRAN रिपॉजिटरी में पाए जा सकते हैं, मेरे मामले के लिए सबसे उपयुक्त कोई भी सुझाव? शायद SGL?
यह मेरा पिछले प्रश्न पर अनुवर्ती कार्रवाई है ( लॉजिस्टिक रिग्रेशन विश्लेषण करने के लिए मेरी मूल लंबी सूची से चर का सबसेट कैसे चुनें? )।
OBS: मैं एक सांख्यिकीविद् नहीं हूं।