LASSO के साथ सुविधा चयन के लिए डेटा तैयार करने के लिए लापता मानों को कैसे संभालना है?


11

मेरी स्थिति:

  • छोटे नमूने का आकार: 116
  • बाइनरी परिणाम चर
  • व्याख्यात्मक चर की लंबी सूची: 44
  • व्याख्यात्मक चर मेरे सिर के ऊपर से नहीं आए थे; उनकी पसंद साहित्य पर आधारित थी।
  • नमूने के अधिकांश मामलों और अधिकांश चर में लापता मान हैं।

चयनित चयन की सुविधा के लिए दृष्टिकोण: LASSO

R का ग्लमैनेट पैकेज मुझे ग्लमैनेट रूटीन को चलाने नहीं देगा, जाहिर तौर पर मेरे डेटा सेट में गुम मूल्यों के अस्तित्व के कारण। लापता डेटा को संभालने के लिए कई तरीके प्रतीत होते हैं, इसलिए मैं जानना चाहूंगा:

  • क्या LASSO प्रतिरूपण की विधि के संदर्भ में कोई प्रतिबंध लगाता है जिसका मैं उपयोग कर सकता हूं?
  • इंप्यूटेशन मेथड के लिए सबसे अच्छी शर्त क्या होगी? आदर्श रूप से, मुझे एक ऐसी विधि की आवश्यकता है जिसे मैं SPSS (अधिमानतः) या R पर चला सकूं।

UPDATE1: नीचे दिए गए कुछ उत्तरों से यह स्पष्ट हो गया है कि मैं प्रतिरूपण विधियों पर विचार करने से पहले अधिक बुनियादी मुद्दों से निपटता हूं। मैं उस संबंध में नए प्रश्न जोड़ना चाहूंगा। उत्तर पर कोडिंग को निरंतर मान के रूप में और 'लागू नहीं' मूल्यों और समूह लसो के उपयोग से निपटने के लिए एक नए चर के निर्माण के रूप में सुझाव दिया गया है:

  • क्या आप कहेंगे कि यदि मैं समूह LASSO का उपयोग करता हूं, तो मैं निरंतर भविष्यवक्ताओं को सुझाए गए दृष्टिकोण का उपयोग करने में सक्षम होऊंगा जो कि श्रेणीबद्ध भविष्यवक्ताओं के लिए भी है? यदि हां, तो मुझे लगता है कि यह एक नई श्रेणी बनाने के बराबर होगा - मैं सावधान हूं कि यह पूर्वाग्रह का परिचय दे सकता है।
  • क्या किसी को पता है कि R का glmnet पैकेज ग्रुप LASSO को सपोर्ट करता है? यदि नहीं, तो क्या कोई अन्य ऐसा सुझाव देगा जो लॉजिस्टिक प्रतिगमन के संयोजन में करता है? समूह LASSO का उल्लेख करने वाले कई विकल्प CRAN रिपॉजिटरी में पाए जा सकते हैं, मेरे मामले के लिए सबसे उपयुक्त कोई भी सुझाव? शायद SGL?

यह मेरा पिछले प्रश्न पर अनुवर्ती कार्रवाई है ( लॉजिस्टिक रिग्रेशन विश्लेषण करने के लिए मेरी मूल लंबी सूची से चर का सबसेट कैसे चुनें? )।

OBS: मैं एक सांख्यिकीविद् नहीं हूं।


(1) इंप्यूटेशन का सबसे अच्छा तरीका लापता मूल्यों के अनुपात और पैटर्न पर निर्भर करता है, चर के बीच के रिश्ते, और आप गुम मूल्यों के कारणों के बारे में क्या धारणाएं तैयार करते हैं। (2) किसी भी प्रतिनियुक्ति विधि का उपयोग LASSO को इनपुट प्रदान करने के लिए किया जा सकता है; कठिनाई का आकलन करने में कठिनाई कैसे परिणामों को प्रभावित करती है। मैं नहीं जानता कि LASSO (कोई व्यक्ति किसी को भी करता है) के साथ कई इंप्यूटेशन को कैसे संयोजित किया जाए, लेकिन विभिन्न इंप्यूटेशन रन (आमतौर पर चुने गए एक ही भविष्यवक्ता?) के परिणामों की अनौपचारिक तुलना अभी भी जानकारीपूर्ण हो सकती है।
Scortchi - को पुनः स्थापित मोनिका

@ स्कोर्टची: मेरे अधिकांश लापता मूल्य 'लागू नहीं' की श्रेणी में आते हैं। उदा:: घर में वयस्क महिला की चर ’उम्र में, ऐसे मामले जिनमें वयस्क पुरुष विधवा होती है। वास्तव में, मुझे लगता है कि मुझे यहाँ एक कदम वापस लेने की आवश्यकता है: क्या मुझे निरंतर चर में 0 के मानों को लापता मान लेना चाहिए? जैसे: ० साल की शिक्षा, ० १४ से ६० साल के बीच के घर के सदस्य।
हैरान

ऐसी स्थिति की कल्पना करना मुश्किल है जिसमें आप उस अनुपस्थित महिला के बारे में एक अज्ञात तथ्य के रूप में व्यवहार करना चाहते हैं, न कि घर के बारे में एक ज्ञात तथ्य के बारे में। शून्य के बारे में प्रश्न को समझना कठिन है: क्या आप पूछ रहे हैं कि क्या शिक्षा का कोई वर्ष एक मूल्यवान मूल्य नहीं है, या 0 का उपयोग लापता मूल्य को कोड करने के लिए किया जा सकता है? (और फिर मुझे कैसे पता चलेगा?) निश्चित रूप से 0 का इलाज करने का कोई सामान्य कारण नहीं है जो लापता होने का संकेत देता है।
Scortchi - को पुनः स्थापित मोनिका

@Scortchi: महिला आयु चर के बारे में, मैं देखती हूं कि आपका क्या मतलब है। लेकिन यह मुद्दा बन जाता है: मैं अनुपस्थित महिला मामले को एनए के रूप में कैसे कोडित करूंगा? शून्य के बारे में: हाँ, यह बिल्कुल मेरा प्रश्न था, क्षमा करें यदि यह स्पष्ट नहीं था। मैंने सोचा था कि कार्यक्रम को शून्य मानों को संभालने में कुछ समस्या हो सकती है और इसका मतलब यह नहीं हो सकता है कि मुझे इससे क्या मतलब है।
हैरान

आप इसे किसी भी स्थिर मूल्य के रूप में कोड कर सकते हैं और उपस्थिति / अनुपस्थिति (और समूह LASSO का उपयोग) के लिए एक संकेतक चर का परिचय दे सकते हैं। कोई कारण नहीं कि LASSO या किसी अन्य प्रतिगमन कार्यक्रम को पूर्वानुमानकर्ताओं के लिए शून्य मानों को गलत तरीके से संभालना चाहिए। [कृपया इसे गलत तरीके से न लें, लेकिन ये बहुत ही बुनियादी प्रश्न हैं, यह सुझाव देते हुए कि यदि यह मज़े के लिए है तो आप इसे सरल समस्याओं से शुरू करना चाहते हैं, या यदि यह वास्तविक है तो आप एक सांख्यिकीविद् से परामर्श करना चाहते हैं।]
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


11

जब एक निरंतर पूर्वसूचक में 'लागू नहीं होता' मान होता है, तो इसे दो चर का उपयोग करके इसे अक्सर कोड करना उपयोगी होता है:x

x1={cwhen x is not applicablexotherwise

जहां एक स्थिर है, औरc

x2={1when x is not applicable0otherwise

मान लीजिए कि प्रतिक्रिया के लिए रैखिक भविष्यवक्ता द्वारा दिया गया है

η=β0+β1x1+β2x2+

जो हल करता है

η=β0+β1x1+

जब मापा जाता है, याx

η=β0+β1c+β2+

जब x 'लागू नहीं है'। का चुनाव मनमाना है, और इंटरसेप्ट या ढलान के अनुमानों को प्रभावित नहीं करता है ; जब की तुलना में के प्रभाव को 'लागू नहीं' होने का वर्णन करता है ।cβ0β1β2xx=c

जब का एक अज्ञात मान के अनुसार प्रतिक्रिया भिन्न होती है, तो यह एक उपयुक्त दृष्टिकोण नहीं है : 'लापता' समूह की परिवर्तनशीलता को फुलाया जाएगा, और अन्य भविष्यवक्ताओं के गुणांक का अनुमान भ्रमित करने के लिए पक्षपाती है। लापता मूल्यों को लागू करने के लिए बेहतर है।x

LASSO का उपयोग दो समस्याओं का परिचय देता है:

  1. की पसंद परिणामों को प्रभावित करती है क्योंकि लागू संकोचन की मात्रा गुणांक अनुमानों के परिमाण पर निर्भर करती है।c
  2. आपको यह सुनिश्चित करने की आवश्यकता है कि और चयनित मॉडल में से दोनों में या दोनों से बाहर हैं।x1x2

आप जिसमें एक समूह के साथ नहीं बल्कि समूह LASSO का उपयोग करके इन दोनों को हल कर सकते हैं और : -norm दंड के लिए लागू किया जाता है की -norm orthonormalized मैट्रिक्स । (श्रेणीबद्ध भविष्यवक्ता समूह LASSO के लिए पोस्टर चाइल्ड हैं - आप एक अलग स्तर के रूप में 'केवल लागू नहीं' कोड, जैसा कि अक्सर अनपेक्षितकृत प्रतिगमन में किया जाता है।) Meier et al (2008), JRSS B, 70 , 1, 1 देखें। लॉजिस्टिक रिग्रेशन के लिए ग्रुप लैस्सो " और ग्रैप्लासोx1x2L1L2[x1 x2]


क्या किसी को पता है कि R का glmnet पैकेज ग्रुप LASSO को सपोर्ट करता है? यदि नहीं, तो क्या कोई अन्य ऐसा सुझाव देगा जो लॉजिस्टिक प्रतिगमन के संयोजन में करता है? समूह LASSO का उल्लेख करने वाले कई विकल्प CRAN रिपॉजिटरी में पाए जा सकते हैं, मेरे मामले के लिए सबसे उपयुक्त कोई भी सुझाव? शायद SGL?
हैरान

तो, क्या आप कहेंगे कि यदि मैं समूह LASSO का उपयोग करता हूं, तो आप उस दृष्टिकोण का उपयोग करने में सक्षम होंगे जो आप निरंतर भविष्यवक्ताओं को भी सुझाते हैं, श्रेणीबद्ध भविष्यवक्ताओं को भी?
हैरान

5

मल्टीपल इम्प्लिमेंटेशन कभी भी बुरा दृष्टिकोण नहीं होता है। आप पूरी जानकारी अधिकतम संभावना भी कर सकते हैं। यहां और यहां की अच्छी समीक्षा और तुलना ।

लेकिन अगर आप उस मार्ग पर जा रहे हैं, तो एक सिंगल बायेसियन मॉडल के रूप में अपने प्रतिगमन के साथ एक साथ एमएल प्रतिनियुक्ति को फिट करने के लिए स्टेन का उपयोग करने पर विचार करें, क्योंकि LASSO वैसे भी बायेसियन प्रतिगमन का एक विशेष मामला है


मैंने कई प्रतिरूपण विधि को गलत समझा था, अब मैं देखता हूं कि यह मेरे मामले के लिए लागू होगा। मैंने इसे प्रतिबिंबित करने के लिए अपना प्रश्न संपादित किया। क्या आप जानते हैं कि या तो SPSS या R ने आपके द्वारा बताए गए दो विकल्प चलाए हैं?
हैरान

1
एक R पैकेज है miजो आपकी मदद कर सकता है।
छायाकार

2
आप स्टेन को R ( RStan देखें ) के माध्यम से चला सकते हैं ।
Scortchi - को पुनः स्थापित मोनिका

R के लिए अतिरिक्त कई इंप्लूटेशन पैकेज शामिल हैं Ameliaऔर mice
साइकोरैक्स

0

सांख्यिकी में CATREG कमांड LASSO के साथ लापता डेटा को संभालती है। आप मामलों की सूची को अलग कर सकते हैं या प्रक्रिया को लागू कर सकते हैं, हालांकि यह नाम बताता है कि यह श्रेणीबद्ध चर के लिए है, आप निरंतर मामले को संभालने के लिए न्यूमेरिक के पैमाने निर्धारित कर सकते हैं।


यह एसएएस है PROC CATREG, मैं अनुमान लगा रहा हूं
बेन बोलकर

@ जेकेपी: मैं वास्तव में इस आदेश पर आया था। हालाँकि, यह मानते हुए कि मेरा बाहरी संस्करण द्विआधारी है, मैं मान रहा हूं कि लॉजिस्टिक रिग्रेशन, श्रेणीबद्ध प्रतिगमन (CATREG) की तुलना में अधिक उचित होगा - क्या मैं सही हूं? इसके अलावा, CATREG में विकल्प बल्कि सीमित लगते हैं - आप केवल मामलों को छोड़कर, मतलब मानों के साथ लापता मूल्यों को बदलने या एक अतिरिक्त श्रेणी बनाने के बीच चयन कर सकते हैं।
पहेली खेलना

0

आप निम्नलिखित पेपर में प्रस्तुत सरल दृष्टिकोण पर भी विचार कर सकते हैं:

लोह, पीएल, और वेनराइट, एमजे (2011)। शोर और लापता डेटा के साथ उच्च आयामी प्रतिगमन: गैर-उत्तलता के साथ प्रदान करने योग्य गारंटीतंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम (पीपी। 2726-2734)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.