चर चयन के लिए लैस्सो का उपयोग करने के बाद इंजेक्शन


17

मैं अपेक्षाकृत कम आयामी सेटिंग (n >> p) में फीचर चयन के लिए लास्सो का उपयोग कर रहा हूं। एक लास्सो मॉडल फिट करने के बाद, मैं बिना किसी दंड के एक मॉडल को फिट करने के लिए नॉनज़रो गुणांक वाले कोवरिएट का उपयोग करना चाहता हूं। मैं ऐसा कर रहा हूं क्योंकि मैं निष्पक्ष अनुमान चाहता हूं जो कि लास्सो मुझे नहीं दे सकता। मैं निष्पक्ष अनुमान के लिए पी-मान और आत्मविश्वास अंतराल भी चाहूंगा।

मुझे इस विषय पर साहित्य खोजने में परेशानी हो रही है। अधिकांश साहित्य मुझे लगता है कि लास्सो अनुमानों पर विश्वास अंतराल डालने के बारे में है, न कि एक परिष्कृत मॉडल।

मैंने जो पढ़ा है, उसमें से केवल संपूर्ण डेटासेट का उपयोग करके किसी मॉडल को परिष्कृत करने से अनुचित रूप से छोटे p-मान / std त्रुटियाँ होती हैं। अभी, सैंपल स्प्लिटिंग (वास्समैन और रोएडर की शैली में (2014) या मेन्सहॉसेन एट अल (2009)) कार्रवाई का एक अच्छा कोर्स लगता है, लेकिन मैं और सुझावों की तलाश कर रहा हूं।

क्या किसी ने इस मुद्दे का सामना किया है? यदि हां, तो क्या आप कुछ सुझाव दे सकते हैं।


मुझे समझ में नहीं आता है कि जब लसो अनुमानक तब तक पक्षपाती है, जब तक कि विश्वास अंतराल (कम से कम asymptotically) सही कवरेज है, तब तक यह क्यों होना चाहिए। क्या यह एकमात्र कारण है कि आप लसो द्वारा बरामद समर्थन पर ओएलएस का अनुमान लगाना चाहते हैं?
user795305

हो सकता है कि मैंने जो कुछ पढ़ा है, उसे गलत समझा हो, लेकिन पक्षपाती अनुमान को सही रूप से सही नहीं बताने के लिए अस्वाभाविक रूप से सही कवरेज का उल्लेख नहीं है, लेकिन सही-गलत का अनुमान नहीं है?
एलीक जूल

1
मुझे यकीन नहीं है कि "सच्चे विरल-लेकिन-निष्पक्ष" अनुमान से आपका क्या मतलब है, लेकिन अगर आप जानते हैं कि लास्सो के अनुमानों में एसिम्पोटिकली सही कवरेज के साथ विश्वास अंतराल है, तो ऐसा करने के लिए अधिक नहीं होना चाहिए। Greenparker (+1) द्वारा लिंक किया गया पेपर वास्तव में एक दिलचस्प है (और इस विषय पर सबसे हाल ही में मुझे पता है) जो चर्चा करता है कि (भाग में) कैसे आप लैस्सो पर फिर आत्मविश्वास गुणांक में आत्मविश्वास के अंतराल को विकसित कर सकते हैं। मैं इंगित करने की कोशिश कर रहा हूं कि निष्पक्ष गुणांक प्राप्त करने के लिए आपको ओएलएस फिट करने की आवश्यकता नहीं है, क्योंकि निष्पक्षता से कोई फर्क नहीं पड़ता।
user795305

मुझे लगता है कि मुझे गलतफहमी हुई है। आपके द्वारा बताए गए asymptotically सही कवरेज सच्चे पैरामीटर के संबंध में है। तो भले ही लैस्सो पक्षपाती गुणांक देता है, हम आत्मविश्वास के अंतराल का निर्माण कर सकते हैं जो सही पैरामीटर के लिए सही कवरेज है?
एलीक

2
यदि आपने एक मॉडल का चयन किया है, तो यदि आपके पास लास्सो के बिना अनुमान है, तो आपके पास अनुमान नहीं होगा। चयन-चर-फिर फिट-थ्रू-ओएलएस के बाद मॉडल में शर्तों के गुणांक वास्तव में 0 से दूर पक्षपाती होंगे (चर चयन के अन्य रूपों के साथ)। संकोचन की थोड़ी मात्रा वास्तव में पूर्वाग्रह को कम कर सकती है।
Glen_b -Reinstate मोनिका

जवाबों:


12

पिछली प्रतिक्रियाओं में जोड़ने के लिए। आपको निश्चित रूप से तिब्शीरानी और सहयोगियों द्वारा हाल के काम की जांच करनी चाहिए। उन्होंने लसो-प्रकार के तरीकों के लिए चयन-सही पी-मान और आत्मविश्वास अंतराल का उल्लेख करने के लिए एक कठोर रूपरेखा विकसित की है और एक आर-पैकेज भी प्रदान करते हैं।

देख:

ली, जेसन डी।, एट अल। "लैस्सो के लिए आवेदन के साथ सटीक चयन के बाद निष्कर्ष।" सांख्यिकी 44.3 (2016): 907-927। ( https://projecteuclid.org/euclid.aos/1460381681 )

टेलर, जोनाथन, और रॉबर्ट जे। टिबशिरानी। "सांख्यिकीय शिक्षा और चयनात्मक निष्कर्ष।" नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही 112.25 (2015): 7629-7634।

आर-पैकेज:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

आम तौर पर, लसो के माध्यम से चर चयन करने के बाद कोई जुर्माना का उपयोग करने से इनकार करना "धोखा" माना जाता है क्योंकि आपने पहले से ही डेटा को देखा है और परिणामस्वरूप पी-मान और आत्मविश्वास अंतराल सामान्य अर्थ में मान्य नहीं हैं।

p

लैस्सो द्वारा चयनित चर का सेट उच्च संभावना के साथ नियतात्मक और गैर-डेटा निर्भर है।

इस प्रकार, डेटा पर दो बार झांकना कोई समस्या नहीं है। आपको यह देखने की आवश्यकता होगी कि आपकी समस्या के लिए पेपर होल्ड में बताई गई शर्तें हैं या नहीं।

(साथ ही कागज में बहुत सारे उपयोगी संदर्भ हैं)


संदर्भ:

झाओ, एस।, शोएज़ी, ए।, और विटेन, डी। (2017)। अनिर्वचनीय की रक्षा में: उच्च आयामी अनुमान के लिए एक बहुत ही भोली दृष्टिकोण। से लिया गया: https://arxiv.org/pdf/1705.05543.pdf


9
+1 यह ध्यान देने योग्य है, हालांकि, लेखक स्पष्ट रूप से "बहुत बड़ी डेटा सेटिंग्स में" को छोड़कर अपने दृष्टिकोण की अनुशंसा नहीं करते हैं: "हम आवेदन करने की वकालत नहीं करते ... सबसे व्यावहारिक डेटा विश्लेषण सेटिंग्स में ऊपर वर्णित दृष्टिकोण: हम आश्वस्त हैं व्यवहार में ... यह दृष्टिकोण खराब प्रदर्शन करेगा जब नमूना आकार छोटा या मध्यम होता है, और / या धारणाएं पूरी नहीं होती हैं (पृष्ठ 27 पर)। रिकॉर्ड के लिए, यह कागज झाओ, शोजाई और विटेन है, इन डिफेंस ऑफ इनडेन्सिबल: ए वेरी नाइव अप्रोच टू हाई-डायमेंशनल इंट्रेंस (16 मई 2017) है।
whuber

@whuber और यह भी ध्यान रखें कि यह पेपर arxiv.org पर है - यह सुनिश्चित नहीं है कि अगर यह सहकर्मी की समीक्षा की गई है तो लेखक की कार्यप्रणाली के साथ अन्य मुद्दे भी हो सकते हैं।
राबर्टएफ

0

मैं ऑर्थोगोनल / डबल मशीन लर्निंग साहित्य से कुछ पेपर जोड़ना चाहता था जो कि एप्लाइड इकोनोमेट्रिक्स साहित्य में लोकप्रिय हो रहा है।

  • बेलोनी, अलेक्जेंड्रे, विक्टर चेर्नोझुकोव, और क्रिश्चियन हेन्सन। "उच्च-आयामी नियंत्रणों के बीच चयन के बाद उपचार के प्रभाव पर आक्षेप।" आर्थिक अध्ययन की समीक्षा 81.2 (2014): 608-650।

    यह पेपर LASSO का उपयोग करके "अन्य" नियंत्रणों का चयन करने के बाद एक चर के प्रभाव के ओएलएस अनुमान के सैद्धांतिक गुणों को संबोधित करता है।

  • विक्टर चेर्नोज़ुकोव, डेनिस चेतविकिकोव, मर्ट डेमिरर, एस्तेर डुफ्लो, क्रिश्चियन हेन्सन, व्हिटनी नेवी, जेम्स रॉबिन्स, उपचार और संरचनात्मक मापदंडों के लिए डबल / डेबिसिड मशीन सीखने, द इकोनोमेट्रिक्स जर्नल, खंड 21, अंक 1, 1 फरवरी 2018, पृष्ठ C1-C68-C68 , https://doi.org/10.1111/ectj.12097

    यह उच्च-आयामी उपद्रव पैरामीटर (कन्फ्यूडर) के लिए गैर-रेखीय नियंत्रण के लिए कई गैर-पैरामीट्रिक विधियों (एमएल एल्गोरिदम) का उपयोग करने के लिए व्यापक सिद्धांत विकसित करता है और फिर परिणाम पर एक विशिष्ट कोवरिएट के प्रभाव का अध्ययन करता है। वे आंशिक रूप से लीनियर फ्रेमवर्क और पूरी तरह से पैरामीट्रिक फ्रेमवर्क से निपटते हैं। वे उन स्थितियों पर भी विचार करते हैं, जहां ब्याज का परिवर्तन होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.