बातचीत की शर्तों के साथ LASSO - क्या मुख्य प्रभाव शून्य तक सिकुड़ गए हैं तो यह ठीक है?


25

LASSO प्रतिगमन शून्य की ओर गुणांक सिकुड़ता है, इस प्रकार प्रभावी रूप से मॉडल चयन प्रदान करता है। मेरा मानना ​​है कि मेरे डेटा में नाममात्र और निरंतर कोवरिएट्स के बीच सार्थक बातचीत हैं। हालांकि, जरूरी नहीं कि वे सच्चे मॉडल के 'मुख्य प्रभाव' सार्थक (गैर-शून्य) हों। निश्चित रूप से मुझे यह नहीं पता है कि चूंकि सच्चा मॉडल अज्ञात है। मेरा उद्देश्य सच्चे मॉडल को ढूंढना है और यथासंभव परिणाम का अनुमान लगाना है।

मैंने सीखा है कि मॉडल निर्माण के लिए शास्त्रीय दृष्टिकोण हमेशा एक बातचीत में शामिल करने से पहले एक मुख्य प्रभाव शामिल करेगा। इस प्रकार दो covariates और मुख्य प्रभाव के बिना कोई मॉडल नहीं हो सकता है यदि एक ही मॉडल में covariates का इंटरैक्शन हो । में समारोह ध्यान फलस्वरूप चयन मॉडल शर्तों (जैसे पिछड़े या आगे AIC के आधार पर) इस नियम के पालन।जेड एक्स * जेडXZXZstepR

LASSO अलग तरह से काम करता है। चूंकि सभी मापदंडों को दंडित किया जाता है, इसलिए यह संदेह के बिना हो सकता है कि एक मुख्य प्रभाव शून्य से सिकुड़ गया है, जबकि सबसे अच्छा (जैसे क्रॉस-वैलिडेटेड) मॉडल की बातचीत गैर-शून्य है। यह मैं का उपयोग करते समय अपने डेटा के लिए विशेष रूप से लगता है Rके glmnetपैकेज।

ऊपर उद्धृत पहले नियम के आधार पर मुझे आलोचना मिली, अर्थात मेरे अंतिम क्रॉस-वैरिफाइड लास्सो मॉडल में कुछ गैर-शून्य इंटरैक्शन के संबंधित मुख्य प्रभाव शब्द शामिल नहीं हैं। हालाँकि यह नियम इस संदर्भ में कुछ अजीब लगता है। क्या यह नीचे आता है यह सवाल है कि क्या सच्चे मॉडल में पैरामीटर शून्य है। मान लें कि यह है, लेकिन बातचीत गैर-शून्य है, तो LASSO शायद इसकी पहचान करेगा, इस प्रकार सही मॉडल ढूंढेगा। वास्तव में ऐसा लगता है कि इस मॉडल से भविष्यवाणियां अधिक सटीक होंगी क्योंकि मॉडल में सही-शून्य मुख्य प्रभाव नहीं है, जो प्रभावी रूप से एक शोर चर है।

क्या मैं इस आधार पर आलोचना का खंडन कर सकता हूं या क्या मुझे किसी तरह से पूर्व सावधानी बरतनी चाहिए कि LASSO बातचीत अवधि से पहले मुख्य प्रभाव शामिल करता है?


2
किसी ने इसे नीचा दिखाया। मुझे दिलचस्पी होगी कि क्यों
टॉमका

1
क्या आपका लक्ष्य भविष्यवाणी, अनुमान, या कुछ और सब एक साथ है?
एंड्रयू एम

@AndrewM मैं यथासंभव सच्चे मॉडल का अनुमान लगाना चाहता हूं, आश्रित चर के कारण चर की व्याख्या करता हूं और पूर्वानुमान मूल्यों का भी उपयोग करता हूं।
टॉमका

2
अपने पहले लक्ष्य के लिए, ध्यान दें कि क्रॉस-सत्यापन मॉडल चयन के लिए असंगत है। वास्तव में, यह दिखाया गया है कि "सच्चा" मॉडल उस उपसमुच्चय को दर्शाता है जो हमारे पूर्वानुमान के प्रदर्शन के अनुमान को अधिकतम करता है। अपने दूसरे लक्ष्य के लिए, ध्यान दें कि लासो दृढ़ता से पक्षपाती अनुमान प्रदान करता है। इसलिए मुझे लगता है कि आपको यह तय करने की आवश्यकता है कि आपका प्राथमिक लक्ष्य क्या है, और उपयोगी सलाह देने से पहले स्पष्ट करने के लिए अपने प्रश्न को संपादित करें।
एंड्रयू एम

@AndrewM मेरा प्रश्न है: क्या LASSO का उपयोग करते समय मुख्य प्रभाव को मॉडल में शामिल किया जाना चाहिए? इस प्रश्न का उत्तर मेरे दोनों पर्यवेक्षकों के लिए अलग-अलग दिया जा सकता है। मुझे नहीं लगता कि प्रश्न को और अधिक संशोधन की आवश्यकता है, लेकिन इन उद्देश्यों को इंगित करना महत्वपूर्ण है, पहले पैराग्राफ में संपादित देखें।
टॉमका

जवाबों:


10

इस प्रश्न का उत्तर देने में एक कठिनाई यह है कि ज्यादातर वास्तविक दुनिया के अनुप्रयोगों में "सच्चे" मॉडल के विचार के साथ LASSO को समेटना कठिन है, जिसमें आमतौर पर भविष्यवक्ता चर के बीच गैर-नगण्य सहसंबंध होते हैं। उस मामले में, किसी भी चर चयन तकनीक के साथ, LASSO द्वारा गैर-शून्य गुणांक के साथ लौटे विशेष भविष्यवक्ता अंतर्निहित आबादी से नमूने की योनि पर निर्भर करेंगे। आप एक ही डेटा सेट से कई बूटस्ट्रैप नमूनों पर LASSO का प्रदर्शन करके और लौटाए गए पूर्वानुमानकर्ता चर के सेटों की तुलना करके इसकी जांच कर सकते हैं।

इसके अलावा, जैसा कि @AndrewM ने एक टिप्पणी में उल्लेख किया है, LASSO द्वारा प्रदान किए गए अनुमानों के पूर्वाग्रह का अर्थ है कि आप "जितना संभव हो उतना निकट" परिणामों की भविष्यवाणी नहीं करेंगे। बल्कि, आप ऐसे परिणामों की भविष्यवाणी कर रहे हैं जो अपरिहार्य पूर्वाग्रह-भिन्नता व्यापार की एक विशेष पसंद पर आधारित हैं।

इसलिए उन कठिनाइयों को देखते हुए, मुझे उम्मीद है कि आप अपने लिए जानना चाहेंगे, न कि किसी आलोचक को संतुष्ट करने के लिए, चरों के मुख्य प्रभावों के परिमाण जो बातचीत में योगदान करते हैं। R, glinternet में एक पैकेज उपलब्ध है, जो आपको ठीक-ठीक वही लगता है, जिसकी आपको आवश्यकता है (हालाँकि मुझे इसका कोई अनुभव नहीं है):

समूह-लास्सो इंटरएक्शन-नेट। फाइट्स रैखिक जोड़ी-इंटरैक्शन मॉडल जो मजबूत पदानुक्रम को संतुष्ट करते हैं: यदि एक इंटरैक्शन गुणांक को नॉनज़रो होने का अनुमान लगाया जाता है, तो इसके दो संबंधित मुख्य प्रभावों में नॉनज़ेरो अनुमानित गुणांक भी होते हैं। स्तरों की मनमानी संख्या, निरंतर चर और इसके संयोजन के साथ श्रेणीबद्ध चर (कारक) को बनाए रखता है।

वैकल्पिक रूप से, यदि आपके पास बहुत अधिक भविष्यवाणियां नहीं हैं, तो आप इसके बजाय रिज प्रतिगमन पर विचार कर सकते हैं, जो सभी चर के लिए गुणांक लौटाएगा जो आपके विशेष डेटा नमूने की योनि पर बहुत कम निर्भर हो सकता है।


9

मुझे एक पार्टी के लिए देर हो रही है, लेकिन यहां आपकी समस्या के बारे में मेरे कुछ विचार हैं।

  1. lasso चयन करता है कि सूचनात्मक क्या है। चलो कम से कम सुविधाओं के साथ उच्चतम भविष्य कहनेवाला प्रदर्शन प्राप्त करने के लिए एक विधि के रूप में लास्सो पर विचार करते हैं। यह पूरी तरह से ठीक है कि कुछ मामलों में, लासो बातचीत का चयन करता है न कि मुख्य प्रभावों का। इसका सिर्फ यह मतलब है कि मुख्य प्रभाव जानकारीपूर्ण नहीं हैं, लेकिन बातचीत हैं।

  2. आप सिर्फ रिपोर्ट कर रहे हैं, जो आपको पता चला है। आपने कुछ विधि का उपयोग किया और इसने कुछ परिणाम उत्पन्न किए। आप इसे पारदर्शी तरीके से रिपोर्ट करते हैं जो प्रतिलिपि प्रस्तुत करने की अनुमति देता है। मेरी राय में, आपका काम पूरा हो गया है। परिणाम वस्तुनिष्ठ हैं, आपने पाया कि आपने क्या पाया और यह आपके काम का औचित्य नहीं है, आपको कुछ और क्यों नहीं मिला।

  3. सभी इकाइयाँ मनमानी कर रही हैं। सहभागिता सिर्फ इकाइयाँ हैं। कहते हैं कि आप रंगों का अध्ययन करते हैं। रंग आपके मॉडल में एक तरंग लंबाई, या एक लॉग वेव लंबाई, या 3 RGB चर के रूप में, या एक ह्यू और टिंट की बातचीत के रूप में और इतने पर शामिल हो सकते हैं। रंगों का कोई स्वाभाविक रूप से सही या गलत प्रतिनिधित्व नहीं है। आप अपनी समस्या के लिए सबसे अधिक समझ बनाने वाले को चुनेंगे। इंटरैक्शन भी केवल इकाइयाँ हैं जिनका आप मनमाने ढंग से उपयोग कर सकते हैं। एक खिड़की का क्षेत्र, इसकी ऊंचाई और चौड़ाई का सिर्फ एक अंतरक्रिया है, क्या आपको अपने मॉडल में एक खिड़की की ऊंचाई और चौड़ाई शामिल करनी चाहिए? वेग केवल द्रव्यमान और गति का अंतःक्रिया है। और स्पीड सिर्फ समय और दूरी की बातचीत है। मैनहोर्स काम करने वाले लोगों की समय और संख्या के बारे में बातचीत करते हैं। गणितीय रूप से उपचार की खुराक * आयु ऊंचाई * चौड़ाई के समान है। "आपको हमेशा मुख्य प्रभावों को शामिल करना पड़ता है" कहावत को खत्म कर दिया गया है।

  4. लैस्सो वास्तविक मॉडल का अनुमान नहीं लगाता है, यह अनुमान के लिए नहीं है और चयनित चर अस्थिर हैं। यदि आपने सूचनात्मक भविष्यवाणियों को सहसंबद्ध किया है, तो लसो एक को चुनने और दूसरों को 0 पर धकेलने की प्रवृत्ति रखता है, इसलिए आपका मॉडल सूचनात्मक चर के महत्वपूर्ण अनुपात को छोड़ देगा। इसके अलावा, जैसा कि टिप्पणियों में बताया गया था, यदि आपको क्रॉसवेलाइडेशन में सबसे अच्छा लंबोदा मिलता है, तो लासो एक वास्तविक मॉडल की तुलना में अधिक चर का चयन करेगा। एक और मुद्दा यह है कि, लसो से चयन अस्थिर हैं। इसलिए यदि आप आबादी से अलग नमूने पर फिर से लासो चलाते हैं, तो आप चयनित चर के एक अलग सेट के साथ समाप्त हो जाएंगे। इसलिए अधिक वजन नहीं रखा जाता है जिस पर चर का चयन किया जाता है। इसके अलावा, बेट्स पक्षपाती हैं, और इसलिए इसका उपयोग शास्त्रीय पैरामीट्रिक परिकल्पना परीक्षण के लिए नहीं किया जा सकता है। हालाँकि, इसके चारों ओर तरीके हैं (अगला बिंदु)

  5. लैसो के साथ इंजेक्शन। Lasso का उपयोग भविष्यवक्ताओं पर एक अनुमान लगाने के लिए किया जा सकता है। सबसे सरल तरीका यह है कि इसे बूटस्ट्रैप करें और गिनें कि प्रत्येक चर को कितनी बार चुना गया है, इसे संख्या के अनुसार विभाजित करें, और आपके पास आपके पी-मान हैं। उस मामले में P, लैस्सो द्वारा चुने गए एक चर की संभावना है। आप अभी भी महत्वपूर्ण बातचीत प्रभाव और महत्वहीन मुख्य प्रभावों के साथ समाप्त हो सकते हैं, लेकिन यह कोई समस्या नहीं है, यह सामान्य परिकल्पना परीक्षण के साथ भी हो सकता है। इस विषय का महान उपचार हस्ती एट में है। अल। नि: शुल्क पुस्तक: स्पार्सिटी के साथ सांख्यिकीय सीखना, अध्याय 6 http://web.stanford.edu/~hastie/StatLearnSparsity/बूटस्ट्रैप को लैम्ब्डा मानों की पूरी श्रृंखला के लिए किया जा सकता है, जिसके परिणामस्वरूप सभी चर के लिए एक स्थिरता पथ होगा। इसे पारिवारिक चयन त्रुटि के लिए सही महत्वपूर्ण चर का एक सेट खोजने के लिए एक स्थिरता चयन दृष्टिकोण के साथ बढ़ाया जा सकता है। http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2010.00740.x/abstract लसो के साथ इंजेक्शन लगाने के कुछ अन्य तरीके भी हैं, जो उपयोगी हो सकते हैं। अच्छी तरह से अनुकूली लासो या डेस्पारसीफाइड लासो। आर कार्यान्वयन के साथ समीक्षा यहां दी गई है: 10.1214 / 15-STS527 या IMO Buhlmanm, van de Geer बुक में अधिक सुलभ व्याख्या: उच्च-आयामी डेटा के लिए आंकड़े http://www.springer.com/la/book/9783872201912

  6. अन्य लस्सो से जुडी बातें जागरूक करने के लिए। जहां तक ​​मुझे पता है कि रिज या इलास्टिक नेट लस्सो से बेहतर प्रदर्शन करता है। यदि चर के बारे में एक डोमेन ज्ञान है, तो समूह लास्सो या स्पार्स समूह लास्सो का उपयोग लास्सो को व्यक्तिगत रूप से व्यवहार करने के बजाय या तो पूर्वानुमानकर्ताओं के पूरे समूह को रखने या छोड़ने के लिए किया जा सकता है (जैसे जीन पथ, डमी कोडित कारक चर)। स्थानिक या ऑर्डर किए गए डेटा के लिए फ़्यूज़्ड लासो का उपयोग किया जा सकता है। रैंडमाइज्ड लैस्सो, ऊपर बताए गए स्थिरता चयन पेपर में पेश किया गया, एक मानक कैसो के समान प्रदर्शन के साथ स्पैसर मॉडल का उत्पादन करता है।


1
वास्तव में # 3 पसंद आया
user4581

0

मेरे पास एक एप्लिकेशन है जहां मैं विशेष रूप से चाहता हूं कि छोटी संख्या में मुख्य प्रभाव दंडित न हो। आज्ञा दें Y = X.main beta + X.inter beta.inter + eps

a) fit.Y = OLS (X.main, Y)। आज्ञा देना tilde.Y = Y - भविष्यवाणी (fit.Y, X.main) b) फिट [, j] = OLS (X.main, X.inter [, j]) के लिए j = 1 ... k। आज्ञा देना tilde.X.inter [, j] = X.inter [, j] - भविष्यवाणी (fit.j, X.main) c) फिट = Lasso (tilde.X.inter, tilde.y)। मुख्य प्रभाव पर गुणांक फिट के बराबर होता है ।Y - कोफ (फिट) * फिट [, 1: मंद (X.inter) [2]]। परस्पर प्रभाव पर गुणांक गुणांक (फिट) के बराबर होता है

ए और बी के चरणों में, नमूना विभाजन करने की आवश्यकता नहीं है। ये मेरे लिए सही है!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.