लसो की तुलना में सबसे अच्छा सबसे अच्छा चयन क्यों नहीं किया जाता है?


13

मैं सांख्यिकीय सीखने की किताब के तत्वों में सर्वश्रेष्ठ सबसे अच्छा चयन के बारे में पढ़ रहा हूं। अगर मेरे पास 3 भविष्यवाणियां हैं , तो मैं सबसेट बनाता हूं :x1,x2,x323=8

  1. कोई भविष्यवाणियों के साथ सबसेट
  2. साथ सबसेटx1
  3. साथ सबसेटx2
  4. भविष्यवक्ता साथ सबसेटx3
  5. भविष्यवाणियों के साथ सबसेटx1,x2
  6. भविष्यवाणियों के साथx1,x3
  7. भविष्यवाणियों साथ सबसेटx2,x3
  8. भविष्यवाणियों के साथ सबसेटx1,x2,x3

फिर मैं सर्वश्रेष्ठ डेटा चुनने के लिए इन सभी मॉडलों का परीक्षण डेटा पर परीक्षण करता हूं।

अब मेरा सवाल यह है कि उदा। लसो की तुलना में सबसे अच्छा सबसे अच्छा चयन क्यों नहीं किया जाता है?

यदि मैं सबसे अच्छा सबसेट और लासो के थ्रेशोल्डिंग फंक्शन्स की तुलना करता हूं, तो मैं देखता हूं कि सबसे अच्छा सबसेट कुछ गुणांक को शून्य की तरह सेट करता है, जैसे कि लासो। लेकिन, अन्य गुणांक (गैर-शून्य वाले) में अभी भी ओएलएस मान होंगे, वे निष्पक्ष होंगे। जबकि, लसो में कुछ गुणांक शून्य होंगे और अन्य (गैर-शून्य वाले) में कुछ पूर्वाग्रह होंगे। नीचे दिया गया आंकड़ा इसे बेहतर दिखाता है: यहाँ छवि विवरण दर्ज करें

तस्वीर से सबसे अच्छा सबसेट के मामले में लाल रेखा का हिस्सा धूसर पर बिछ रहा है। दूसरा हिस्सा एक्स-एक्सिस में बिछ रहा है जहां कुछ गुणांक शून्य हैं। ग्रे लाइन निष्पक्ष समाधान को परिभाषित करती है। Lasso में, कुछ पूर्वाग्रह द्वारा पेश किए जाते हैं । इस आंकड़े से मैं देख रहा हूं कि सबसे अच्छा सबसेट लसो से बेहतर है! सबसे अच्छा सबसेट का उपयोग करने के नुकसान क्या हैं?λ


1
.. और क्या घटता है जब डेटा में यादृच्छिकता आपको कई गलत सबसेट में से एक का चयन करने का कारण बनता है और संबद्ध गुणांक उनके मानक त्रुटियों के सापेक्ष शून्य से दूर हैं?
13

2
@jbowman मैं इसे बहुत स्पष्ट रूप से नहीं समझता, डेटा में यादृच्छिकता मुझे गलत का चयन करने का कारण क्यों बनेगी? यदि मैं सबसे अच्छा सबसेट का चयन करने के लिए क्रॉस सत्यापन का उपयोग करता हूं, तो मेरे पास गलत सबसेट का चयन करने के लिए छोटे अवसर होंगे।
विले

1
आप "बेहतर" के साथ "कम पूर्वाग्रह" के समान प्रतीत हो रहे हैं। निष्पक्षता पर इतना उच्च मूल्य रखने के लिए आपको क्या करना है?
मैथ्यू ड्र्यू

जवाबों:


16

यदि आप सही मॉडल का सुपरसेट चुनते हैं, तो यदि आपने केवल ऐसे भविष्यवाणियों को हटा दिया है, जिनके सच्चे गुणांक मान शून्य हैं , तो सब्सेट चयन में, नॉनज़ेरो पैरामीटर निष्पक्ष नहीं होंगे । यदि आपकी चयन प्रक्रिया ने आपको एक वास्तविक नॉनजरो गुणांक के साथ एक भविष्यवक्ता को बाहर करने का नेतृत्व किया, तो सभी गुणांक अनुमान पक्षपाती होंगे। यह आपके तर्क को हरा देता है यदि आप सहमत होंगे कि चयन आम तौर पर सही नहीं है।

इस प्रकार, एक निष्पक्ष मॉडल अनुमान का "सुनिश्चित" करने के लिए, आपको अधिक, या यहां तक ​​कि सभी संभावित पूर्ववर्ती भविष्यवक्ताओं को भी शामिल करना चाहिए। यही है, आपको बिल्कुल नहीं चुनना चाहिए।

यह एक बुरा विचार क्यों है? पूर्वाग्रह-विचरण व्यापार की वजह से। हां, आपका बड़ा मॉडल निष्पक्ष होगा, लेकिन इसमें एक बड़ा विचरण होगा, और विचलन भविष्यवाणी (या अन्य) त्रुटि पर हावी होगा।

इसलिए, यह स्वीकार करते हैं कि पैरामीटर अनुमान के बेहतर है जाएगा पक्षपातपूर्ण हो लेकिन कम विचरण (नियमितीकरण), बजाय उम्मीद है कि हमारे सबसेट चयन ही सच्चा शून्य मापदंडों हटा दिया गया है तो हम बड़ा विचरण के साथ एक निष्पक्ष मॉडल की है।

चूँकि आप लिखते हैं कि आप क्रॉस-वेलिडेशन का उपयोग करके दोनों दृष्टिकोणों का आकलन करते हैं, इसलिए यह ऊपर दी गई कुछ चिंताओं को कम करता है। बेस्ट सबसेट के लिए एक शेष मुद्दा बना हुआ है: यह कुछ मापदंडों को बिल्कुल शून्य बनाता है और दूसरों को स्वतंत्र रूप से तैरने देता है। इसलिए अनुमान में एक है, जो कि वहाँ नहीं है अगर हम एक बिंदु से परे जहां एक शामिल है या बाहर रखा गया है। मान लीजिए कि क्रॉस-वैलिडेशन एक "इष्टतम" आउटपुट करता है जो कि करीब है , इसलिए हम अनिवार्य रूप से अनिश्चित हैं कि पी को शामिल किया जाना चाहिए या नहीं। इस मामले में, मैं तर्क दूंगा कि यह अधिक अनुमान लगाने के लिए पैरामीटर को बाधित करने के लिए बनाता हैλ 0 पी λ λ 0 β पी β पी = 0 β पी = β OLS पीλλ0pλλ0β^pलैस्सो के माध्यम से एक छोटे (निरपेक्ष) मान के बजाय, इसे पूरी तरह से बाहर करने के बजाय, , या इसे स्वतंत्र रूप से तैरने दें, , जैसा कि बेस्ट सबसेट करता है।β^p=0β^p=β^pOLS

यह मददगार हो सकता है: सिकुड़न क्यों काम करती है?


हम्म। मुझे नहीं लगता कि यह जवाब सबसे अच्छा सबसेट लास्सो से भी बदतर क्यों है (जो कि यहाँ मुख्य सवाल है)।
अमीबा का कहना है कि मोनिका

@amoeba: क्या आप विस्तृत करना चाहेंगे?
स्टीफन कोलासा

खैर, मुझे यह सवाल समझ में आया कि लसो को सबसे अच्छा सबसेट क्यों पसंद किया जाता है। कल्पना कीजिए कि हम दोनों को एक क्रॉस-वैल्यूएशन लूप में डालते हैं, और फिर या तो लैसो पैरामीटर को ट्यून करते हैं या सबसे अच्छा सबसेट ढूंढते हैं। आमतौर पर लसो की सिफारिश की जाती है। मैं सवाल पूछ रहा था कि क्यों? (उदाहरण के लिए Q का शीर्षक देखें) और मुझे यकीन नहीं है कि आपका उत्तर वास्तव में इसका उत्तर है। या मैंने आपके उत्तर को गलत समझा?
अमीबा का कहना है कि

1
बेस्ट सबसेट के लिए एक शेष मुद्दा यह है कि यह कुछ मापदंडों को बिल्कुल शून्य बनाता है और दूसरों को स्वतंत्र रूप से तैरने देता है, इसलिए अनुमान में एक असंतोष है, जो कि नहीं है अगर हम एक बिंदु से परे lasso ट्वीक करते हैं जहां एक भविष्यवक्ता शामिल या बाहर रखा गया है। मैं तर्क देता हूं कि यदि हम अनिवार्य रूप से अनिश्चित हैं कि को शामिल किया जाना चाहिए या नहीं, क्योंकि , तो यह पैरामीटर अनुमान को माध्यम से बाधित करने के लिए अधिक अर्थ देता है , बजाय जाने के यह स्वतंत्र रूप से तैरता है। λ 0 पी पी λ λ 0 β पीλλ0ppλλ0β^p
Stephan Kolassa

1
सहमत हूँ कि यह उत्तर वास्तव में इस सवाल का जवाब नहीं देता है - मैंने अपना ले लिया है नीचे इस पर ...
टॉम वेन्स्लेर्स

11

सिद्धांत रूप में, अगर सबसे अच्छा सबसेट पाया जा सकता है, तो यह वास्तव में LASSO से बेहतर है, (1) उन चरों का चयन करने के लिए जो वास्तव में फिट में योगदान करते हैं, (2) उन चर का चयन नहीं करते हैं जो फिट में योगदान नहीं करते हैं, (3) भविष्यवाणी सटीकता और (4) चयनित चर के लिए अनिवार्य रूप से निष्पक्ष अनुमानों का उत्पादन। हाल ही में एक पेपर जो LASSO पर सबसे अच्छा सबसेट की श्रेष्ठ गुणवत्ता के लिए तर्क देता है, वह है बर्टसिमस एट अल (2016) "एक आधुनिक अनुकूलन लेंस के माध्यम से सर्वश्रेष्ठ सबसे अच्छा चयन" । एक और पुराना एक ठोस उदाहरण (स्पाइक ट्रेनों के डिकॉनवोल्यूशन पर) दिया गया है, जहां सबसे अच्छा सबसेट LASSO या रिज की तुलना में बेहतर था, जो डे रूई एंड एयलर (2011) द्वारा किया गया था।

LASSO अभी भी व्यवहार में पसंद किया जाता है इसका कारण यह है कि गणना करने के लिए कम्प्यूटेशनल रूप से बहुत आसान होने के कारण। सबसे अच्छा सबसे अच्छा चयन, यानी एक छद्म दंड का उपयोग करना , अनिवार्य रूप से एक जुझारू समस्या है, और एनपी कठोर है, जबकि लेस्सो समाधान आसान है एक पथ पर समन्वय वंश का उपयोग करते हुए नियमितीकरण पथ की गणना करना। इसके अलावा, LASSO ( मानक दंडित प्रतिगमन) स्यूडोनोर्म दंडित प्रतिगमन / सर्वोत्तम उप-चयन (पुल प्रतिगमन, यानी मानक दंडित प्रतिगमन पर q के करीब 0 से उत्तल छूट है) सिद्धांत रूप में LASSO की तुलना में सबसे अच्छे उप-चयन के करीब होगा। , लेकिन यह अब उत्तल अनुकूलन समस्या नहीं है, और इसलिए इसे फिट करने के लिए काफी मुश्किल हैएल 1 एल 0 एल एल क्यूL0L1L0Lq)।

LASSO के पूर्वाग्रह को कम करने के लिए, व्युत्पन्न मल्टीस्टेप दृष्टिकोणों का उपयोग कर सकते हैं, जैसे कि अनुकूली LASSO (जहां गुणांक को कम से कम वर्गों या रिज प्रतिगमन फिट से पूर्व अनुमान के आधार पर अलग-अलग दंडित किया जाता है) या आराम LASSO (एक सरल समाधान करने के लिए किया जा रहा है) कम से कम वर्ग LASSO द्वारा चयनित चर)। सबसे अच्छा सबसेट की तुलना में, LASSO हालांकि थोड़ा बहुत चर का चयन करने के लिए जाता है। सबसे अच्छा सबसे अच्छा चयन बेहतर है, लेकिन फिट करने के लिए कठिन है।

कहा जा रहा है, वहाँ भी सबसे अच्छा सबसेट चयन / दंडित प्रतिगमन करने के लिए कुशल कम्प्यूटेशनल तरीके हैं , उदाहरण के लिए पेपर से वर्णित अनुकूली रिज दृष्टिकोण का उपयोग करते हुए "एल एडिटिव रिज प्रोसीजर फॉर एल0 रेगुलराइजेशन" फ्रॉम बैमलेट एंड न्युएल (2016) । ध्यान दें कि सबसे अच्छे उप-चयन के तहत आपको अभी भी क्रॉस सत्यापन या कुछ सूचना मानदंड (समायोजित आर 2, एआईसी, बीआईसी, एमबीआईसी ...) का उपयोग करना होगा, यह निर्धारित करने के लिए कि भविष्यवक्ताओं की संख्या आपको सबसे अच्छा पूर्वानुमान प्रदर्शन / व्याख्यात्मक शक्ति प्रदान करती है। आपके मॉडल में चर की संख्या, जो ओवरफिटिंग से बचने के लिए आवश्यक है। कागज Hastie एट अल द्वारा "सर्वश्रेष्ठ सबसेट चयन, आगे चरणबद्ध चयन, और कमंद की विस्तारित तुलना" (2017)L0सबसे अच्छा उपसमुच्चय, LASSO और कुछ LASSO वैरिएंट की एक विस्तृत तुलना जैसे कि आराम LASSO प्रदान करता है, और वे दावा करते हैं कि आराम से LASSO वह था जिसने परिस्थितियों की व्यापक श्रेणी के तहत उच्चतम मॉडल भविष्यवाणी सटीकता का उत्पादन किया, अर्थात वे एक अलग निष्कर्ष पर पहुंचे। Bertsimas। लेकिन जिसके बारे में निष्कर्ष सबसे अच्छा है, उस पर बहुत कुछ निर्भर करता है, जिसे आप सबसे अच्छा मानते हैं (उदाहरण के लिए उच्च सटीकता सटीकता, या प्रासंगिक चर को चुनने में सबसे अच्छा और अप्रासंगिक लोगों को शामिल नहीं करते हैं; रिज प्रतिगमन जैसे आमतौर पर बहुत सारे चर का चयन करते हैं, लेकिन मामलों के साथ भविष्यवाणी सटीकता भी। अत्यधिक कोलीनियर वैरिएबल वास्तव में अच्छे हो सकते हैं)।

3 चरों के साथ एक बहुत छोटी समस्या के लिए, जैसा कि आप वर्णन करते हैं, यह स्पष्ट है कि सबसे अच्छा सबसे अच्छा चयन सबसे पसंदीदा विकल्प है।


1
वाक्यांश में "बेहतर" का क्या अर्थ है "यह लासो से बेहतर है"?
मैथ्यू ड्र्यू

1
L0 पेनल्टी का उपयोग करना सबसे अच्छा क्यों है? किसी भी आकार के सबसेट के बीच सबसे अच्छा सबसेट (सबसे कम सत्यापन त्रुटि के साथ) सबसे अच्छा सबसेट का चयन करता है; कम से कम ओपी ने उनके सवाल में क्या सुझाव दिया। L0 पेनल्टी के लिए सब्मिट की आवश्यकता आकार की है (जो कि नियमितीकरण पैरामीटर द्वारा परिभाषित है ); कोई एक सत्यापन सेट का उपयोग करके सबसे अच्छा खोज सकता है , और फिर यह सभी संभव भर में के आकार का सबसे अच्छा सबसेट है ... ठीक है, अब मैं देख रहा हूं कि यह एक ही है :-)λ k k kkλkkk
अमीबा ने कहा मोनिका

कुछ और विस्तार देने के लिए मेरे उत्तर को थोड़ा सा संपादित करें ...
टॉम वन्सलेर्स

मुझे नहीं लगता कि कोई भी उत्तर स्थिरता की समस्या को संबोधित कर रहा है। स्टेप वाइज और सभी संभावित सबसेट रिग्रेशन की तरह, lassoकुख्यात अस्थिर है। दूसरे शब्दों में, यदि आप पूरी प्रक्रिया को बूटस्ट्रैप करना चाहते हैं, तो आपको चयनित सुविधाओं की सूची में बहुत अधिक मनमानी मिलेगी।
फ्रैंक हरेल

हाँ LASSO द्वारा चुने गए चर अस्थिर हो सकते हैं, और यह सबसे अच्छा उपसमुच्चय प्रतिगमन के लिए मामला और भी अधिक है - लोचदार शुद्ध प्रतिगमन इस संबंध में थोड़ा बेहतर है - जो तब तक बहुत सारे चर शामिल करने के लिए जाता है, लेकिन अधिक में चयनित स्थिर तरीका, और उच्च कोलीनियरिटी के तहत बेहतर भविष्यवाणी सटीकता दे सकता है। लेकिन बहुत कुछ इस बात पर निर्भर करता है कि आपके आवेदन के लिए सबसे महत्वपूर्ण मानदंड क्या है - भविष्यवाणी सटीकता, अप्रासंगिक चर शामिल करने की झूठी सकारात्मक दर या अत्यधिक प्रासंगिक चर शामिल नहीं होने की झूठी नकारात्मक दर ...
टॉम वेंसलेर्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.