स्टेप वाइज रिग्रेशन के क्या फायदे हैं?


11

मैं समस्या के प्रति अपने दृष्टिकोण में विविधता के लिए स्टेप वाइज रिग्रेशन का प्रयोग कर रहा हूं। तो, मेरे 2 सवाल हैं:

  1. स्टेप वाइज रिग्रेशन के क्या फायदे हैं? इसकी विशिष्ट ताकत क्या हैं?

  2. आप हाइब्रिड दृष्टिकोण के बारे में क्या सोचते हैं, जहां आप सुविधाओं का चयन करने के लिए स्टेप वाइज रिग्रेशन का उपयोग करते हैं, और फिर सभी चयनित विशेषताओं को एक साथ लेते हुए नियमित रिग्रेशन लागू करते हैं?

जवाबों:


15

स्टेप वाइज रिग्रेशन का प्राथमिक लाभ यह है कि यह कम्प्यूटेशनल रूप से कुशल है। हालांकि, इसका प्रदर्शन आमतौर पर वैकल्पिक तरीकों से भी बदतर है। समस्या यह है कि यह बहुत लालची है। अगले रजिस्ट्रार पर एक कठिन चयन करके और वजन को 'फ्रीजिंग' करके, यह उन विकल्पों को बनाता है जो प्रत्येक चरण में स्थानीय रूप से इष्टतम होते हैं, लेकिन सामान्य रूप से सबॉप्टीमल। और, यह अपने पिछले विकल्पों को संशोधित करने के लिए वापस नहीं जा सकता है।

जहां तक ​​मुझे जानकारी है, स्टेप रिग्रेशन पर रिग्रेशन (LASSO) की तुलना में बहुत हो गया है, जिससे बेहतर समाधान निकलता है।एल1

तिब्शीरानी (1996) । कमंद के माध्यम से प्रतिगमन संकोचन और चयन

LASSO वजन के मानदंड को दंडित करता है , जो समाधान में स्पार्सिटी को प्रेरित करता है (कई वजन शून्य करने के लिए मजबूर हैं)। यह चर चयन करता है ('प्रासंगिक' चर को नॉनजरो वेट करने की अनुमति है)। स्पैर्सिटी की डिग्री को तपस्या शब्द द्वारा नियंत्रित किया जाता है, और इसे चुनने के लिए कुछ प्रक्रिया का उपयोग किया जाना चाहिए (क्रॉस-सत्यापन एक सामान्य विकल्प है)। LASSO स्टेप वाइज रिग्रेशन की तुलना में अधिक कम्प्यूटेशनल रूप से गहन है, लेकिन कई कुशल एल्गोरिदम मौजूद हैं। कुछ उदाहरण हैं कम से कम कोण प्रतिगमन ( LARS ), और समन्वित वंश पर आधारित एक दृष्टिकोण ।एल1

आपने (2) में जो सुझाव दिया था, उसके समान दृष्टिकोण को ऑर्थोगोनल मिलान खोज कहा जाता है। यह मिलान खोज का एक सामान्यीकरण है, जो सिग्नल प्रोसेसिंग साहित्य में स्टेप वाइज रिग्रेशन का नाम है।

पति एट अल। (1993) । ऑर्थोगोनल मेलिंग पीछा: तरंगिका अपघटन के लिए अनुप्रयोगों के साथ पुनरावर्ती कार्य सन्निकटन

प्रत्येक पुनरावृत्ति पर, अगला सबसे अच्छा regressor सक्रिय सेट में जोड़ा जाता है। फिर, सक्रिय सेट में सभी रजिस्टरों के लिए वजन फिर से प्रतिष्ठित किया जाता है। पुनरावर्ती कदम के कारण, यह दृष्टिकोण नियमित रूप से मेल खाने वाले पीछा / स्टेपवाइज रिग्रेशन की तुलना में कम लालची (और बेहतर प्रदर्शन) है। लेकिन, यह अभी भी एक लालची खोज विधर्मी को रोजगार देता है।

इन सभी दृष्टिकोणों (स्टेप वाइज रिग्रेशन, LASSO, और ऑर्थोगोनल मैचिंग पीछा) को निम्न समस्या के अनुमान के रूप में सोचा जा सकता है:

मिनटwy-एक्सw22सेंट w0सी

एक प्रतिगमन संदर्भ में, कॉलम स्वतंत्र चर और पर निर्भर चर के अनुरूप हैं । सिग्नल प्रोसेसिंग में, फ़ंक्शन के आधार कार्य के अनुरूप है और लगभग अनुमानित है। लक्ष्य वजन का एक विरल सेट मिल रहा है है कि सबसे अच्छा (कम से कम वर्गों) के सन्निकटन दे । आदर्श बस में गैर शून्य प्रविष्टियों की संख्या की गणना । दुर्भाग्य से, यह समस्या एनपी-हार्ड है, इसलिए सन्निकटन एल्गोरिदम को व्यवहार में उपयोग किया जाना चाहिए। लालची खोज रणनीति का उपयोग करके समस्या को हल करने के लिए स्टेपवाइज रिग्रेशन और ऑर्थोगोनल मैचिंग पीछा प्रयास। LASSO की छूट का उपयोग करके समस्या का सुधार करता हैएक्सyएक्सywyएल0wएल0 मान से मानदंड। यहाँ, अनुकूलन समस्या उत्तल हो जाती है (और इस प्रकार ट्रैक्टेबल)। और, हालांकि समस्या अब समान नहीं है, समाधान समान है। यदि मुझे सही ढंग से याद है, तो LASSO और ऑर्थोगोनल मैचिंग पीछा दोनों कुछ शर्तों के तहत सटीक समाधान को पुनर्प्राप्त करने के लिए साबित हुए हैं।एल1


8

स्टेप वाइज चयन आम तौर पर एक अच्छा विचार नहीं है। यह समझने के लिए कि क्यों, यह आपको मेरा उत्तर पढ़ने में मदद कर सकता है: स्वचालित मॉडल चयन के लिए एल्गोरिदम

जहां तक ​​लाभ जाता है, उन दिनों में जब सभी संभावित संयोजनों के माध्यम से खोज करना कंप्यूटरों को संभालने के लिए कम्प्यूटेशनल रूप से गहन था, तो स्टेपवाइज सिलेक्शन ने समय बचाया और ट्रैक्टेबल था। हालाँकि, ध्यान दें कि ऊपर दिए गए मेरे लिंक किए गए उत्तर में जिन समस्याओं पर चर्चा की गई है, वे केवल 'सर्वश्रेष्ठ सबसेट' प्रतिगमन पर लागू होती हैं, इसलिए स्टेप वाइज एक अच्छा समाधान नहीं पैदा करता है, बस एक बुरा समाधान तेजी से होता है।

हाइब्रिड एप्रोच का आपका विचार ठीक होगा, इसलिए जब तक दूसरा मॉडल (चयनित सुविधाओं के साथ) नए डेटासेट पर फिट नहीं हो जाता ।


ओपी ने "हाइब्रिड एप्रोच" को क्या कहते हैं (यह सुनिश्चित नहीं है कि यह हाइब्रिड क्यों है), आप का अर्थ है कि यह इस अर्थ में ठीक है कि दूसरे नए डेटासेट पर मॉडल के गुणांक का अनुमान ठीक होना चाहिए (जबकि पक्षपाती और समस्याग्रस्त है) मूल डेटा), जब तक नया डेटासेट पर्याप्त बड़ा नहीं होता? यह निश्चित रूप से एक खराब मॉडल होगा, क्योंकि यह पहले डेटासेट पर खराब तरीके से चुना गया था, बस यह गुणांक कम समस्याग्रस्त डेटासेट में अनुमानित होगा।
ब्योर्न

इसके अलावा सभी संभावित संयोजनों के माध्यम से देखना अभी भी असंभव है, क्योंकि हमारे पास विभिन्न चर की संख्या कंप्यूटिंग शक्ति की तुलना में तेजी से बढ़ती है, और लोगों को अपने मॉडल में शामिल करने के बारे में अधिक से अधिक विचार हैं।
स्टीफन कोलासा

उस धागे को पढ़ना मददगार नहीं है।
मोक्स

2

मैंने अभी-अभी एक Google खोज की खोज की है, जो स्टेप वाइज रिग्रेशन है। मुझे यकीन नहीं है कि मैं इसे पूरी तरह से समझता हूं, लेकिन यहां मेरा पहला विचार है

  • यह लालची है इसलिए यह अच्छे समाधान का उत्पादन नहीं कर सकता जैसा कि लासो करता है। मुझे लसो पसंद है
  • यह सरल, प्रयोग करने में आसान, कोड करने में आसान है
  • स्टेपवाइज रिग्रेशन का उपयोग करने के बाद, आप पहले से ही एक प्रशिक्षित मॉडल के साथ समाप्त हो जाते हैं जो चयनित सुविधाओं का उपयोग करते हैं, इसलिए आपको हाइब्रिड दृष्टिकोण के रूप में उल्लेख किए गए अन्य रिग्रेशन चरण का उपयोग करने की आवश्यकता नहीं है
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.