लासो योगों के बीच संबंध


9

यह सवाल गूंगा हो सकता है, लेकिन मैंने देखा कि लास्सो के प्रतिगमन के दो अलग-अलग रूप हैं । हम जानते हैं कि Lasso समस्या वर्ग हानि और प्लस से जुड़े उद्देश्य को कम करना हैL-1 दंड अवधि, इस प्रकार व्यक्त की गई,

minβyXβ22+λβ1

लेकिन अक्सर मैंने देखा कि लास्सो अनुमानक को \ _ {टोपी {\ बीटा} _n (\ lambda) = \ _ डिस्प्लेस्टाइल \ arg \ min _ {\ बीटा} \ {\ frac {1} {2n} \ _- y - x \ _ के रूप में लिखा जा सकता है।

β^n(λ)=argminβ{12nyXβ22+λβ1}

मेरा सवाल है, क्या बराबर हैं? शब्द 12n कहां आता है? दो योगों के बीच संबंध मेरे लिए स्पष्ट नहीं है।

[अद्यतन] मुझे लगता है कि मुझे पूछना चाहिए कि सवाल है,

दूसरा सूत्रीकरण क्यों है? सैद्धांतिक रूप से या कम्प्यूटेशनल रूप से, इस तरह की समस्या को तैयार करने में क्या फायदा है?


2
यदि आप पहले फॉर्मूलेशन में गुना बराबर दूसरे फॉर्मूलेशन में सेट करते हैं , तो दूसरे फॉर्मूलेशन में ऑब्जेक्टिव फंक्शन में बार ऑब्जेक्टिव फंक्शन होता है। वास्तव में, आपने नुकसान की माप की इकाइयों को केवल बदल दिया है। आप कैसे मानते हैं कि के इष्टतम मूल्यों को बदल देगा ? λ1/(2n)λ1/(2n)β
whuber

धन्यवाद, @Whuber। मेरे लिए उसका मतलब बनता है। फिर बाद का सूत्रीकरण क्यों है? सैद्धांतिक रूप से या कम्प्यूटेशनल रूप से, इस तरह की समस्या को तैयार करने में क्या फायदा है?
हारून ज़ेंग

जवाबों:


10

वे वास्तव में समतुल्य हैं क्योंकि आप हमेशा _ (@ व्हिबर की टिप्पणी भी देख सकते हैं) को पुनः प्राप्त कर सकते हैं । सैद्धांतिक दृष्टिकोण से, यह सुविधा की बात है लेकिन जहां तक ​​मुझे पता है कि यह आवश्यक नहीं है। कम्प्यूटेशनल दृष्टिकोण से, मुझे वास्तव में काफी कष्टप्रद लगता है, इसलिए मैं आमतौर पर पहले सूत्रीकरण का उपयोग करता हूं अगर मैं एक एल्गोरिथ्म डिजाइन कर रहा हूं जो नियमितीकरण का उपयोग करता है।λ1/(2n)

थोड़ा बैकस्टोरी: जब मैंने पहली बार दंडात्मक तरीकों के बारे में सीखना शुरू किया, तो मुझे अपने काम में हर जगह ले जाने पर गुस्सा आया, इसलिए मैंने इसे अनदेखा करना पसंद किया - इसने मेरी कुछ गणनाओं को भी सरल कर दिया। उस समय मेरा काम मुख्य रूप से कम्प्यूटेशनल था। हाल ही में मैं सैद्धांतिक काम कर रहा हूं, और मुझे अपरिहार्य (यहां तक ​​कि बनाम, ) मिला है।1/(2n)1/(2n)1/n

अधिक विवरण: जब आप नमूना आकार कार्य के रूप में लासो के व्यवहार का विश्लेषण करने का प्रयास करते हैं , तो आपको अक्सर iid यादृच्छिक चर के योगों से निपटना पड़ता है, और व्यवहार में आमतौर पर द्वारा सामान्य होने के बाद इस तरह के योगों का विश्लेषण करना अधिक सुविधाजनक होता है - बड़ी संख्या / केंद्रीय सीमा प्रमेय का कानून (या यदि आप कल्पना, माप की एकाग्रता और अनुभवजन्य प्रक्रिया सिद्धांत प्राप्त करना चाहते हैं)। यदि आपके पास नुकसान के सामने अवधि नहीं है , तो आप अंत में विश्लेषण के अंत में कुछ rescaling करते हैं, इसलिए आमतौर पर इसे शुरू करने के लिए वहाँ होना अच्छा है। सुविधाजनक है क्योंकि इसके बारे में कुछ कष्टप्रद कारकों बाहर रद्दnn1/n1/22 विश्लेषण में (उदाहरण के लिए जब आप चुकता हानि अवधि के व्युत्पन्न लेते हैं)।

इसके बारे में सोचने का एक और तरीका यह है कि सिद्धांत करते समय, हम आम तौर पर रूप में समाधान के व्यवहार में रुचि रखते हैं - अर्थात, कुछ निश्चित मात्रा नहीं है। व्यवहार में, जब हम कुछ निश्चित डेटासेट पर लास्सो चलाते हैं, तो वास्तव में एल्गोरिथ्म / अभिकलन के दृष्टिकोण से तय होता है। तो अतिरिक्त सामान्यीकरण कारक को सामने रखने से वह सब मददगार नहीं होता है।nnn

ये सुविधा के कष्टप्रद मामलों की तरह लग सकते हैं, लेकिन इन प्रकार की असमानताओं में हेरफेर करने के लिए पर्याप्त समय बिताने के बाद, मैंने से प्यार करना सीख लिया है ।1/(2n)


3
एक बार जब आप महसूस करते हैं कि उन सामान्य स्थिरांक क्या हैं, तो आप उन्हें हर जगह देखना शुरू करते हैं ।
मैथ्यू पारा

इस स्पष्टीकरण के लिए धन्यवाद। इस डोमेन में आपके शानदार अनुभवों को पढ़कर हमें बहुत गर्व महसूस हो रहा है। फिर से शुक्रिया
क्रिस्टीना
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.