तुल्यता दिखा बीच नॉर्म को नियमित प्रतिगमन और नॉर्म कंस्ट्रेन्ड प्रतिगमन का उपयोग KKT


12

संदर्भ पुस्तक 1 , पुस्तक 2 और कागज के अनुसार

यह उल्लेख किया गया है कि नियमित प्रतिगमन (रिज, LASSO और इलास्टिक नेट) और उनके बाधा योगों के बीच एक समानता है।

मैंने क्रॉस वैलिडेटेड 1 , और क्रॉस वैलिडेटेड 2 को भी देखा है , लेकिन मैं एक स्पष्ट उत्तर नहीं दिखा सकता कि समानता या तर्क।

मेरा सवाल यह है कि

करुश-कुह्न-टकर (केकेटी) का उपयोग करके उस समानता को कैसे दिखाया जाए?

रिज रिग्रेशन के लिए निम्न सूत्र हैं।

चोटी

ध्यान दें

यह सवाल होमवर्क नहीं है। इस विषय पर मेरी समझ बढ़ाना ही है।

अपडेट करें

मुझे अभी तक विचार नहीं मिला है।


आपको 1 से अधिक उत्तर की आवश्यकता क्यों है? वर्तमान उत्तर प्रश्न को व्यापक रूप से संबोधित करता है। यदि आप अनुकूलन विधियों के बारे में अधिक जानना चाहते हैं, तो उत्तल ऑप्टिमाइज़ेशन लिवेन वैंडेनबर्ग और स्टीफन पी। बॉयड शुरू करने के लिए एक अच्छी जगह है।
साइकोरैक्स का कहना है कि मोनिका

@ साइकोरेक्स, आपकी टिप्पणियों के लिए धन्यवाद और पुस्तक जो आप मुझे प्रदान करते हैं। मेरे लिए उत्तर इतना स्पष्ट नहीं है और मैं अधिक स्पष्टीकरण नहीं मांग सकता। इस प्रकार, एक से अधिक उत्तर मुझे एक अलग दृष्टिकोण और विवरण का तरीका दिखा सकते हैं।
जीजा

@ जीजा, मेरे जवाब में क्या याद आ रहा है?
रॉय

1
कृपया अपने प्रश्न को टेक्स्ट के रूप में लिखें, केवल एक तस्वीर पोस्ट न करें ( यहां देखें )।
गूँग - मोनिका

जवाबों:


10

अधिक तकनीकी जवाब है क्योंकि विवश अनुकूलन समस्या को लैग्रेग मल्टीप्लायरों के संदर्भ में लिखा जा सकता है। विशेष रूप से, लाग्रंगियन कंस्ट्रेन्ड अनुकूलन समस्या के साथ जुड़े द्वारा दिया जाता है जहाँ एक गुणक को समस्या की बाधाओं को संतुष्ट करने के लिए चुना जाता है। इस अनुकूलन समस्या के लिए पहले के आदेश की स्थिति (जो आपके लिए उचित उचित उत्तल कार्यों के साथ काम कर रही है) पर्याप्त हैं, इसलिए इस प्रकार लैग्रैजियन को संबंध में विभेदित करके प्राप्त किया जा सकता है

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβऔर डेरिवेटिव को 0 के बराबर सेट करना (यह LASSO भाग के अपरिहार्य बिंदु होने के बाद से थोड़ा अधिक बारीक है, लेकिन पहले क्रम की स्थिति को अभी भी काम करने के लिए व्युत्पन्न को सामान्य बनाने के लिए उत्तल विश्लेषण से तरीके हैं )। यह स्पष्ट है कि ये पहले आदेश की शर्तें आपके द्वारा लिखी गई असंबंधित समस्या के पहले क्रम की स्थितियों के समान हैं।

हालाँकि, मुझे लगता है कि यह देखना उपयोगी है कि सामान्य रूप से, इन अनुकूलन समस्याओं के साथ, समस्या के बारे में सोचने के लिए अक्सर या तो एक विवश अनुकूलन समस्या के लेंस के माध्यम से या एक असंबंधित समस्या के लेंस के माध्यम से यह संभव है। अधिक रूप से, मान लें कि हमारे पास निम्नलिखित फ़ॉर्म की एक असंबंधित अनुकूलन समस्या है: हम हमेशा इस अनुकूलन को सीधे हल करने का प्रयास कर सकते हैं, लेकिन कभी-कभी, इस समस्या को तोड़ने में समझदारी हो सकती है। उप-घटक। विशेष रूप से, यह देखना मुश्किल नहीं है कि तो की एक निश्चित मूल्य के लिए

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(और कार्यों को वास्तव में उनकी ऑप्टिमा प्राप्त करने के लिए अनुकूलित मानकर), हम इसके साथ एक मूल्य जोड़ सकते हैं जो बाहरी अनुकूलन समस्या को हल करता है। यह हमें असंबद्ध अनुकूलन समस्याओं से विवश समस्याओं के लिए मानचित्रण का एक प्रकार देता है। आपकी विशेष सेटिंग में, चूंकि लोचदार नेट प्रतिगमन के लिए सब कुछ अच्छी तरह से व्यवहार किया जाता है, यह मानचित्रण वास्तव में एक से एक होना चाहिए, इसलिए इन दो संदर्भों के बीच स्विच करने में सक्षम होना उपयोगी होगा, जिसके आधार पर किसी विशेष अनुप्रयोग के लिए अधिक उपयोगी है। सामान्य तौर पर, विवश और असंबंधित समस्याओं के बीच इस संबंध को कम व्यवहार किया जा सकता है, लेकिन यह अभी भी यह सोचने के लिए उपयोगी हो सकता है कि आप विवश और असंबंधित समस्या के बीच किस हद तक आगे बढ़ सकते हैं।t

संपादित करें: जैसा कि अनुरोध किया गया है, मैं रिज प्रतिगमन के लिए एक अधिक ठोस विश्लेषण शामिल करूंगा, क्योंकि यह मुख्य विचारों को कैप्चर करता है जबकि LASSO दंड की गैर-भिन्नता से जुड़ी तकनीकी से निपटने के लिए। याद रखें, हम अनुकूलन समस्या को हल कर रहे हैं (मैट्रिक्स नोटेशन में):

argminβ{i=1NyixiTβ}s.t.||β||2M

Let OLS समाधान हो (अर्थात जब कोई बाधा न हो)। फिर मैं उस मामले पर ध्यान केंद्रित करूंगा जहां(बशर्ते यह मौजूद है) अन्यथा, बाधा तब से निर्बाध है क्योंकि यह बांधती नहीं है। इस समस्या के लिए तब विभेदित करते हुए , हम पहले क्रम की स्थिति प्राप्त करते हैं: जो कि रैखिक समीकरणों की एक प्रणाली है और इसलिए इसे हल किया जा सकता है: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
गुणक की कुछ पसंद के लिए । गुणक को तब कसौटी पर खरा उतारने के लिए चुना जाता है, अर्थात हमें जरूरत हैμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
जो LHS के बाद से मौजूद है, वह में मोनोटोनिक है । यह समीकरण मल्टीप्लायरों से अवरोधों के लिए एक स्पष्ट मानचित्रण देता है , with जब RHS मौजूद होता है और यह मैपिंग वास्तव में काफी सहज ज्ञान युक्त होती है। लिफाफा प्रमेय हमें बताता है किμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)हम सीमांत की एक छोटी छूट से प्राप्त त्रुटि में मामूली कमी से मेल खाते हैं । यह बताता है कि क्यों जब से मेल खाता है। एक बार जब बाधा बाध्यकारी नहीं होती है, तो इसे और अधिक आराम करने में कोई मूल्य नहीं है, यही वजह है कि गुणक गायब हो जाता है।Mμ0M||βOLS||


यदि संभव हो तो आप हमें एक व्यावहारिक उदाहरण के साथ एक विस्तृत जवाब चरण के साथ प्रदान कर सकते हैं।
जीजा

बहुत धन्यवाद, आप केकेटी का उल्लेख क्यों नहीं करते? मैं इस क्षेत्र से परिचित नहीं हूं, इसलिए मुझे हाई स्कूल का छात्र समझो।
जीजा

इस मामले में केकेटी की शर्तें "पहले के आदेश की शर्तों" का सामान्यीकरण हैं, जिसका मैं लैग्रेन्जिविट को अलग करके और व्युत्पन्न के बराबर 0. का उल्लेख करता हूं। इस उदाहरण के बाद से, बाधाओं की समानता के साथ पकड़ है, हमें केकेटी शर्तों की आवश्यकता नहीं है आम तौर पर पूर्ण। अधिक जटिल मामलों में, जो कुछ भी होता है वह यह है कि उपरोक्त कुछ समानताएं असमानताएं बन जाती हैं और बाधाओं के लिए गुणक 0 हो जाता है। उदाहरण के लिए, ऐसा ही होता है जबऊपरोक्त में। M>||βOLS||
सांख्यिकी_मॉडल

3

उसके जवाब में आँकड़ों_model द्वारा एक महान विश्लेषण है ।

मैंने रिज प्रूफ़ के समतुल्य सूत्र के सबूत पर इसी तरह के सवाल का जवाब देने की कोशिश की ।

मैं इस मामले के लिए और अधिक हाथ ले जाऊँगा।
चलो 2 मॉडल में और बीच मानचित्रण देखने का प्रयास करें ।tλ

जैसा कि मैंने लिखा था और उसके विश्लेषण में मौजूद आँकड़े_मॉडल से देखा जा सकता है मानचित्रण डेटा पर निर्भर करता है। इसलिए हमने समस्या का एक विशिष्ट एहसास चुना है। फिर भी कोड और समाधान का स्केचिंग क्या चल रहा है के लिए अंतर्ज्ञान जोड़ देगा।

हम निम्नलिखित 2 मॉडल की तुलना करेंगे:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

मान लेते हैं कि नियमित मॉडल के समाधान के लिए और विवश मॉडल का समाधान होने के लिए है।x^x~

हम से लिए मैपिंग को देख रहे हैं जैसे कि । पर देख रहे हैं मेरी समाधान करने के लिए आदर्श बाधा कम से कम वर्गों के लिए सॉल्वर एक देख सकते हैं कंस्ट्रेन्ड मॉडल को सुलझाने को नियमित मॉडल को सुलझाने और खोजने शामिल है कि से मेल खाता है (वास्तविक कोड में प्रस्तुत किया है इयूक्लिडियन (साथ कम से कम वर्गों ) सामान्य बाधा )।tλx^=x~
λtL2

तो हम एक ही सॉल्वर चलाएंगे और प्रत्येक हम इष्टतम प्रदर्शित करेंगे ।tλ

सॉल्वर मूल रूप से हल करता है:

argλλsubject to(ATA+2λI)1ATb22t=0

तो यहाँ हमारा मैट्रिक्स है:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

और यहाँ हमारे वेक्टर है:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

यह मानचित्रण है:

यहाँ छवि विवरण दर्ज करें

जैसा कि ऊपर देखा जा सकता है, के उच्च पर्याप्त मूल्य के लिए पैरामीटर अपेक्षा के अनुरूप।tλ=0

[0, 10] श्रेणी में ज़ूम करके:

यहाँ छवि विवरण दर्ज करें

पूरा कोड मेरे StackExchange Cross Validated Q401212 GitHub रिपोजिटरी पर उपलब्ध है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.