जब हम एक रेखीय प्रतिगमन को हल करते हैं तो क्या कई स्थानीय इष्टतम समाधान हो सकते हैं?


19

मैंने इस कथन को एक पुरानी सच्ची / झूठी परीक्षा पर पढ़ा:

हम कई स्थानीय इष्टतम समाधान प्राप्त कर सकते हैं यदि हम क्रमिक वंश का उपयोग करके चुकता त्रुटियों के योग को कम करके एक रैखिक प्रतिगमन समस्या को हल करते हैं।

हल: मिथ्या

मेरा सवाल यह है कि इस सवाल का कौन सा हिस्सा गलत है? यह कथन झूठा क्यों है?

जवाबों:


8

यह सवाल दिलचस्प है, क्योंकि यह अनुकूलन सिद्धांत, अनुकूलन विधियों और सांख्यिकीय तरीकों के बीच कुछ कनेक्शनों को उजागर करता है, जिसे किसी भी सक्षम उपयोगकर्ता को समझने की आवश्यकता होती है। यद्यपि ये कनेक्शन सरल और आसानी से सीखे जाते हैं, वे सूक्ष्म और अक्सर अनदेखी होते हैं।

टिप्पणियों से कुछ विचारों को अन्य उत्तरों के लिए संक्षेप में, मैं बताना चाहूंगा कि कम से कम दो तरीके हैं जो "रैखिक प्रतिगमन" गैर-अद्वितीय समाधान पैदा कर सकते हैं - केवल सैद्धांतिक रूप से नहीं, लेकिन व्यवहार में।

पहचान की कमी

पहला है जब मॉडल पहचानने योग्य नहीं है। यह एक उत्तल बनाता है, लेकिन कड़ाई से उत्तल उद्देश्य फ़ंक्शन नहीं है, जिसमें कई समाधान हैं।

उदाहरण के लिए, डेटा ) के लिए और (एक अवरोधन के साथ) के विरुद्ध को पुनः प्राप्त करें। । एक समाधान है । एक और । यह देखने के लिए कि कई समाधान होने चाहिए, मॉडल को तीन वास्तविक मापदंडों और एक त्रुटि शब्द के रूप में करेंzxy(x,y,z)जेड = 1 + y z = 1 - एक्स ( λ , μ , ν ) ε(1,1,0),(2,2,1),(3,3,2)z^=1+yz^=1x(λ,μ,ν)ε

z=1+μ+(λ+ν1)x+(λν)y+ε.

अवशिष्टों के वर्गों का योग सरल हो जाता है

SSR=3μ2+24μν+56ν2.

(यह वस्तुनिष्ठ कार्यों का एक सीमित मामला है, जो व्यवहार में उत्पन्न होता है, जैसे कि एक एम-अनुमानक के अनुभवजन्य हेसियन अनिश्चित काल के लिए चर्चा कर सकते हैं ? जहां आप विस्तृत विश्लेषण पढ़ सकते हैं और फ़ंक्शन के प्लॉट देख सकते हैं।)

चूँकि वर्गों के गुणांक ( और ) धनात्मक होते हैं और निर्धारक धनात्मक होता है, यह धनात्मक-अर्धवार्षिक द्विघात रूप में । यह कम से कम हो जाता है जब , लेकिन का कोई भी मान हो सकता है। चूँकि वस्तुनिष्ठ फ़ंक्शन पर निर्भर नहीं करता है , न तो इसका ग्रेडिएंट (या कोई भी अन्य डेरिवेटिव) नहीं है। इसलिए, किसी भी ढाल वंशज एल्गोरिथ्म - अगर यह दिशा के कुछ मनमाने बदलाव नहीं करता है - तो जो भी शुरुआती मूल्य था, उसके समाधान का मूल्य निर्धारित करेगा ।56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ एसएसआर λ λ3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλλ

यहां तक ​​कि जब ढाल वंश का उपयोग नहीं किया जाता है, तो समाधान अलग-अलग हो सकता है। में Rके रूप में: उदाहरण के लिए, वहाँ दो आसान, बराबर इस मॉडल को निर्दिष्ट करने के तरीके हैं z ~ x + yया z ~ y + x। पहला पैदावार लेकिन दूसरा । जेड =1+yz^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

( NAमानों को शून्य के रूप में व्याख्या की जानी चाहिए, लेकिन एक चेतावनी के साथ कि कई समाधान मौजूद हैं। चेतावनी का प्रदर्शन संभव था क्योंकि इसमें किए गए प्रारंभिक विश्लेषण Rइसकी समाधान विधि से स्वतंत्र हैं। एक ढाल वंश विधि संभवतः कई समाधानों की संभावना का पता नहीं लगाएगा। हालाँकि एक अच्छा व्यक्ति आपको कुछ अनिश्चितता के बारे में चेतावनी देता है कि यह इष्टतम पर आ गया है।)

पैरामीटर बाधा

सख्त उत्तलता एक अद्वितीय वैश्विक इष्टतम की गारंटी देती है, बशर्ते मापदंडों का डोमेन उत्तल हो। पैरामीटर प्रतिबंध गैर-उत्तल डोमेन बना सकते हैं, जिससे कई वैश्विक समाधान हो सकते हैं।

एक बहुत ही सरल उदाहरण डेटा लिए एक "माध्य" का आकलन करने की समस्या को वहन करता है प्रतिबंध के अधीन । यह एक ऐसी स्थिति है जो रिज रेज्रेशन, लास्सो, या इलास्टिक नेट जैसे नियमितीकरण के तरीकों के विपरीत है: यह जोर दे रहा है कि एक मॉडल पैरामीटर बहुत छोटा न हो। (इस पैरामीटर पर विभिन्न प्रश्न सामने आए हैं, जिसमें पूछा गया है कि ऐसे पैरामीटर बाधाओं के साथ प्रतिगमन समस्याओं को कैसे हल किया जाए, जिससे पता चलता है कि वे अभ्यास में उत्पन्न होते हैं।)μ| μ | 1 / 21,1|μ|1/2

इस उदाहरण के दो कम-वर्ग समाधान हैं, दोनों समान रूप से अच्छे हैं। वे कम से कम बाधा के अधीन पाए जाते हैं । दो समाधान । एक से अधिक समाधान उत्पन्न हो सकते हैं क्योंकि पैरामीटर प्रतिबंध डोमेन गैर- बनाता है :(1μ)2+(1μ)2|μ|1/2μ=±1/2μ(,1/2][1/2,)

$ \ M $ के विरुद्ध वर्गों के योग का प्लॉट

Parabola एक (सख्ती से) उत्तल फ़ंक्शन का ग्राफ है। गाढ़ा लाल भाग, के डोमेन तक सीमित हिस्सा है : इसमें दो सबसे कम अंक , जहां वर्गों का योग । बाकी परबोला (बिंदीदार दिखाया गया है) बाधा द्वारा हटा दिया जाता है, जिससे विचार से इसकी अद्वितीय न्यूनतम समाप्त हो जाती है।μμ=±1/25/2

एक ढाल वंश विधि, जब तक यह बड़ी छलांग लेने के लिए, संभावना "अद्वितीय" समाधान खोजने होगा तैयार थे जब एक सकारात्मक मूल्य के साथ शुरू और अन्यथा यह "अद्वितीय" समाधान खोजने के हैं नकारात्मक मूल्य के साथ शुरू होने पर ।μ=1/2μ=1/2

एक ही स्थिति बड़े डेटासेट और उच्च आयामों में हो सकती है (जो कि फिट होने के लिए अधिक प्रतिगमन मापदंडों के साथ है)।


1
उत्तल फ़ंक्शन का एक बहुत ही सरल उदाहरण जो कड़ाई से उत्तल नहीं है और इसमें असीम रूप से कई मिनिमा । लाइन पर कोई भी बिंदु एक न्यूनतम बिंदु है। f(x,y)=(xy)2y=x
kjetil b halvorsen

1
@Kjetil धन्यवाद, यह सच है। यहाँ चाल यह दिखाने के लिए है कि इस तरह के कार्य वास्तव में प्रतिगमन स्थितियों में कैसे उत्पन्न होते हैं। आपका फ़ंक्शन मेरे द्वारा पेश किए गए पहले उदाहरण के लिए सटीक रूप से प्रेरणा है।
whuber


2

मुझे डर है कि आपके प्रश्न का कोई द्विआधारी उत्तर नहीं है। यदि रैखिक प्रतिगमन सख्ती से उत्तल है (गुणांक पर कोई बाधा नहीं, कोई नियमित रूप से आदि नहीं है ), तो ढाल वंश का एक अनूठा समाधान होगा और यह वैश्विक इष्टतम होगा। यदि आप एक गैर-उत्तल समस्या है, तो धीरे-धीरे वंशज कई समाधानों को वापस कर सकते हैं।

हालांकि ओपी एक रेखीय प्रतिगमन के लिए पूछता है, नीचे का उदाहरण कम से कम वर्ग न्यूनतम दिखाता है हालांकि गैरलीनियर (बनाम रैखिक प्रतिगमन जिसे ओपी चाहता है) में कई समाधान हो सकते हैं और ढाल वंश अलग समाधान वापस कर सकते हैं।

मैं अनुभवजन्य रूप से एक साधारण उदाहरण का उपयोग करके दिखा सकता हूं

  1. चुकता त्रुटियों का योग कुछ समय गैर-उत्तल हो सकता है, इसलिए कई समाधान हैं
  2. धीरे-धीरे वंश विधि कई समाधान प्रदान कर सकती है।

उस उदाहरण पर विचार करें जहां आप निम्न समस्या के लिए कम से कम वर्ग को कम करने की कोशिश कर रहे हैं:

यहाँ छवि विवरण दर्ज करें

जहाँ आप वस्तुनिष्ठ कार्य को कम करके को हल करने का प्रयास कर रहे हैं । उपरोक्त फ़न्नेशन हालांकि विभेदी गैर-उत्तल है और इसके कई समाधान हो सकते हैं। नीचे देखने के लिए वास्तविक मूल्यों को प्रतिस्थापित करना ।wa

a12=9,a13=1/9,a23=9,a31=1/9

minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

उपरोक्त समस्या के 3 अलग-अलग समाधान हैं और वे इस प्रकार हैं:

w=(0.670,0.242,0.080),obj=165.2

w=(0.080,0.242,0.670),obj=165.2

w=(0.242,0.670,0.080),obj=165.2

जैसा कि ऊपर दिखाया गया है कि कम से कम वर्गों की समस्या नॉनवॉन्क्स हो सकती है और कई समाधान हो सकते हैं। फिर उपर्युक्त समस्या को हल किया जा सकता है जैसे कि Microsoft excel solver जैसे ढाल डिसेंट विधि और हर बार जब हम दौड़ते हैं तो अलग-अलग समाधान प्राप्त करते हैं। चूंकि ढाल वंशज एक स्थानीय आशावादी है और स्थानीय समाधान में फंस सकता है इसलिए हमें वास्तविक वैश्विक ऑप्टिमा प्राप्त करने के लिए विभिन्न शुरुआती मूल्यों का उपयोग करने की आवश्यकता है। इस तरह की एक समस्या शुरुआती मूल्यों पर निर्भर है।


2
मुझे नहीं लगता कि यह ओपी के सवाल का जवाब देता है क्योंकि ओपी विशेष रूप से रैखिक प्रतिगमन के बारे में पूछता है , सामान्य रूप से अनुकूलन नहीं।
साइकोरैक्स का कहना है कि मोनिका

1
नहीं, यह नहीं करता है, लेकिन सिर्फ अनुकूलन के साथ समस्याओं पर एक बिंदु बनाने की कोशिश कर रहा है, कैविट्स के साथ अपडेट करेगा
फोरकास्टर

@ user777 आप सही हैं। यह MIT की पुरानी परीक्षा का एक बहुत ही मान्य प्रश्न है। मुझे यकीन है कि पूर्वानुमान के लिए उत्तर गलत है।
अंजेला मिनोई

तो क्या आपको यकीन है कि मैं सही हूं?
अंजिला मिनोई

@AjjelaMinoeu, मैंने अपनी प्रतिक्रिया अपडेट कर दी है।
फोरकास्टर

1

इसका कारण यह है कि आप जिस उद्देश्य फ़ंक्शन को कम कर रहे हैं वह उत्तल है, केवल एक मिनीमा / मैक्सिमा है। इसलिए, स्थानीय इष्टतम भी एक वैश्विक इष्टतम है। धीरे-धीरे वंशज समाधान पाएंगे।

यह उद्देश्य फ़ंक्शन उत्तल क्यों है? यह न्यूनतमकरण के लिए चुकता त्रुटि का उपयोग करने की सुंदरता है। शून्य की व्युत्पत्ति और समानता अच्छी तरह से दिखाएगी कि यह मामला क्यों है। यह एक पाठ्यपुस्तक समस्या है और लगभग हर जगह कवर है।


4
उत्तलता एक अद्वितीय न्यूनतम नहीं है। आमतौर पर आपको एक उत्तल डोमेन पर परिभाषित एक उद्देश्य फ़ंक्शन के सख्त उत्तलता के लिए अपील करने की आवश्यकता होती है। इसके अलावा यहां एक मुद्दा अस्थायी बिंदु अंकगणितीय का उपयोग करके ढाल वंश के लिए समाप्ति मानदंड हैं: यहां तक ​​कि जब उद्देश्य फ़ंक्शन सख्ती से उत्तल होता है, तो एल्गोरिथ्म अलग-अलग समाधान (शुरुआती मूल्यों पर निर्भर करता है) को खोजने की संभावना है जब फ़ंक्शन अपने न्यूनतम के निकट लगभग सपाट हो।
whuber

@ क्या आप मेरे लिए इसे सरल और स्पष्ट करेंगे?
अंजिला मिनोई

@ मुझे लगता है कि पहला मुद्दा शब्दावली का उपयोग है। दूसरा, उत्तलता एक अद्वितीय न्यूनतम का अर्थ है। मैं एक अलग-अलग अवतल कार्य नहीं देख सकता, जिसमें एक भी न्यूनतम / अधिकतम नहीं है। : सबूत यहाँ देखें planetmath.org/localminimumofconvexfunctionisnecessarilyglobal
Vladislavs Dovgalecs

3
मैंने प्रमाण को पढ़ने की जहमत नहीं उठाई, क्योंकि इसे सही होने के लिए सख्त उत्कर्ष का आह्वान करना चाहिए । अज्ञात गुणांक के साथ कम से कम वर्गों की समस्या उत्तल होगी, लेकिन कड़ाई से उत्तल नहीं होगी, और इस तरह (अनंत) कई समाधान होंगे। लेकिन यह पूरी तरह से ढाल वंश के लिए प्रासंगिक नहीं है, जिसकी अपनी समस्याएं हैं - जिनमें से कुछ विकिपीडिया लेख में स्पष्ट रूप से चर्चा की गई हैं । इस प्रकार, दोनों सैद्धांतिक और व्यावहारिक इंद्रियों में, प्रश्न का सही उत्तर सही है : ढाल मूल - और कई समाधान दे सकता है।
whuber

@ वाउचर हां, सबूत सख्त उत्तलता की अपील करता है।
व्लादिस्लाव्स डोवलगेक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.