क्या त्रुटि दर नियमितीकरण पैरामीटर लंबो का उत्तल कार्य है?


11

रिज या लैस्सो में नियमितीकरण पैरामीटर लैम्ब्डा को चुनने में अनुशंसित विधि लैम्ब्डा के विभिन्न मूल्यों की कोशिश करना है, सत्यापन सेट में त्रुटि को मापना और अंत में लैम्बडा के उस मूल्य को चुना जो सबसे कम त्रुटि देता है।

यह मेरे लिए क्लैट नहीं है यदि फ़ंक्शन f (लंबो) = त्रुटि उत्तल है। क्या ऐसा हो सकता है? यानी इस वक्र में एक से अधिक स्थानीय मिनीमा हो सकते हैं (जो यह कहेंगे कि लंबोदर के कुछ क्षेत्र में त्रुटि का एक न्यूनतम पता लगाने से यह संभावना नहीं निकलती है कि किसी अन्य क्षेत्र में एक लंबोदर एक भी छोटी त्रुटि लौटा रहा है)

यहाँ छवि विवरण दर्ज करें

आपकी सलाह की सराहना की जाएगी।

जवाबों:


11

मूल प्रश्न पूछा गया कि क्या त्रुटि फ़ंक्शन को उत्तल करने की आवश्यकता है। नहीं, यह नहीं है। नीचे प्रस्तुत विश्लेषण का उद्देश्य इस और संशोधित प्रश्न के बारे में कुछ अंतर्दृष्टि और अंतर्ज्ञान प्रदान करना है, जो पूछता है कि क्या त्रुटि फ़ंक्शन में कई स्थानीय मिनीमा हो सकते हैं।

सहज रूप से, डेटा और प्रशिक्षण सेट के बीच कोई गणितीय रूप से आवश्यक संबंध होना आवश्यक नहीं है। हमें प्रशिक्षण डेटा खोजने में सक्षम होना चाहिए, जिसके लिए शुरू में मॉडल खराब है, कुछ नियमितीकरण के साथ बेहतर हो जाता है, और फिर फिर से खराब हो जाता है। उस स्थिति में त्रुटि वक्र उत्तल नहीं हो सकता है - कम से कम यदि हम नियमितीकरण पैरामीटर को से तक भिन्न करते हैं तो नहीं ।0

ध्यान दें कि उत्तल एक अद्वितीय न्यूनतम होने के बराबर नहीं है! हालांकि, इसी तरह के विचार कई स्थानीय मिनिमा संभव हैं: नियमितीकरण के दौरान, पहले फिट किए गए मॉडल कुछ प्रशिक्षण डेटा के लिए बेहतर हो सकते हैं, जबकि अन्य प्रशिक्षण डेटा के लिए सराहनीय रूप से बदलते नहीं हैं, और फिर बाद में यह अन्य प्रशिक्षण डेटा के लिए बेहतर होगा, आदि। ऐसे प्रशिक्षण डेटा का मिश्रण कई स्थानीय मिनीमा का उत्पादन करना चाहिए। विश्लेषण को सरल रखने के लिए मैं यह दिखाने का प्रयास नहीं करूंगा।

संपादित करें (बदले हुए प्रश्न का उत्तर देने के लिए)

मैं नीचे प्रस्तुत विश्लेषण में बहुत आश्वस्त था और इसके पीछे का अंतर्ज्ञान जो मैंने सबसे कठिन तरीके से एक उदाहरण खोजने के बारे में निर्धारित किया था: मैंने छोटे यादृच्छिक डेटासेट उत्पन्न किए, उन पर एक लासो चलाया, एक छोटे से प्रशिक्षण सेट के लिए कुल चुकता त्रुटि की गणना की। और अपनी त्रुटि वक्र की साजिश रची। कुछ प्रयासों ने दो मिनीमा के साथ एक का उत्पादन किया, जिसका मैं वर्णन करूंगा। वैक्टर और और प्रतिक्रिया लिए फ़ॉर्म के रूप में हैं ।x 1 x 2 y(x1,x2,y)x1x2y

प्रशिक्षण जानकारी

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

परीक्षण डेटा

(1,1,0.2), (1,2,0.4)

कमंद का उपयोग कर चलाया गया था glmnet::glmmetमें R, सभी तर्कों को उनके डिफ़ॉल्ट पर छोड़ दिया है। के मूल्यों एक्स अक्ष पर हैं reciprocals (क्योंकि यह के साथ अपने जुर्माना parameterizes मूल्यों की है कि सॉफ्टवेयर द्वारा की सूचना दी )।1 / λλ1/λ

कई स्थानीय मिनीमा के साथ त्रुटि वक्र

आकृति


विश्लेषण

चलो पर विचार किसी भी फिटिंग मापदंडों के नियमितीकरण विधि के आंकड़ों के और इसी प्रतिक्रियाओं है कि रिज प्रतिगमन और कमंद इन गुणों आम:x मैं y मैंβ=(β1,,βp)xiyi

  1. (परिमापीकरण) इस विधि को वास्तविक संख्या में पैरामीटरित किया गया है , जिसमें अनियमित मॉडल अनुरूप है ।λ = 0λ[0,)λ=0

  2. (निरंतरता) पैरामीटर अनुमान निरंतर पर निर्भर करता है और किसी भी सुविधाओं के लिए अनुमानित मान लगातार साथ भिन्न होते हैं । λ बीटाβ^λβ^

  3. (सिकुड़ते हुए) as , ।बीटा0λβ^0

  4. (फ़ाइनेसिटी) किसी भी सुविधा वेक्टर , , भविष्यवाणी ।बीटा0 y ( एक्स ) = ( एक्स , बीटा ) 0xβ^0y^(x)=f(x,β^)0

  5. (मोनोटोनिक त्रुटि) त्रुटि मान किसी भी तुलना किसी अनुमानित मान , , विसंगति के साथ बढ़ता हैइसलिए, कुछ गाली-गलौज के साथ, हम इसे " रूप में व्यक्त कर सकते हैं ।"y एल ( y , y ) | Y - y | एल ( | y - y | )yy^L(y,y^)|y^y|L(|y^y|)

(शून्य में को किसी भी स्थिरांक से बदला जा सकता है।)(4)

मान लीजिए कि डेटा ऐसा है, जो प्रारंभिक (अनियमित) पैरामीटर का अनुमान शून्य नहीं है। आइए एक प्रशिक्षण डेटा सेट का निर्माण करें जिसमें एक अवलोकन , जिसके लिए । (यदि ऐसा खोजना संभव नहीं है , तो प्रारंभिक मॉडल बहुत दिलचस्प नहीं होगा!) । (एक्स0,y0)(एक्स0, β (0))0एक्स0वाई0=(एक्स0, β (0))/2β^(0)(x0,y0)f(x0,β^(0))0x0y0=f(x0,β^(0))/2

मान्यताओं में त्रुटि वक्र इन गुणों का :e:λL(y0,f(x0,β^(λ))

  1. y 0e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|) (के कारण की )।y0

  2. λ बीटा ( λ ) 0 y ( एक्स 0 ) 0limλe(λ)=L(y0,0)=L(|y0|) (क्योंकि as , , )।λβ^(λ)0y^(x0)0

इस प्रकार, इसका ग्राफ लगातार दो समान रूप से उच्च (और परिमित) समापन बिंदुओं को जोड़ता है।

$ E $ का संभव ग्राफ दिखाने वाला चित्र।

गुणात्मक रूप से, तीन संभावनाएँ हैं:

  • प्रशिक्षण सेट के लिए भविष्यवाणी कभी नहीं बदलती है। यह संभावना नहीं है - आपके द्वारा चुने गए किसी भी उदाहरण के बारे में यह संपत्ति नहीं होगी।

  • के लिए कुछ मध्यवर्ती भविष्यवाणियों हैं बदतर शुरू में से या सीमा में । यह फ़ंक्शन उत्तल नहीं हो सकता है।λ = 0 λ 0<λ<λ=0λ

  • सभी मध्यवर्ती पूर्वानुमान और बीच । निरंतरता का तात्पर्य है कि का कम से कम एक न्यूनतम होगा , जिसके निकट उत्तल होना चाहिए। लेकिन चूँकि एक परिमित स्थिरांक को समान रूप से समीप ले जाता है, इसलिए यह पर्याप्त रूप से बड़े जम्बदा के लिए उत्तल नहीं हो सकता है ।2 y 0 e e e ( λ ) λ02y0eee(λ)λ

आकृति में लंबवत धराशायी रेखा दिखाती है कि कहाँ कथानक उत्तल (इसके बायें) से गैर-उत्तल (दायें) में बदलता है। ( इस आंकड़े में पास गैर-उत्तलता का क्षेत्र भी है , लेकिन यह सामान्य रूप से ऐसा नहीं होगा।)λ0


आपके विस्तृत जवाब के लिए धन्यवाद। यदि संभव हो तो प्रश्न की समीक्षा करें जैसा कि मैंने संपादित किया और आपकी प्रतिक्रिया को अपडेट किया।
rf7

शानदार जवाब (+1)। व्यवहार में, मुझे लगता है कि अक्सर कुछ प्रशिक्षण और डेटा बिंदुओं का परीक्षण नहीं होता है। जब एक ही (निश्चित और पर्याप्त रूप से नियमित) वितरण से तैयार किए गए पर्याप्त प्रशिक्षण और परीक्षण डेटा बिंदु होते हैं, तो इस उत्तर का निष्कर्ष बदल जाता है? विशेष रूप से, इस परिदृश्य के तहत, क्या उच्च संभावना के साथ एक अद्वितीय स्थानीय न्यूनतम है?
16:

@ यह परीक्षण के अंकों की संख्या नहीं है जो मायने रखती है: यह परिणाम पूरी तरह से प्रशिक्षण बिंदुओं के वितरण के सापेक्ष परीक्षण बिंदुओं के वितरण पर निर्भर करता है। इसलिए "उच्च संभावना के साथ" का मुद्दा प्रतिगामी चर के बहुभिन्नरूपी वितरण के बारे में कुछ विशिष्ट धारणाएं बनाए बिना जवाबदेह नहीं होगा। इसके अलावा, कई चर के साथ कई स्थानीय मिनीमा की इस घटना की अधिक संभावना है। मुझे संदेह है कि एक बड़े परीक्षण सेट के यादृच्छिक चयन (चर के रूप में कई बार टिप्पणियों के रूप में) में अक्सर एक अद्वितीय वैश्विक मिनट हो सकता है
whuber

1
@ शुभंकर धन्यवाद! मैं सहमत हूं: प्रशिक्षण और परीक्षण बिंदुओं के बीच (सही) वितरण समान होना चाहिए, और पर्याप्त नमूने होने की आवश्यकता है कि प्रशिक्षण और परीक्षण सेट के अनुभवजन्य वितरण में समझौता है। (ऐसा लगता है कि मैंने अपनी पिछली टिप्पणी में खराब प्रदर्शन किया है।) उदाहरण के लिए, अगर का संयुक्त रूप से सामान्य वितरण है (nondegenerate covariance के साथ), तो मुझे लगता है कि त्रुटि वक्र की संभावना एक अद्वितीय स्थानीय मिनट में परिवर्तित होती है। 1 (अगर, कहते हैं, वहाँ प्रशिक्षण में नमूने और साथ परीक्षण सेट साथ निश्चित (या यहां तक कि धीरे-धीरे बढ़ रही है के सापेक्ष ))एन एन पी एन(x,y)nnpn
user795305

0

यह उत्तर विशेष रूप से लासो की चिंता करता है (और रिज प्रतिगमन के लिए नहीं है।)

सेट अप

मान लीजिए कि हमारे पास covariates है जिसका उपयोग हम एक प्रतिक्रिया मॉडल के लिए कर रहे हैं। मान लीजिए कि हमारे पास प्रशिक्षण डेटा बिंदु और सत्यापन डेटा बिंदु हैं।एन एमpnm

बता दें कि प्रशिक्षण इनपुट और प्रतिक्रिया होना । हम इस प्रशिक्षण डेटा पर लैस्सो का उपयोग करेंगे। यानी, प्रशिक्षण डेटा से अनुमानित गुणांक का एक परिवार। हम इनपुट और प्रतिक्रिया साथ एक सत्यापन सेट पर अपनी त्रुटि के आधार पर हमारे अनुमानक के रूप में उपयोग करने के लिए कौन सा । With y ( 1 ) आर एन बीटा λ = आर्ग मिनट बीटा आर पीy ( 1 ) - एक्स ( 1 ) बीटा 2 2 + λ बीटा 1 , बीटा λ एक्स ( 2 ) आर मीटर × पी y ( आर एमX(1)Rn×py(1)Rn

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm
(2)λ^=argminλR+y(2)X(2)β^λ22,
हम अध्ययन कर त्रुटि समारोह में रुचि रखने वाले कर रहे हैं जो हमारे डेटा के आधार पर आकलनकर्ता को जन्म देता है ।e(λ)=y(2)X(2)β^λ22β^λ^

हिसाब

अब, हम समीकरण में उद्देश्य के दूसरे व्युत्पन्न की गणना करेंगे , बिना के या किसी भी वितरण संबंधी अनुमान लगाए बिना । विभेदीकरण और कुछ पुनर्गठन का उपयोग करते हुए, हम (औपचारिक रूप से) उस गणना (2)Xy

2λ2y(2)X(2)β^λ22=λ{2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=2{(y(2)X(2)β^λ)T2λ2β^λX(2)λβ^λ22}.
चूँकि लिए टुकड़ा-रेखीय रैखिक है ( लिए lasso समाधान पथ में समुद्री मील का परिमित सेट), इसलिए व्युत्पन्न स्थिर है और सभी लिए शून्य है । इसलिए, का एक गैर-नकारात्मक कार्य ।β^λλKKλβ^λ2λ2β^λλK
2λ2y(2)X(2)β^λ22=2X(2)λβ^λ22,
λ

निष्कर्ष

यदि हम यह मान लें कि को कुछ निरंतर वितरण से अलग किया गया है जो , वेक्टर लगभग निश्चित रूप से । इसलिए, एरर फंक्शन में पर दूसरा व्युत्पन्न है, जो कि (लगभग निश्चित रूप से) सख्ती से सकारात्मक है। हालाँकि, यह जानते हुए भी कि निरंतर है, हम जानते हैं कि सत्यापन त्रुटि निरंतर है।X(2){X(1),y(1)}X(2)λβ^λ0λ<λmaxe(λ)RKβ^λe(λ)

अंत में, लैसो दोहरी से, हम जानते हैं कि के रूप में होगा- कम हो जाती है बढ़ जाती है। यदि हम उस को भी मोनोटोनिक स्थापित कर सकते हैं, तो की मजबूत उत्तलता इस प्रकार है। हालाँकि, यह कुछ संभाव्यता के साथ होता है, यदि । (मैं जल्द ही यहां विवरण भर दूंगा।) λ एक्स ( 2 ) बीटाX(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))


1
आप केवल पर भरोसा करते हैं और निष्कर्ष निकालने के लिए का एक निरंतर टुकड़ा-रेखीय रैखिक कार्य किया जा रहा है, जिससे कि सख्ती से उत्तल हो जाता है। आइए देखें कि क्या यह कटौती आम तौर पर मान्य है। ऐसा ही एक कार्य है(जहां निकटतम पूर्णांक के लिए गोलाई को दर्शाता है)। मान लीजिये और , ताकि । इस त्रुटि फ़ंक्शन में असीम रूप से कई स्थानीय मिनीमा हैं। यह उत्तल नहीं है - यह केवल पृथक बिंदुओं को छोड़कर हर जगह उत्तल है! इससे मुझे विश्वास होता है कि आप अतिरिक्त अस्थिर धारणा बना रहे हैं। λ बीटा (λ)=| λ-[λ]| []Y(2)=0एक्स(2)=1 (λ)= β (λ)2β^λe^β^(λ)=|λ[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2
व्हीबर

@ शुभंकर अच्छा बिंदु! धन्यवाद! मैं इस पोस्ट को जल्द ही संपादित करूंगा।
user795305
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.