रिज प्रतिगमन में "मैट्रिक्स व्युत्क्रम की संख्यात्मक स्थिरता" के लिए स्पष्ट व्याख्या और ओवरफिट को कम करने में इसकी भूमिका


10

मैं समझता हूं कि हम कम से कम वर्गों के प्रतिगमन समस्या में नियमितीकरण को नियोजित कर सकते हैं

w=argminw[(yXw)T(yXw)+λw2]

और इस समस्या का एक बंद-रूप समाधान है:

w^=(XTX+λI)1XTy.

हम देखते हैं कि 2 समीकरण में, नियमितीकरण बस λ को \ boldsymbol {X} ^ T \ boldsymbol {X} के विकर्ण में जोड़ रहा है XTX, जो मैट्रिक्स व्युत्क्रम की संख्यात्मक स्थिरता में सुधार करने के लिए किया जाता है।

संख्यात्मक स्थिरता के बारे में मेरी वर्तमान 'क्रूड' समझ यह है कि अगर कोई फ़ंक्शन अधिक 'संख्यात्मक रूप से स्थिर' हो जाता है, तो इसके इनपुट में शोर से इसका उत्पादन काफी कम प्रभावित होगा। मैं इस समस्या से बेहतर संख्यात्मक स्थिरता की इस अवधारणा से संबंधित कठिनाइयों का सामना कर रहा हूं कि यह ओवरफिटिंग की समस्या को कैसे टालती / कम करती है।

मैंने विकिपीडिया और कुछ अन्य विश्वविद्यालय वेबसाइटों को देखने की कोशिश की है , लेकिन वे यह बताने में गहराई में नहीं जाते कि ऐसा क्यों है।


रिज रिग्रेशन का ख्याल आता है। लिंक
EngrStudent

1
आपको इस बात पर कुछ मूल्य मिल सकता है कि (बीजगणितीय के बजाय ज्यादातर वर्णनात्मक / सहज) चर्चा क्यों रिज का अनुमान विकर्ण में एक निरंतर जोड़कर ओएलएस से बेहतर हो जाता है?
Glen_b -Reinstate मोनिका

जवाबों:


2

रैखिक मॉडल , शून्य और के बीच पूर्ण स्तंभ रैंक वाली असंबंधित त्रुटियां मानते हुए , न्यूनतम वर्ग अनुमानक पैरामीटर के लिए एक असंबद्ध अनुमानक है। । हालांकि, इस अनुमानक में उच्च विचरण हो सकता है। उदाहरण के लिए, जब दो स्तंभ अत्यधिक सहसंबद्ध हैं।Y=Xβ+ϵX(XTX)1XTYβX

पेनल्टी पैरामीटर एक बायस्ड एसेलेटर ऑफ बनाता है , लेकिन यह इसके विचरण को कम करता है। इसके अलावा, के पीछे उम्मीद है एक के साथ एक बायेसियन प्रतिगमन में पर पहले । उस अर्थ में, हम कुछ जानकारी को विश्लेषण में शामिल करते हैं जो कहते हैं कि के घटक शून्य से बहुत दूर नहीं होने चाहिए। फिर से, यह हमें एक बायस्ड बिंदु अनुमान की ओर ले जाता है लेकिन अनुमान के विचलन को कम करता है।λw^βw^βN(0,1λI)βββ

एक सेटिंग में जहां उच्च आयामी, कहो , सबसे कम वर्ग फिट डेटा से लगभग पूरी तरह से मेल खाएगा। हालांकि निष्पक्ष, यह अनुमान डेटा में उतार-चढ़ाव के प्रति अत्यधिक संवेदनशील होगा क्योंकि इस तरह के उच्च आयामों में, उच्च उत्तोलन के साथ कई बिंदु होंगे। ऐसी स्थितियों में के कुछ घटकों का संकेत एकल अवलोकन द्वारा निर्धारित किया जा सकता है। जुर्माना अवधि में इन अनुमानों को शून्य की ओर सिकोड़ने का प्रभाव होता है, जो विचरण को कम करके अनुमानक के MSE को कम कर सकता है।XNpβ^

संपादित करें: अपनी प्रारंभिक प्रतिक्रिया में मैंने एक प्रासंगिक पेपर का लिंक प्रदान किया और जल्दबाजी में मैंने इसे हटा दिया। यहाँ यह है: http://www.jarad.me/stat615/papers/Ridge_Regression_in_P प्रैक्टिस।


1
अपने वर्तमान रूप में यह वास्तव में एक टिप्पणी के अधिक है; क्या आपको लगता है कि आप इसे एक ठोस जवाब दे सकते हैं?
सिल्वरफिश

पी के नीचे। पी के 5 सही / शीर्ष। 6 बाएं, चित्र 3 से संबंधित है, इस पोस्ट में पूछे गए प्रश्न के लिए मुख्य चर्चा है।
मार्क एल। स्टोन

यह सब सही है, लेकिन मुझे यकीन नहीं है कि यह ओपी के सवाल का जवाब देता है।
अमीबा

अमीबा, मेरी टिप्पणी ऊपर देखें, जो उस लिंक को संदर्भित करता है जिसे बाद में एरिक मित्तमन के उत्तर, jarad.me/stat615/papers/Ridge_Regression_in_P अभ्यास .pdf से संपादित किया गया है ।
मार्क एल। स्टोन

1

संख्यात्मक स्थिरता और ओवरफिटिंग कुछ अर्थों में अलग-अलग लेकिन अलग-अलग मुद्दों पर हैं।

क्लासिक OLS समस्या:

क्लासिक कम से कम वर्गों की समस्या पर विचार करें:

minimize(over b)(yXb)T(yXb)

समाधान क्लासिक । एक विचार यह है कि बड़ी संख्या के कानून द्वारा:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

इसलिए ओएलएस अनुमान भी । (रैखिक बीजगणित शब्दों में, यह यादृच्छिक चर के रैखिक काल पर यादृच्छिक चर का रैखिक प्रक्षेपण है ।)b^E[xx]1E[xy]yx1,x2,,xk

समस्या?

यंत्रवत्, क्या गलत हो सकता है? संभावित समस्याएं क्या हैं?

  1. छोटे नमूनों के लिए, हमारा नमूना और खराब होने का अनुमान लगा सकता है।E[xx]E[xy]
  2. यदि कॉलम समतुल्य हैं (या तो अंतर्निहित संपुटितता या छोटे नमूने के आकार के कारण), तो समस्या का समाधान जारी रहेगा! समाधान अद्वितीय नहीं हो सकता है। X
    • यह तब होता है जब रैंक की कमी होती है।E[xx]
    • यह तब भी होता है यदि मुद्दों की संख्या के सापेक्ष छोटे नमूने के आकार के कारण रैंक की कमी है।XX

समस्या (1) के कारण ओवरफिटिंग हो सकती है क्योंकि अनुमान नमूने में पैटर्न को प्रतिबिंबित करना शुरू कर देता है जो कि अंतर्निहित आबादी में नहीं हैं। अनुमान और में पैटर्न को प्रतिबिंबित कर सकता है जो वास्तव में में मौजूद नहीं है औरb^1nXX1nXyE[xx]E[xy]

समस्या (2) का अर्थ है एक समाधान अद्वितीय नहीं है। कल्पना कीजिए कि हम व्यक्तिगत जूतों की कीमत का अनुमान लगाने की कोशिश कर रहे हैं, लेकिन जूतों के जोड़े हमेशा एक साथ बिकते हैं। यह एक बीमार समस्या है, लेकिन मान लीजिए कि हम इसे वैसे भी कर रहे हैं। हम विश्वास कर सकते हैं कि बाएं जूते की कीमत और सही जूते की कीमत $ 50 के बराबर है , लेकिन हम व्यक्तिगत कीमतों के साथ कैसे आ सकते हैं? क्या बाएं जूते की कीमत और दाएं जूते की कीमत ठीक है? हम सभी संभावनाओं से कैसे चुन सकते हैं?pl=45pr=5

पेश है जुर्माना:L2

अब विचार करें:

minimize(over b)(yXb)T(yXb)+λb2

इससे हमें दोनों प्रकार की समस्याओं में मदद मिल सकती है। दंड का हमारा अनुमान धक्का शून्य की ओर। यह एक बायेसियन के रूप में प्रभावी रूप से पहले कार्य करता है कि गुणांक मानों पर वितरण आसपास केंद्रित है । जो ओवरफिटिंग में मदद करता है। हमारा अनुमान डेटा और हमारी प्रारंभिक मान्यताओं दोनों को प्रतिबिंबित करेगा कि शून्य के पास है।L2b0b

L2 नियमितीकरण भी हमें हमेशा बीमार समस्याओं के लिए एक अनूठा समाधान खोजने के लिए। यदि हम बाएं और दाएं जूते की कीमत कुल जानते हैं , तो मान को न्यूनतम करने समाधान ।$50L2pl=pr=25

क्या यह जादू है? नियमितीकरण डेटा जोड़ने के समान नहीं है जो वास्तव में हमें सवाल का जवाब देने की अनुमति देगा। कुछ अर्थों में नियमितीकरण इस दृष्टिकोण को अपनाता है कि यदि आपके पास डेटा की कमी है, तो अनुमानों को करीब चुनें ।L20

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.