प्रतिगमन में रिज नियमितीकरण की व्याख्या


25

मेरे पास कम से कम वर्गों के संदर्भ में रिज दंड के बारे में कई प्रश्न हैं:

βridge=(λID+XX)1Xy

1) अभिव्यक्ति से पता चलता है कि X का सहसंयोजक मैट्रिक्स एक विकर्ण मैट्रिक्स की ओर सिकुड़ा हुआ है, जिसका अर्थ है कि (यह मानते हुए कि चर प्रक्रिया से पहले मानकीकृत हैं) इनपुट चर के बीच सहसंबंध कम हो जाएगा। क्या यह व्याख्या सही है?

2) यदि यह एक संकोचन आवेदन क्यों नहीं की तर्ज में तैयार किया जाता है (λID+(1λ)XX) यह सोचते हैं कि हम किसी भी तरह एक सामान्य के साथ [0,1] श्रृंखला के लिए लैम्ब्डा सीमित कर सकते हैं,।

3) लिए एक सामान्यीकरण क्या हो सकता है λताकि इसे [0,1] जैसी मानक सीमा तक सीमित रखा जा सके।

4) विकर्ण में एक स्थिरांक जोड़ने से सभी स्वदेशी प्रभावित होंगे। क्या केवल एकवचन या निकटवर्ती मूल्यों पर हमला करना बेहतर होगा? क्या यह पीसीए को एक्स पर लागू करने और प्रतिगमन से पहले शीर्ष-एन प्रमुख घटकों को बनाए रखने के बराबर है या इसका एक अलग नाम है (क्योंकि यह क्रॉस कोवरियन गणना को संशोधित नहीं करता है)?

5) हम पार सहप्रसरण को नियमित कर सकते हैं, या यह किसी भी उपयोग होता है, जिसका अर्थ है

βridge=(λID+XX)1(γXy)

जहां एक छोटे γ पार सहप्रसरण कम करेगा। जाहिर है इस कम हो सब β समान रूप से है, लेकिन शायद कठिन / नरम थ्रेशोल्डिंग सहप्रसरण मूल्य के आधार पर की तरह एक समझदारी भरा तरीका है।


iirc रिज की सजा एक प्रतिबंध यह है कि से आता है , एमएसई उद्देश्य समारोह पर एक Lagrange गुणक के माध्यम से। LASSO वही है लेकिन साथ है | β | बजाय। मैं अपने फोन पर हूँ इसलिए मैं इस समय आसानी से एक व्युत्पत्ति पोस्ट नहीं कर सकता। लेकिन ये महान प्रश्न हैंβ2T|β|
छायाकार

जवाबों:


19

अच्छा सवाल!

  1. हां, यह बिल्कुल सही है। आप मल्टीकोलिनरिटी समस्या से निपटने के लिए रिज पेनल्टी को एक संभावित तरीके के रूप में देख सकते हैं जो कई भविष्यवाणियों के अत्यधिक सहसंबद्ध होने पर उत्पन्न होता है। रिज दंड का परिचय इन सहसंबंधों को प्रभावी ढंग से कम करता है।

  2. मुझे लगता है कि यह आंशिक रूप से परंपरा, आंशिक रूप से तथ्य यह है रिज प्रतिगमन सूत्र के रूप में अपने पहले समीकरण में कहा गया है निम्न लागत समारोह से अनुपालन करती है: यदि λ = 0 , दूसरा कार्यकाल गिराया जा सकता है, और पहले कार्यकाल ("पुनर्निर्माण त्रुटि") को कम करके β के लिए मानक OLS सूत्र की ओर जाता है । सूत्र के दूसरे कार्यकाल के सुराग रखते हुए के लिए β r मैं जी

    L=yXβ2+λβ2.
    λ=0ββridge। इस लागत समारोह से निपटने के लिए गणितीय रूप से बहुत सुविधाजनक है, और यह "गैर-सामान्यीकृत" नंबा को पसंद करने के कारणों में से एक हो सकता है।
  3. सामान्य करने के लिए एक संभव तरीका कुल अन्तर से यह पैमाने पर करने के है टी आर ( एक्सएक्स ) , यानी उपयोग करने के लिए λ टी आर ( एक्सएक्स ) के बजाय λ । यह आवश्यक रूप से λ को [ 0 , 1 ] तक सीमित नहीं करेगा , लेकिन इसे "आयामहीन" बना देगा और संभवत: इष्टतम λ के कम होने के परिणामस्वरूप सभी व्यावहारिक मामलों में 1 होगा (NB: यह सिर्फ एक अनुमान है!)।λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "केवल छोटे eigenvalues ​​पर हमला" का एक अलग नाम है और इसे प्रमुख घटक प्रतिगमन कहा जाता है। पीसीआर और रिज रिग्रेशन के बीच संबंध यह है कि पीसीआर में आपको प्रभावी रूप से एक निश्चित संख्या के बाद सभी eigenvalues ​​को काटने के लिए "स्टेप पेनल्टी" होती है, जबकि रिज रिग्रेशन "सॉफ्ट पेनल्टी" को लागू करता है, सभी eigenvalues ​​को दंडित करता है, जिसमें छोटे लोग अधिक दंडित होते हैं। यह अच्छी तरह से Hastie एट अल द्वारा सांख्यिकीय सीखना के तत्वों में समझाया गया है । (स्वतंत्र रूप से ऑनलाइन उपलब्ध), खंड 3.4.1। रिज प्रतिगमन और पीसीए प्रतिगमन के बीच संबंध में मेरा उत्तर भी देखें ।

  5. मैंने यह किया कभी नहीं देखा है, लेकिन ध्यान दें कि आप के रूप में एक लागत समारोह पर विचार कर सकते यह आपके shr को शून्य नहीं, बल्कि कुछ अन्य पूर्व-परिभाषित मान This 0 से सिकोड़ता है । गणित बाहर एक काम करता है, तो आप इष्टतम करने के लिए आ जाएगा, तो β द्वारा दिए गए β = ( एक्सएक्स + λ मैं ) - 1 ( एक्सy +

    L=yXβ2+λββ02.
    ββ0β जो शायद "क्रॉस-सहप्रसरण को नियमित करने" के रूप में देखा जा सकता है?
    β=(XX+λI)1(Xy+λβ0),

1
तुम क्यों जोड़ने समझा सकते हैं करने के लिए एक्स ' एक्स का मतलब है कि की सहप्रसरण मैट्रिक्स एक्स एक विकर्ण मैट्रिक्स की ओर सिकुड़ रहा है? यह एक विशुद्ध रूप से रैखिक बीजगणित प्रश्न है जो मुझे लगता है। λIDXXX
हेइज़ेनबर्ग

3
@Heisenberg, ठीक है, की सहप्रसरण मैट्रिक्स है एक्स (एक करने के लिए 1 / एन स्केलिंग कारक)। कम्प्यूटिंग β इस मैट्रिक्स सहप्रसरण की आवश्यकता है। रिज प्रतिगमन में, हम की विपरीत एक्स एक्स + λ मैं बजाय, इसलिए एक देख सकते हैं एक्स एक्स + λ मैं सहप्रसरण मैट्रिक्स की एक नियमित आकलन के रूप में। अब शब्द λ I विकर्ण पर λ के साथ एक विकर्ण मैट्रिक्स है । कल्पना कीजिए कि λ बहुत बड़ा है; तब योग विकर्ण शब्द λ द्वारा वर्चस्व हैXXX1/NβXX+λIXX+λIλIλλ और इसलिए नियमित रूप से सहसंयोजक अधिक से अधिक विकर्ण हो जाता है क्योंकि λ बढ़ता है। λIλ
अमीबा का कहना है कि मोनिका

wrt Q5, सांख्यिकीय लर्निंग के तत्व छवि प्रसंस्करण अनुप्रयोगों के लिए चिकनाई की कमी को देखते हैं (पीडीए - पृष्ठ 447)
seanv507

10

प्रश्न 4 पर एक और टिप्पणी। वास्तव में, रिज रिग्रेशन के छोटे eigenvalues ​​के साथ बहुत प्रभावी ढंग से व्यवहार करता है, जबकि ज्यादातर बड़े eigenvalues ​​को अकेला छोड़ देता है। XTX

इसे देखने के लिए , के विलक्षण मूल्य अपघटन के संदर्भ में रिज प्रतिगमन अनुमानक को व्यक्त करें , X

X=i=1nσiuiviT

जहां वैक्टर आपस में ओर्थोगोनल कर रहे हैं और वी मैं वैक्टर भी आपस में ओर्थोगोनल हैं। यहाँ की eigenvalues एक्स टी एक्स हैं σ 2uiviXTX ,मैं=1,2,...,एनσi2i=1,2,,n

तब आप यह दिखा सकते हैं

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

अब, "फिल्टर कारकों" पर विचार । यदि λ = 0 है , तो फ़िल्टर कारक 1 हैं, और हमें पारंपरिक न्यूनतम वर्ग समाधान मिलता है। यदि λ > 0 और σ 2 मैं » λ करके फ़िल्टर कारक अनिवार्य रूप से 1. अगर है σ 2 मैं « λ , तो इस पहलू को अनिवार्य रूप से, है 0. इस प्रकार शर्तों छोटे eigenvalues के लिए इसी को प्रभावी ढंग से ही अपनी पढ़ाई छोड़ जबकि जो करने के लिए इसी बड़े स्वदेशी को बरकरार रखा जाता है। σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

तुलनात्मक रूप से, प्रमुख घटक प्रतिगमन केवल इस सूत्र में 1 (बड़े इगेनावल के लिए) या 0 (छोटे ईजेनवल के लिए गिराए गए) के कारकों का उपयोग करता है।


1
यह वही है जो मैंने संक्षेप में अपने उत्तर में संदर्भित किया है, लेकिन इसे विस्तृत और गणितीय रूप से प्रदर्शित करना बहुत अच्छा है, +1।
अमीबा का कहना है कि मोनिका

5

XX

λx+y=κ(αx+(1α)y),
with α=λ1+λ and κ=1+λ. If 0λ<+, it immediately follows that 0<α1.

The technique you describe as "attack[ing] only the singular or near singular values" is also known as Singular Spectrum Analysis (for the purpose of linear regression) (see Eq. 19), if by "attacking", you mean "removing". The cross-covariance is unchanged.

Removing low singular values is also done by Principal Component Regression. In PCR, a PCA is performed on X and a linear regression is applied on a selection of the obtained components. The difference with SSA is that it has an impact on the cross-covariance.


Thank you. In PCR covariance with y is calculated after the reduction of dimension is performed, no? Is that the difference between PCR and SSA? Your gamma (not mine), how do you select that so alpha will be [0,1] bounded?
Cagdas Ozgenc

1
Sorry about this confusing γ, I'm replacing it by a κ.
Vincent Guillemot

I think you are correct about the difference between SSA and PCR, we should write it down to be sure, though.
Vincent Guillemot
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.