आंशिक कम से कम वर्गों, कम रैंक प्रतिगमन, और प्रमुख घटक प्रतिगमन के बीच क्या संबंध है?


16

क्या कम रैंक प्रतिगमन और प्रमुख घटक प्रतिगमन आंशिक कम से कम वर्गों के विशेष मामले हैं?

यह ट्यूटोरियल (पृष्ठ 6, "उद्देश्यों की तुलना") कहता है कि जब हम एक्स या वाई (यानी, "आंशिक नहीं") को प्रोजेक्ट किए बिना आंशिक रूप से कम से कम वर्ग करते हैं, तो यह रैंक रिग्रेशन या प्रिंसिपल कंपोनेंट रिग्रेशन को कम कर देता है।

इसी तरह का एक बयान इस एसएएस डॉक्यूमेंटेशन पेज , सेक्शन "रिडक्टेड रैंक रिग्रेशन" और "मेथड्स के बीच रिलेशनशिप" पर किया गया है।

एक अधिक मौलिक अनुवर्ती प्रश्न यह है कि क्या उनके समान अंतर्निहित संभाव्य मॉडल हैं।


यह वास्तव में एक महत्वपूर्ण समस्या है।
स्टीव

@Steve। धन्यवाद। अधिक विस्तृत परिचय के लिए मेरी टिप्पणियों को ऊपर देखें।
मिनकोव

जवाबों:


15

ये तीन अलग-अलग तरीके हैं, और उनमें से किसी को भी दूसरे के विशेष मामले के रूप में नहीं देखा जा सकता है।

औपचारिक रूप से, अगर और वाई केंद्रित कर रहे हैं भविष्यवक्ता ( n × पी ) और प्रतिक्रिया ( n × क्ष ) डेटासेट और अगर हम कुल्हाड़ियों की पहली जोड़ी के लिए देखो, डब्ल्यूआर पी के लिए एक्स और वीआर क्ष के लिए YXYn×pn×qwRpXvRqY तो, इन तरीकों निम्नलिखित मात्रा को अधिकतम करें:

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

(मैंने इस सूची में विहित सहसंबंध विश्लेषण (CCA) जोड़ा है।)


मुझे संदेह है कि भ्रम हो सकता है क्योंकि एसएएस में सभी तीन तरीकों को PROC PLSअलग-अलग मापदंडों के साथ एक ही फ़ंक्शन के माध्यम से लागू किया जाता है । तो यह लग सकता है कि सभी तीन विधियां PLS के विशेष मामले हैं क्योंकि एसएएस फ़ंक्शन का नाम कैसे दिया गया है। हालांकि, यह सिर्फ एक दुर्भाग्यपूर्ण नामकरण है। वास्तव में, पीएलएस, आरआरआर और पीसीआर तीन अलग-अलग विधियां हैं जो एसएएस को केवल एक फ़ंक्शन में लागू करने के लिए होती हैं जो किसी कारण से कहा जाता है PLS

आपके द्वारा लिंक किए गए दोनों ट्यूटोरियल वास्तव में उसके बारे में बहुत स्पष्ट हैं। प्रस्तुति ट्यूटोरियल का पेज 6 सभी तीन तरीकों के उद्देश्यों को बताता है और करता है नहीं कहता कि पीएलएस "आरआरआर या पीसीआर बन जाता है, जो आपके प्रश्न में दावा किया गया है। इसी तरह, एसएएस प्रलेखन बताता है कि तीन तरीके अलग-अलग हैं, सूत्र और अंतर्ज्ञान दे रहे हैं:

[P] रिनिपल घटक रिग्रेशन उन कारकों का चयन करता है जो जितना संभव हो उतने अधिक प्रीडेटर भिन्नता समझाते हैं, कम रैंक रिग्रेशन उन कारकों का चयन करते हैं जो जितना संभव हो उतने अधिक प्रतिक्रिया भिन्नता की व्याख्या करते हैं, और आंशिक रूप से कम से कम दो उद्देश्यों को संतुलित करते हैं, उन दोनों कारकों की तलाश करते हैं जो प्रतिक्रिया और पूर्वसूचक दोनों प्रकारों की व्याख्या करते हैं ।

एसएएस दस्तावेज़ीकरण में एक आंकड़ा भी है जो एक अच्छा खिलौना उदाहरण दिखा रहा है जहां तीन तरीके अलग-अलग समाधान देते हैं। इस खिलौना उदाहरण में दो भविष्यवक्ता और x 2 और एक प्रतिक्रिया चर y हैं । में दिशा एक्स है कि ज्यादातर के साथ जोड़ा जाता y में अधिक से अधिक विचरण की दिशा के लिए ओर्थोगोनल होने वाला एक्स । इसलिए PC1 पहले RRR अक्ष के लिए ऑर्थोगोनल है, और PLS अक्ष कहीं बीच में है।x1x2yXyX

पीसीआर, पीएलएस, आरआरआर

रिज कम-रैंक रिग्रेशन या RRRR प्राप्त करने वाले RRR लॉस्ट फंक्शन में रिज पेनल्टी जोड़ सकते हैं। यह पीसी 1 दिशा की ओर प्रतिगमन अक्ष को खींच लेगा, जो पीएलएस के समान है। हालांकि, आरआरआरआर के लिए लागत फ़ंक्शन को पीएलएस फॉर्म में नहीं लिखा जा सकता है, इसलिए वे अलग-अलग रहते हैं।

y


4
अंत में तालिका बहुत मददगार है। उस तालिका के आधार पर, कोई व्यक्ति पीसीए, आरआरआर और सीसीए को पीएलएस के "विशेष मामले" के रूप में मान सकता है यदि आप यह भी सोचते हैं कि साइकिल और यूनीसाइकिल ट्राइसाइकिल के विशेष मामले हैं। मैं ऐसा नहीं सोचता।
EdM

2
@ ईडीएम, मुझे लगता है कि कोई यह कह सकता है कि ये सभी विधियाँ कुछ एकीकरण विधि के विशेष मामले हैं जिनका वास्तव में नाम नहीं है (लेकिन कोई भी इसका आविष्कार कर सकता है!)। लेकिन "पीएलएस" नाम का पहले से ही एक स्थापित अर्थ है और इस अर्थ में इनमें से कोई अन्य तकनीक शामिल नहीं है।
अमीबा का कहना है कि मोनिका

1
और धन्यवाद! मैंने अब जवाब की शुरुआत करने के लिए तालिका को स्थानांतरित करने का फैसला किया :)
अमीबा का कहना है कि मोनिका

2
XYVar(Xw)αCorr(Xw,Yv)βVar(Yv)γ और विभिन्न के लिए विभिन्न तरीकों मिल अल्फा, बीटा और गामा के मूल्य। हालांकि यह बहुत उपयोगी है मत सोचो।
अमीबा का कहना है कि मोनिका

1
@Moskowitz: सामान्य तौर पर, जब लोग विधि ए के बारे में बात करते हैं, तो विधि बी का एक "विशेष मामला" होता है, उनका मतलब है कि बी अधिक सामान्य है और ए कुछ विशिष्ट मापदंडों के साथ बी के बराबर है। उनका मतलब यह नहीं है कि A, डेटासेट पर कुछ विशेष शर्तों के तहत B के समान परिणाम देता है। इसलिए आपके प्रश्न का मेरा उत्तर है।
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.