1. रैंक-कम प्रतिगमन (RRR) क्या है?
मल्टी स्वतंत्र रैखिक प्रतिगमन, स्वतंत्र चर और निर्भर चर के साथ प्रतिगमन पर विचार करें । Let और को केंद्रित भविष्यवक्ता ( ) और response ( ) डेटासेट कहा जाता है। फिर सामान्य सामान्य वर्ग (OLS) प्रतिगमन को निम्न लागत फ़ंक्शन को न्यूनतम करने के रूप में तैयार किया जा सकता है:q X Y n × p n × qपीक्षएक्सYएन × पीn × q
एल = ∥ वाई - एक्स बी ∥2,
जहां एक है प्रतिगमन वजन के मैट्रिक्स। इसका समाधान और यह आसान है देखें कि यह अलग OLS प्रतिगमन करने के बराबर है , प्रत्येक आश्रित चर के लिए एक। पी × क्ष बी ओ एल एस = ( एक्स ⊤ एक्स ) - 1 एक्स ⊤ Y , क्षबीपी × क्यू
बी^ओ एल एस= ( एक्स)⊤एक्स )- 1एक्स⊤Y ,
क्ष
कम-रैंक प्रतिगमन पर एक रैंक बाधा का परिचय देता है , अर्थात् को साथ कम से कम किया जाना चाहिए , जहाँ अधिकतम संख्या का । एल रैंक ( बी ) ≤ आर आर बीबीएलश्रेणी( बी ) ≤ आरआरबी
2. आरआरआर समाधान कैसे प्राप्त करें?
यह पता चला है कि RRR को एक eigenvector समस्या के रूप में डाला जा सकता है। वास्तव में, इस तथ्य का उपयोग करते हुए कि OLS अनिवार्य रूप से के कॉलम स्पेस पर ऑर्थोगोनल प्रोजेक्शन है , हम को रूप में पुनः लिख सकते हैंपहला शब्द पर निर्भर नहीं करता है और दूसरा शब्द फिट किए गए मानों के SVD / PCA द्वारा घटाया जा सकता है । एल एल = ‖ वाई - एक्स बी ओ एल एस ‖ 2 + ‖ एक्स बी ओ एल एस - एक्स बी ‖ 2 । बी वाई = एक्स बी ओ एल एसएक्सएल
ल = ∥ वाई - एक्स बी^ओ एल एस∥2+ ∥ एक्स बी^ओ एल एस- एक्स बी ∥2।
बीY^= एक्स बी^ओ एल एस
विशेष रूप से, अगर पहले स्थान पर है के प्रमुख कुल्हाड़ियों , तो आर वाई बी आर आर आर = बी ओ एल एस यू आर यू ⊤ आर ।यूआरआरY^
बी^आर आर आर= बी^ओ एल एसयूआरयू⊤आर।
3. RRR किसके लिए अच्छा है?
आरआरआर का उपयोग करने के दो कारण हो सकते हैं।
सबसे पहले, एक नियमितीकरण के प्रयोजनों के लिए इसका उपयोग कर सकता है। इसी प्रकार रिज रिग्रेशन (आरआर), लासो, आदि के लिए, आरआरआर ने पर कुछ "संकोचन" दंड का परिचय दिया । इष्टतम रैंक को क्रॉस-सत्यापन के माध्यम से पाया जा सकता है। मेरे अनुभव में, आरआरआर आसानी से ओएलएस को बेहतर बनाता है लेकिन आरआर से हार जाता है। हालांकि, आरआरआर + आरआर अकेले आरआर से बेहतर (थोड़ा) प्रदर्शन कर सकते हैं। रबीआर
दूसरा, कोई इसे एक आयामी कमी / डेटा अन्वेषण विधि के रूप में उपयोग कर सकता है। यदि हमारे पास भविष्यवक्ता चर का एक समूह और आश्रित चर का एक गुच्छा है, तो RRR भविष्य कहनेवाला अंतरिक्ष में "अव्यक्त कारक" का निर्माण करेगा जो डीवीएस के विचरण को समझाने का सबसे अच्छा काम करते हैं। एक तो इन अव्यक्त कारकों की व्याख्या करने की कोशिश कर सकता है, उन्हें प्लॉट कर सकता है, आदि जहां तक मुझे पता है, यह नियमित रूप से पारिस्थितिकी में किया जाता है जहां आरआरआर को अतिरेक विश्लेषण के रूप में जाना जाता है और वे उदाहरण के तौर पर समन्वय विधियों को कहते हैं ( देखें @ GavidSimpson का उत्तर) )।
4. अन्य आयामी कमी के तरीकों से संबंध
RRR, CCA और PLS जैसे अन्य आयामी कमी विधियों से निकटता से जुड़ा हुआ है। मैंने इसे अपने उत्तर में थोड़ा सा कवर किया कि आंशिक कम से कम वर्गों, रैंक रिग्रेशन और प्रिंसिपल कंपोनेंट रिग्रेशन में क्या संबंध है?
यदि और भविष्यवक्ता केंद्रित कर रहे हैं ( और) प्रतिक्रिया ( ) डेटासेट और अगर हम कुल्हाड़ियों की पहली जोड़ी, देखने के लिए के लिए और for , तो ये विधियाँ निम्न मात्राओं को अधिकतम करती हैं:एक्सYएन × पीn × qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
कुछ और जानकारी के लिए वहाँ देखें।
देखें टोरे, 2009, एक घटक विश्लेषण के लिए कम से कम-वर्गों फ्रेमवर्क कैसे मल्टीवेरिएट तरीकों रैखिक आम के सबसे (जैसे पीसीए, सीसीए, झील प्राधिकरण, - लेकिन नहीं PLS) का एक विस्तृत उपचार के लिए RRR के रूप में देखा जा सकता है।
5. हस्ती एट अल में यह खंड क्यों है। इतना अधिक भ्रामक?
हस्ती एट अल। RRR शब्द का उपयोग थोड़ी अलग बात के लिए करें! नुकसान फ़ंक्शन का उपयोग करने के बजाय वे जैसा कि उनके सूत्र 3.68 में देखा जा सकता है। यह हानि फ़ंक्शन में एक -whitening फैक्टर का परिचय देता है , जो अनिवार्य रूप से आश्रित चर को सफेद करता है। यदि आप ऊपर CCA और RRR के बीच तुलना को देखते हैं, तो आप देखेंगे कि अगर को सफेद किया जाता है तो अंतर गायब हो जाता है। तो क्या हस्ती एट अल। कॉल RRR वास्तव में भेस में CCA है (और वास्तव में, उनके 3.69 देखें)।एल = ‖ ( वाई - एक्स बी ) ( वाई ⊤ Y ) - 1 / 2 ‖ 2 , वाई वाई
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY
इस खंड में किसी को भी ठीक से नहीं समझाया गया है, इसलिए भ्रम है।
फ्रेंडली ट्यूटोरियल के बारे में मेरा उत्तर देखें या आगे पढ़ने के लिए कम रैंक रिग्रेशन का परिचय दें ।