सभी के बारे में "कम-रैंक प्रतिगमन" क्या है?


22

मैं द स्टैटिस्टिकल ऑफ स्टैटिस्टिकल लर्निंग पढ़ रहा हूं और मुझे समझ नहीं आ रहा है कि धारा 3.7 "मल्टीपल रिजल्ट सिकुड़न और सिलेक्शन" क्या है। यह आरआरआर (कम-रैंक प्रतिगमन) के बारे में बात करता है, और मैं केवल यह समझ सकता हूं कि आधार एक सामान्यीकृत बहुभिन्नरूपी रैखिक मॉडल के बारे में है जहां गुणांक अज्ञात हैं (और अनुमान लगाया जाना है) लेकिन पूर्ण रैंक नहीं होने के लिए जाना जाता है। बस यही बात मुझे समझ में आ रही है।

बाकी गणित मेरे से परे है। यह भी मदद नहीं करता है कि लेखक कहते हैं कि 'एक दिखा सकता है' और एक अभ्यास के रूप में चीजों को छोड़ देता है।

क्या कोई कृपया यह समझाने में मदद कर सकता है कि यहाँ क्या हो रहा है, सहज ज्ञान युक्त? क्या यह अध्याय नए तरीकों पर चर्चा कर रहा है? और क्या?


1
ऐसा लगता है कि प्रतिगमन विधियों को देना है जो संकोचन और चर चयन के संदर्भ में बहु परिणाम मॉडल को भुनाने के लिए। एक Y परिणाम नहीं है, लेकिन एक से अधिक Y परिणाम नहीं है। मान लें कि आपके पास 5 वाई परिणाम हैं, तो यह खंड केवल 5 अलग-अलग मॉडल बनाने के बजाय तरीकों के अनुमान को पूल करने के लिए तरीकों पर चर्चा करता है।
spdrnl

1
मेरे कुछ सेंट: निम्न रैंक मैट्रिक्स की धारणा चीजों को सरल बनाती है। सौभाग्य से यह धारणा कई वास्तविक विश्व डेटा स्रोतों के लिए है।
व्लादिस्लाव डोभालगस

1
ऐसा लगता है कि यह धारणा समाधान पर प्रतिबंध होने के बारे में है। इस पत्र में बताया गया है कि स्टेटप्रोबीबेंसी
व्लादिस्लाव डोवगलसेप्स

जवाबों:


42

1. रैंक-कम प्रतिगमन (RRR) क्या है?

मल्टी स्वतंत्र रैखिक प्रतिगमन, स्वतंत्र चर और निर्भर चर के साथ प्रतिगमन पर विचार करें । Let और को केंद्रित भविष्यवक्ता ( ) और response ( ) डेटासेट कहा जाता है। फिर सामान्य सामान्य वर्ग (OLS) प्रतिगमन को निम्न लागत फ़ंक्शन को न्यूनतम करने के रूप में तैयार किया जा सकता है:q X Y n × p n × qpqXYn×pn×q

L=YXB2,

जहां एक है प्रतिगमन वजन के मैट्रिक्स। इसका समाधान और यह आसान है देखें कि यह अलग OLS प्रतिगमन करने के बराबर है , प्रत्येक आश्रित चर के लिए एक। पी × क्ष बीएल एस = ( एक्सएक्स ) - 1 एक्सY , क्षBp×q

B^OLS=(XX)1XY,
q

कम-रैंक प्रतिगमन पर एक रैंक बाधा का परिचय देता है , अर्थात् को साथ कम से कम किया जाना चाहिए , जहाँ अधिकतम संख्या का । एल रैंक ( बी ) आर आर बीBLrank(B)rrB

2. आरआरआर समाधान कैसे प्राप्त करें?

यह पता चला है कि RRR को एक eigenvector समस्या के रूप में डाला जा सकता है। वास्तव में, इस तथ्य का उपयोग करते हुए कि OLS अनिवार्य रूप से के कॉलम स्पेस पर ऑर्थोगोनल प्रोजेक्शन है , हम को रूप में पुनः लिख सकते हैंपहला शब्द पर निर्भर नहीं करता है और दूसरा शब्द फिट किए गए मानों के SVD / PCA द्वारा घटाया जा सकता है । एल एल = वाई - एक्स बीएल एस2 + एक्स बीएल एस - एक्स बी 2बी वाई = एक्स बीएल एसXL

L=YXB^OLS2+XB^OLSXB2.
BY^=XB^OLS

विशेष रूप से, अगर पहले स्थान पर है के प्रमुख कुल्हाड़ियों , तो आर वाई बी आर आर आर = बीएल एस यू आर यू आरUrrY^

B^RRR=B^OLSUrUr.

3. RRR किसके लिए अच्छा है?

आरआरआर का उपयोग करने के दो कारण हो सकते हैं।

सबसे पहले, एक नियमितीकरण के प्रयोजनों के लिए इसका उपयोग कर सकता है। इसी प्रकार रिज रिग्रेशन (आरआर), लासो, आदि के लिए, आरआरआर ने पर कुछ "संकोचन" दंड का परिचय दिया । इष्टतम रैंक को क्रॉस-सत्यापन के माध्यम से पाया जा सकता है। मेरे अनुभव में, आरआरआर आसानी से ओएलएस को बेहतर बनाता है लेकिन आरआर से हार जाता है। हालांकि, आरआरआर + आरआर अकेले आरआर से बेहतर (थोड़ा) प्रदर्शन कर सकते हैं।Br

दूसरा, कोई इसे एक आयामी कमी / डेटा अन्वेषण विधि के रूप में उपयोग कर सकता है। यदि हमारे पास भविष्यवक्ता चर का एक समूह और आश्रित चर का एक गुच्छा है, तो RRR भविष्य कहनेवाला अंतरिक्ष में "अव्यक्त कारक" का निर्माण करेगा जो डीवीएस के विचरण को समझाने का सबसे अच्छा काम करते हैं। एक तो इन अव्यक्त कारकों की व्याख्या करने की कोशिश कर सकता है, उन्हें प्लॉट कर सकता है, आदि जहां तक ​​मुझे पता है, यह नियमित रूप से पारिस्थितिकी में किया जाता है जहां आरआरआर को अतिरेक विश्लेषण के रूप में जाना जाता है और वे उदाहरण के तौर पर समन्वय विधियों को कहते हैं ( देखें @ GavidSimpson का उत्तर) )।

4. अन्य आयामी कमी के तरीकों से संबंध

RRR, CCA और PLS जैसे अन्य आयामी कमी विधियों से निकटता से जुड़ा हुआ है। मैंने इसे अपने उत्तर में थोड़ा सा कवर किया कि आंशिक कम से कम वर्गों, रैंक रिग्रेशन और प्रिंसिपल कंपोनेंट रिग्रेशन में क्या संबंध है?

यदि और भविष्यवक्ता केंद्रित कर रहे हैं ( और) प्रतिक्रिया ( ) डेटासेट और अगर हम कुल्हाड़ियों की पहली जोड़ी, देखने के लिए के लिए और for , तो ये विधियाँ निम्न मात्राओं को अधिकतम करती हैं:XYn×pn×qwRpXvRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

कुछ और जानकारी के लिए वहाँ देखें।

देखें टोरे, 2009, एक घटक विश्लेषण के लिए कम से कम-वर्गों फ्रेमवर्क कैसे मल्टीवेरिएट तरीकों रैखिक आम के सबसे (जैसे पीसीए, सीसीए, झील प्राधिकरण, - लेकिन नहीं PLS) का एक विस्तृत उपचार के लिए RRR के रूप में देखा जा सकता है।

5. हस्ती एट अल में यह खंड क्यों है। इतना अधिक भ्रामक?

हस्ती एट अल। RRR शब्द का उपयोग थोड़ी अलग बात के लिए करें! नुकसान फ़ंक्शन का उपयोग करने के बजाय वे जैसा कि उनके सूत्र 3.68 में देखा जा सकता है। यह हानि फ़ंक्शन में एक -whitening फैक्टर का परिचय देता है , जो अनिवार्य रूप से आश्रित चर को सफेद करता है। यदि आप ऊपर CCA और RRR के बीच तुलना को देखते हैं, तो आप देखेंगे कि अगर को सफेद किया जाता है तो अंतर गायब हो जाता है। तो क्या हस्ती एट अल। कॉल RRR वास्तव में भेस में CCA है (और वास्तव में, उनके 3.69 देखें)।एल = ( वाई - एक्स बी ) ( वाईY ) - 1 / 22 , वाई वाई

L=YXB2,
L=(YXB)(YY)1/22,
YY

इस खंड में किसी को भी ठीक से नहीं समझाया गया है, इसलिए भ्रम है।


फ्रेंडली ट्यूटोरियल के बारे में मेरा उत्तर देखें या आगे पढ़ने के लिए कम रैंक रिग्रेशन का परिचय दें


यह एक बहुत अच्छी तरह से लिखा गया विस्तृत विवरण है। धन्यवाद मैं इसकी सराहना करता हूँ।
cgo'

@amoeba शानदार जवाब। क्या मैं इसे अधिक सुगम बनाने के लिए एक दो रिटचू का सुझाव दे सकता हूं? पहली प्रविष्टि की अंतिम पंक्ति पर, क्या आप समझ सकते हैं कि क्या है, उदाहरण के लिए, मॉडल मैट्रिक्स की रैंक यदि वह है तो वह क्या है। दूसरा, दूसरी प्रविष्टि के तहत परिभाषित समीकरण पर, आप परिचय देते हैं , जो कि जनसंख्या गुणांक है, और इस प्रकार एक अज्ञात पैरामीटर है। क्या आप उस पर थोड़ा विस्तार कर सकते हैं? rB
एंटोनी परेलाडा

1
(1) यह मल्टीवेरेट रिग्रेशन है, @ एटन, यानी एक मैट्रिक्स है, और एक मैट्रिक्स भी है, न कि वेक्टर। (2) यहाँ केवल हानि-फ़ंक्शन का एक पैरामीटर है । लक्ष्य कम करने के लिए । YBBLBL
अमीबा का कहना है कि पुनर्विचार मोनिका

1
RRRR में इष्टतम रैंक चयन करने के बारे में, ध्यान दें कि स्वतंत्रता की डिग्री एक फ़ंक्शन के रूप में स्पष्ट रूप से गणना की जा सकती है : , जहां इनपुट आयाम है और आउटपुट आयाम है। फिर सबसे अच्छा का चयन करने के लिए सामान्यीकृत क्रॉस-वेलिडेशन (GCV) को नियोजित कर सकते हैं : । r ^ df ( rrrपी क्यू आर वाई - वाई RRRR ( आर ) 2 Frodf^(r)=pq(pr)(qr)+"a small correction term"pqrYY^RRRR(r)Fro2(nqdf^(r))2
दोहमतोब

1
उदाहरण के लिए देखें google.fr/url?sa=t&source=web&rct=j&url=https://…
dohmatob

3

कम रैंक रिग्रेशन एक ऐसा मॉडल है जहां एक ही Y परिणाम नहीं है, लेकिन कई Y परिणाम हैं। बेशक, आप बस प्रत्येक प्रतिक्रिया के लिए एक अलग बहुभिन्नरूपी रेखीय प्रतिगमन फिट कर सकते हैं, लेकिन यह अक्षम है जब भविष्यवक्ताओं और प्रत्येक प्रतिक्रिया के बीच कार्यात्मक संबंध स्पष्ट रूप से समान है। इस स्थिति के लिए इस कग्गल अभ्यास को देखें जहां मेरा मानना ​​है कि यह स्पष्ट रूप से माना जाता है।

https://www.kaggle.com/c/bike-sharing-demand/data

इस समस्या से संपर्क करने के लिए कई संबंधित तकनीकें हैं जो एक्स चर से "कारक" या "घटक" का निर्माण करती हैं जो फिर वाई की भविष्यवाणी करने के लिए उपयोग की जाती हैं। एसएएस के इस प्रलेखन पृष्ठ ने मेरे लिए मतभेदों को दूर करने में मदद की। कम रैंक रिग्रेशन उन घटकों को निकालने के बारे में प्रतीत होता है जो आंशिक रूप से प्रतिक्रियाओं के बीच भिन्नता के लिए खाते हैं, आंशिक रूप से कम वर्गों के विपरीत जो उन घटकों को निकालते हैं जो अधिकतम प्रतिक्रिया और भविष्यवक्ता दोनों के बीच भिन्नता के लिए खाते हैं।

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1। यह सही है। मैंने इस SAS प्रलेखन पृष्ठ पर चर्चा की और विशेष रूप से आंकड़े के अपने उत्तर में उनका आंकड़ा ।stackexchange.com/questions/206587।
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.