आउटपुट चर की भविष्यवाणी करने के लिए प्रमुख घटकों पर प्रतिगमन कैसे लागू करें?


9

मैं से प्रमुख घटक विश्लेषण की मूल बातें के बारे में पढ़ा tutorial1 , link1 और link2

मेरे पास 100 चर का डेटा सेट है (आउटपुट चर Y सहित), मैं पीसीए द्वारा चर को 40 तक कम करना चाहता हूं, और फिर उन 40 चर का उपयोग करके चर Y की भविष्यवाणी करता हूं।

समस्या 1: प्रमुख घटकों को प्राप्त करने और पहले 40 घटकों को चुनने के बाद, यदि मैं इस पर प्रतिगमन लागू करता हूं तो मुझे कुछ फ़ंक्शन मिलते हैं जो डेटा को फिट करते हैं। लेकिन मूल डेटा से कुछ चर वाई की भविष्यवाणी कैसे करें? इनपुट पर वैरिएबल की भविष्यवाणी करने के लिए (100-1) वैरिएबल हैं, और मुझे कैसे पता चलेगा कि मेरे मूल 100-1 वेरिएबल्स में से किन 40 वेरिएबल्स को चुनना है?

समस्या 2: मैं PCA को उलट देता हूं और उन 40 प्रमुख घटकों से डेटा वापस प्राप्त करता हूं। लेकिन डेटा बदल दिया जाता है क्योंकि मैंने केवल पहले 40 घटकों को चुना था। क्या इन आंकड़ों पर प्रतिगमन लागू करने का कोई मतलब है?

मैं Matlab / Octave का उपयोग करता हूं।


पीसीए करने के लिए, आप किस सॉफ्टवेयर या प्रोग्राम का उपयोग करते हैं? उदाहरण के लिए SPSS में यह विश्लेषण आसानी से किया जा सकता है और आप उन प्रमुख घटकों की संख्या निर्धारित कर सकते हैं जिन्हें आप निकालना चाहते हैं और आप देख सकते हैं कि आउटपुट में किन लोगों का चयन किया गया है। बेशक इस डेटा में प्रतिगमन लागू करने का कोई मतलब नहीं है क्योंकि पीसीए का उपयोग केवल आयाम में कमी के लिए किया जाता है।
merveceng

1
यदि आप पूरी तरह से भविष्यवाणियां करने में रुचि रखते हैं , तो आपको अवगत होना चाहिए कि हेस्टी, तिब्शीरानी, ​​और फ्रीडमैन प्रमुख घटक प्रतिगमन पर LASSO प्रतिगमन की सलाह देते हैं क्योंकि LASSO समान रूप से काम करता है (मॉडल में चर की संख्या को कम करने के लिए पूर्वानुमान की क्षमता में सुधार), लेकिन बेहतर। LASSO भी आजकल सांख्यिकीय पैकेज में व्यापक रूप से उपलब्ध है।
शैटॉल्कर

@ssdecontrol: हस्ती एट अल। मुख्य घटक प्रतिगमन पर विशेष रूप से लासो की सिफारिश करें? पीसीआर लसो की तुलना में रिज रिग्रेशन से बहुत करीब से जुड़ा हुआ है: यह कोई स्पार्सिटी नहीं लगा रहा है (यानी लसो के विपरीत, फीचर सिलेक्शन नहीं कर रहा है), यह रिज के समान सभी वेट को दंडित कर रहा है। शायद वे पीसीआर पर लोचदार जाल की सलाह देते हैं, लेकिन यह लासो प्लस रिज है।
अमीबा

1
@amoeba मैं अभी गया और ऑनलाइन पीडीएफ की जाँच की। या तो पाठ बदल गया, या मैंने पहली बार इसे पढ़ा गलत समझा। निष्कर्ष यह नहीं है कि "लासो श्रेष्ठ है," लेकिन यह कि "पीसीआर, पीएलएस, और रिज प्रतिगमन समान व्यवहार करते हैं," और यह रिज बेहतर हो सकता है क्योंकि यह निरंतर है। मुझे ईमानदार रखने के लिए धन्यवाद!
छायाकार

जवाबों:


7

आप अपने मूल 99 (100-1) चर का एक उपसमूह नहीं चुनते हैं।

प्रत्येक प्रमुख घटक सभी 99 भविष्यवाणियों चर (x- चर, IVs, ...) के रैखिक संयोजन हैं। यदि आप पहले 40 प्रमुख घटकों का उपयोग करते हैं, तो उनमें से प्रत्येक 99 मूल भविष्यवक्ता-चर का एक कार्य है। (कम से कम साधारण पीसीए के साथ - ज़ार, हस्ती और टिब्शिरानी के एसपीसीए जैसे विरल / नियमित संस्करण हैं जो कम चर के आधार पर घटकों का उत्पादन करेंगे।)

दो सकारात्मक सहसंबद्ध चर के सरल मामले पर विचार करें, जो सादगी के लिए हम मान लेंगे समान रूप से चर रहे हैं। फिर पहला मुख्य घटक दोनों अंशों के योग का एक (भिन्नात्मक) गुणक होगा और दूसरा दो चर के अंतर का (भिन्नात्मक) गुणक होगा; अगर दोनों समान रूप से परिवर्तनीय नहीं हैं, तो पहला प्रमुख घटक अधिक-चर को एक और अधिक वजन देगा, लेकिन इसमें अभी भी दोनों शामिल होंगे।

तो आप अपने 99 एक्स-चर के साथ शुरू करते हैं, जिसमें से आप प्रत्येक मूल चर पर संबंधित भार को लागू करके अपने 40 प्रमुख घटकों की गणना करते हैं। [मेरी चर्चा में एनबी मुझे लगता हैy और यह Xपहले से ही केंद्रित हैं।]

आप तब अपने 40 नए चर का उपयोग करते हैं जैसे कि वे अपने आप में भविष्यवक्ता थे, जैसे कि आप किसी भी एकाधिक प्रतिगमन समस्या के साथ करेंगे। (व्यवहार में, अनुमान लगाने के अधिक कुशल तरीके हैं, लेकिन आइए कम्प्यूटेशनल पहलुओं को एक तरफ छोड़ दें और बस एक मूल विचार से निपटें)

आपके दूसरे प्रश्न के संबंध में, यह स्पष्ट नहीं है कि "पीसीए को उलटने" से आपका क्या मतलब है।

आपके पीसी मूल चर के रैखिक संयोजन हैं। मान लीजिए कि आपके मूल संस्करण अंदर हैंX, और आप गणना करते हैं Z=XW (कहाँ पे X है n×99 तथा W है 99×40 मैट्रिक्स जिसमें प्रमुख घटक भार होता है 40 घटक जो आप उपयोग कर रहे हैं), फिर आप अनुमान लगाते हैं y^=Zβ^PC प्रतिगमन के माध्यम से।

फिर आप लिख सकते हैं y^=Zβ^PC=XWβ^PC=Xβ^ कहो (कहाँ) β^=Wβ^PCजाहिर है), इसलिए आप इसे मूल भविष्यवक्ताओं के कार्य के रूप में लिख सकते हैं; मुझे नहीं पता कि आपके what उलटने ’का क्या मतलब है, लेकिन यह मूल संबंध को देखने का एक सार्थक तरीका हैy तथा X। यह मूल गुणांक के पाठ्यक्रम पर एक प्रतिगमन का अनुमान लगाकर प्राप्त होने वाले गुणांक के समान नहीं है - इसे पीसीए करके नियमित किया जाता है; भले ही आप अपने मूल एक्स के प्रत्येक के लिए गुणांक प्राप्त करेंगे, लेकिन उनके पास केवल आपके द्वारा फिट किए गए घटकों की संख्या का df है।

मुख्य घटक प्रतिगमन पर विकिपीडिया भी देखें ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.