प्रतिगमन के लिए चर का चयन करने के लिए प्रमुख घटक विश्लेषण का उपयोग कैसे करें?


12

मैं वर्तमान में मॉडलिंग में उपयोग करने के लिए चर का चयन करने के लिए प्रमुख घटक विश्लेषण का उपयोग कर रहा हूं। फिलहाल, मैं अपने प्रयोगों में ए, बी और सी माप करता हूं - जो मैं वास्तव में जानना चाहता हूं वह यह है: क्या मैं समय और प्रयास को बचाने के लिए कम माप कर सकता हूं और सी और बी रिकॉर्ड करना बंद कर सकता हूं?

मुझे लगता है कि सभी 3 चर मेरे पहले मुख्य घटक पर बहुत अधिक लोड होते हैं जो मेरे डेटा में 60% विचरण के लिए जिम्मेदार हैं। घटक स्कोर मुझे बताते हैं कि अगर मैं एक निश्चित अनुपात (एए + बीबी + सीसी) में इन चरों को एक साथ जोड़ता हूं। मैं अपने डेटासेट में प्रत्येक मामले के लिए PC1 पर एक अंक प्राप्त कर सकता हूं और मॉडलिंग में एक चर के रूप में इस स्कोर का उपयोग कर सकता हूं, लेकिन यह मुझे B और C को मापने से रोकने की अनुमति नहीं देता है।

यदि मैं पीसी 1 पर ए और बी और सी के लोडिंग को वर्ग करता हूं, तो मुझे लगता है कि पीसी 1 में चर का 65% के लिए चर ए और पीसी 1 में चर के 50% के लिए चर बी का खाता है और चर सी भी 50% है, अर्थात कुछ प्रत्येक चर ए, बी और सी के हिसाब से पीसी 1 में विचरण एक और चर के साथ साझा किया जाता है, लेकिन ए थोड़ा ऊपर के हिसाब से शीर्ष पर आता है।

क्या यह सोचना गलत है कि मैं केवल मॉडलिंग में उपयोग करने के लिए चर A या संभवतः (aA + bB, यदि आवश्यक हो) चुन सकता हूं क्योंकि यह चर PC1 में विचरण के एक बड़े अनुपात का वर्णन करता है और यह बदले में विचरण के एक बड़े अनुपात का वर्णन करता है। आँकड़े?

आप अतीत में किस दृष्टिकोण के लिए गए हैं?

  • एकल चर जो PC1 पर सबसे भारी लोड करता है, भले ही अन्य भारी लोडर हों?
  • PC1 पर कंपोनेंट स्कोर सभी वैरिएबल का उपयोग करते हुए भले ही वे सभी भारी लोडर हों?

जवाबों:


14

आपने निर्दिष्ट किया है नहीं क्या "मॉडलिंग" आप पर योजना है, लेकिन यह लगता है कि आप कैसे चयन करने के लिए बारे में पूछ रहे स्वतंत्र के बीच चर , , और की (माना) इस प्रयोजन के लिए एक चौथा regressing निर्भर चर उन पर।B C WABCW

यह देखने के लिए कि यह दृष्टिकोण गलत हो सकता है, तीन स्वतंत्र रूप से वितरित चर , और को इकाई विचरण के साथ विचार करें। के लिए सच है, अंतर्निहित मॉडल एक छोटे से निरंतर चुनें , एक बहुत छोटे से लगातार , और (आश्रित चर) जाने (प्लस की त्रुटि स्वतंत्र का एक छोटा सा , , और )।वाई जेड β « 1 ε « β डब्ल्यू = जेड एक्स वाई जेडXYZβ1ϵβW=ZXYZ

मान लीजिए कि आपके पास मौजूद स्वतंत्र चर , , और । तब और दृढ़ता से सहसंबद्ध होते हैं (त्रुटि के विचरण के आधार पर), क्योंकि प्रत्येक कई के करीब है । हालाँकि, , या किसी के साथ असंबंधित है । क्योंकि छोटा है, के लिए पहली प्रमुख घटक के समानांतर है के साथ eigenvalue । और इस घटक पर भारी लोड करते हैं औरबी = एक्स - ε वाई सी = β जेड डब्ल्यू सी जेड डब्ल्यू बी β { एक , बी , सी } एक्स 2 » β एक बी सी एक्स वाई सी बी डब्ल्यू बीA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCलोड बिल्कुल नहीं क्योंकि यह (और ) से स्वतंत्र है । फिर भी, यदि आप स्वतंत्र चर से को समाप्त करते हैं, तो केवल और छोड़कर , आप आश्रित चर के बारे में सभी जानकारी को फेंक देंगे क्योंकि , , और स्वतंत्र हैं!XYCABWAB

यह उदाहरण दिखाता है कि प्रतिगमन के लिए आप इस बात पर ध्यान देना चाहते हैं कि स्वतंत्र चर का आश्रित के साथ कैसे संबंध है; आप केवल स्वतंत्र चर के बीच संबंधों का विश्लेषण करके दूर नहीं हो सकते।


1
क्या यह नहीं ? जेड + ε YA=X+ϵYZ+ϵY
shabbychef

@ शब्बी हां, धन्यवाद। (मैं ओ पी के नाम से मेल करने के लिए एक मसौदा में सभी चर नाम बदलना पड़ा और यह एक में गड़बड़।)
whuber

4

यदि आपके पास केवल 3 IVs हैं, तो आप उन्हें कम क्यों करना चाहते हैं?

यही है, क्या आपका नमूना बहुत छोटा है (ताकि 3 आईवीएस जोखिम से अधिक हो)? इस मामले में, आंशिक रूप से कम से कम वर्गों पर विचार करें

या माप बहुत महंगे हैं (इसलिए, भविष्य में, आप केवल एक IV को मापना चाहेंगे)? इस मामले में, मैं प्रत्येक IV के साथ अलग-अलग रजिस्टरों को अलग-अलग और एक साथ देखने पर विचार करूंगा।

या आपके अतीत में किसी ने पारसमणि के मूल्य पर अधिक जोर दिया था? इस मामले में, सभी 3 IVs शामिल क्यों नहीं हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.