क्या कोई कई अन्य पीसी से एक प्रमुख घटक (पीसी) की भविष्यवाणी करने के लिए कई प्रतिगमन का उपयोग कर सकता है?


15

कुछ समय पहले आर-हेल्प मेलिंग सूची पर एक उपयोगकर्ता ने एक प्रतिगमन में पीसीए स्कोर का उपयोग करने के बारे में पूछा। उपयोगकर्ता किसी अन्य पीसी में भिन्नता को समझाने के लिए कुछ पीसी स्कोर का उपयोग करने की कोशिश कर रहा है (पूरी चर्चा यहां देखें )। जवाब था कि नहीं, यह ध्वनि नहीं है क्योंकि पीसी एक दूसरे के लिए रूढ़िवादी हैं।

क्या कोई थोड़ा और विस्तार से बता सकता है कि ऐसा क्यों है?


1
आपने rटैग क्यों लगाया और "आप ऐसा क्यों है" से क्या मतलब है? पीसी सहसंबद्ध नहीं हैं, यानी वे ऑर्थोगोनल हैं, एडिटिव हैं, आप एक पीसी को दूसरे के साथ भविष्यवाणी नहीं कर सकते। क्या आप एक सूत्र की तलाश कर रहे हैं?
aL3xa

मैं तर्क के पीछे के सिद्धांतों (पीसीए को समझने की मेरी खोज में) के बारे में सोच रहा था। मैंने R टैग का उपयोग किया क्योंकि R लोग इसे पढ़ सकते हैं और शायद R उदाहरण दिखाते हैं। :)
रोमन लुसट्रिक

ओह, आपने ऐसा क्यों नहीं कहा? क्या आपने statmethods.net/advstats/factor.html
aL3xa

<B> एचटीएमएल </ b>: इस विषय से हटकर थोड़ा है, लेकिन यहां पीसीए के बारे में कुछ अच्छी चीजें (ज्यादातर आर में) है statsoft.com/textbook/principal-components-factor-analysis/... <br /> समन्वय। okstate.edu/PCA.htm <br /> astrostatistics.psu.edu/datasets/R/MV.html <br /> statmethods.net/advstats/factor.html <br/> <hr /> <b> PDF <PDF / b> cran.r-project.org/web/packages/HSAUR/vignettes/... /> uga.edu/strata/software/pdf/pcaTutorial.pdf <br /> cs.otago.ac.nz/cosc453/student_tutorials /… /> Www
aL3xa

जवाबों:


11

एक प्रमुख घटक आपके सभी कारकों (एक्स) का भारित रैखिक संयोजन है।

उदाहरण: PC1 = 0.1X1 + 0.3X2

प्रत्येक कारक के लिए एक घटक होगा (हालांकि सामान्य रूप से एक छोटी संख्या का चयन किया जाता है)।

घटकों को ऐसे बनाया जाता है कि उनके डिजाइन से शून्य सहसंबंध (orthogonal) होते हैं।

इसलिए, घटक PC1 को घटक PC2 में किसी भी भिन्नता की व्याख्या नहीं करनी चाहिए।

आप अपने वाई चर और अपने एक्स के पीसीए प्रतिनिधित्व पर प्रतिगमन करना चाहते हैं, क्योंकि उनके पास बहु-समरूपता नहीं होगी। हालाँकि, इसकी व्याख्या करना कठिन हो सकता है।

यदि आपके पास एक्स की तुलना में अधिक अवलोकन हैं, जो ओएलएस को तोड़ता है, तो आप अपने घटकों को फिर से प्राप्त कर सकते हैं, और बस उच्चतम विविधता वाले घटकों की एक छोटी संख्या का चयन करें।

प्रिंसिपल कम्पोनेंट एनालिसिस जोलेफ़ द्वारा इस विषय पर एक बहुत ही गहन और अत्यधिक उद्धृत पुस्तक

यह भी अच्छा है: http://www.statsoft.com/textbook/principal-compenders-factor-analysis/


11

प्रमुख घटक परिभाषा के अनुसार ओर्थोगोनल हैं, इसलिए पीसी के किसी भी जोड़े में शून्य सहसंबंध होगा।

हालांकि, पीसीए का उपयोग प्रतिगमन में किया जा सकता है यदि बड़ी संख्या में व्याख्यात्मक चर हैं। इन्हें कम संख्या में प्रमुख घटकों के रूप में कम किया जा सकता है और एक प्रतिगमन में भविष्यवक्ताओं के रूप में उपयोग किया जा सकता है।


कि एफए तो नहीं होगा?
रोमन लुसट्रिक

3
नहीं। एफए प्रतिगमन नहीं है। मैं बड़ी संख्या में व्याख्यात्मक चर से गणना किए गए प्रमुख घटकों के खिलाफ एक प्रतिक्रिया चर का संदर्भ दे रहा हूं। प्रमुख घटक स्वयं एफए के कारकों से निकटता से संबंधित हैं।
Rob Hyndman

मुझे क्षमा करें, मुझे अपनी टिप्पणी में अधिक सटीक होना चाहिए था। आपका लेखन कि व्याख्यात्मक चर पीसी की एक छोटी संख्या के लिए कम किया जा सकता है मुझे "कारक विश्लेषण" घंटी बजी।
रोमन लुसट्रिक

N चरों के साथ सेट में, n PC को निकाला जा सकता है, लेकिन आप यह तय कर सकते हैं कि आप कितने को रखना चाहते हैं, जैसे Guttman-Keizer की कसौटी कहती है: उन सभी PC को रखें जिनमें eigenvalue (भिन्नता) 1. से अधिक हो। ।
aL3xa

7

सावधान ... सिर्फ इसलिए कि पीसी एक दूसरे के लिए ऑर्थोगोनल निर्माण द्वारा हैं इसका मतलब यह नहीं है कि एक पैटर्न नहीं है या एक पीसी अन्य पीसी के बारे में कुछ "समझाने" के लिए प्रकट नहीं हो सकता है।

3 डी डेटा पर विचार करें (एक्स, वाई, जेड) एक अमेरिकी फुटबॉल की सतह पर समान रूप से वितरित अंकों की एक बड़ी संख्या का वर्णन करते हुए (यह एक दीर्घवृत्त है - एक क्षेत्र नहीं - उन लोगों के लिए जिन्होंने कभी अमेरिकी फुटबॉल नहीं देखा है)। कल्पना कीजिए कि फुटबॉल एक मनमाना विन्यास में है ताकि न तो X और Y और न ही Z फुटबॉल की लंबी धुरी के साथ हो।

प्रिंसिपल घटक फुटबॉल के लंबे अक्ष के साथ PC1 को रखेंगे, वह अक्ष जो डेटा में सबसे अधिक विचरण का वर्णन करता है।

फुटबॉल की लंबी धुरी के साथ PC1 आयाम में किसी भी बिंदु के लिए, PC2 और PC3 द्वारा दर्शाए गए प्लेनर स्लाइस को एक वृत्त का वर्णन करना चाहिए और इस परिपत्र टुकड़ा की त्रिज्या PC1 आयाम पर निर्भर करती है। यह सच है कि पीसी 1 पर पीसी 2 या पीसी 3 के प्रतिगमन को विश्व स्तर पर एक शून्य गुणांक देना चाहिए, लेकिन फुटबॉल के छोटे वर्गों पर नहीं। .... और यह स्पष्ट है कि पीसी 1 और पीसी 2 का 2 डी ग्राफ एक "दिलचस्प" सीमा दिखाएगा। यह दो-मूल्यवान है, nonlinear, और सममित।


3

यदि आपका डेटा उच्च आयामी और शोर है, और आपके पास बड़ी संख्या में नमूना नहीं है, तो आप ओवरफिटिंग के खतरे में हैं। ऐसे मामलों में, यह पीसीए का उपयोग करने के लिए समझ में आता है (जो डेटा भिन्नता के एक प्रमुख हिस्से पर कब्जा कर सकता है; orthogonality कोई मुद्दा नहीं है) या कारक विश्लेषण (जो डेटा के बारे में सही व्याख्यात्मक चर ढूँढ सकता है) डेटा की गतिशीलता को कम करने के लिए और फिर उनके साथ एक प्रतिगमन मॉडल प्रशिक्षित करें।

कारक विश्लेषण आधारित दृष्टिकोणों के लिए, इस पेपर बायेसियन फैक्टर रिग्रेशन मॉडल , और इस मॉडल का एक गैरपारंपरिक बायेसियन संस्करण देखें जो यह नहीं मानता है कि आप प्राथमिकताओं को पीसीए के मामले में प्रासंगिक कारकों (या प्रमुख घटकों) की "सही" संख्या जानते हैं।

मुझे लगता है कि कई मामलों में, आयामी गतिशीलता में कमी (उदाहरण के लिए, फिशर डिस्क्रिमिनेटल एनालिसिस ) सरल पीसीए या एफए आधारित दृष्टिकोणों में सुधार दे सकता है, क्योंकि आप डायमेंशन में कमी करते हुए लेबल की जानकारी का उपयोग कर सकते हैं।


0

यदि आप पूर्वानुमानित पीसी स्कोर को अलग-अलग चर, या मामलों से, अनुमानित पीसी स्कोर की तुलना में निकाला गया था, तो आप इसे बाहर निकाल सकते हैं। अगर यह भविष्यवाणी की जाती है और भविष्यवक्ता ऑर्थोगोनल नहीं होगा, या कम से कम उन्हें होने की आवश्यकता नहीं है, तो सहसंबंध निश्चित रूप से गारंटीकृत नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.