क्या पीसीए मल्टीकोलिनरिटी के तहत अस्थिर है?


25

मुझे पता है कि एक प्रतिगमन स्थिति में, यदि आपके पास अत्यधिक सहसंबद्ध चर का एक सेट है, तो यह आमतौर पर "खराब" है क्योंकि अनुमानित गुणांक में अस्थिरता के कारण (प्रसरण अनंतता की ओर जाता है क्योंकि निर्धारक शून्य की ओर जाता है)।

मेरा सवाल यह है कि क्या यह "बदनामी" पीसीए की स्थिति में बनी रहती है। क्या किसी विशेष पीसी के लिए गुणांक / लोडिंग / वेट / ईजेनवेक्टर अस्थिर या मनमाना / गैर-अद्वितीय हो जाते हैं क्योंकि कोवरियन मैट्रिक्स एकवचन बन जाता है? मुझे उस मामले में विशेष रूप से दिलचस्पी है जहां केवल पहले प्रमुख घटक को बरकरार रखा जाता है, और अन्य सभी को "शोर" या "कुछ और" या "महत्वहीन" के रूप में खारिज कर दिया जाता है।

मुझे नहीं लगता कि ऐसा होता है, क्योंकि आप केवल कुछ प्रमुख घटकों के साथ रह जाएंगे, जिनके पास शून्य है, या शून्य विचरण के करीब है।

देखने में आसान यह 2 चर के साथ सरल चरम मामले में मामला नहीं है - मान लीजिए कि वे पूरी तरह से सहसंबद्ध हैं। फिर पहला पीसी सटीक रैखिक संबंध होगा, और दूसरा पीसी पहले पीसी के लिए लंबवत होगा, जिसमें सभी अवलोकन (यानी शून्य संस्करण) के लिए सभी पीसी मान शून्य के बराबर होंगे। आश्चर्य है कि अगर इसकी अधिक सामान्य है।


8
आपका तर्क अच्छा है। वास्तव में, किसी को अस्थिरता की उम्मीद होती है जब दो या अधिक eigenvalues ​​लगभग संयोग होते हैं, तब के लिए हालांकि eigenvalues ​​निर्धारित किए जाते हैं, eigenvectors नहीं हैं, और इसलिए न ही लोडिंग हैं। संख्यात्मक कारणों से, eigenvalues ​​(और eigenvectors) में अस्थिरता भी है जो कि अधिकतम eigenvalue की तुलना में आकार में बहुत छोटे हैं।
whuber

@whuber टिप्पणी आपके प्रश्न का उत्तर देती है, लेकिन मैं यह ध्यान देना चाहूंगा कि 2 पूरी तरह से सहसंबंधित चर के मामले में, PCA को कोई समस्या नहीं होनी चाहिए। सहसंयोजक मैट्रिक्स रैंक 1 का होगा, इसलिए केवल 1 गैर-शून्य eigenvalue होगा, इसलिए केवल 1 पीसी। मूल चर इस पीसी के गुणक होंगे। एकमात्र मुद्दा संख्यात्मक स्थिरता हो सकती है।
mpiktas

वास्तव में, मुझे लगता है कि अगर आप वास्तव में अत्यधिक सहसंबद्ध चर प्राप्त कर चुके हैं, तो यदि आपने मामूली से सहसंबंधित चर हैं, तो आप इसे और भी बुरा कर सकते हैं। संख्यात्मक-वार भी, यदि आप NIPALS जैसे एल्गोरिथ्म का उपयोग कर रहे हैं जो पीसी को क्रम से हटाता है
JMS

एक बात - "अत्यधिक सहसंबद्ध" और "कॉलिनियर" समान नहीं हैं। यदि 2 से अधिक चर शामिल हैं, तो कॉलिनैरिटी का संबंध सहसंबंधी नहीं है।
पीटर Flom - को पुनः स्थापित मोनिका

जवाबों:


11

इसका उत्तर और भी सरल शब्दों में दिया जा सकता है: यदि रेखीय बीजगणित की दृष्टि से देखा जाए तो एकाधिक प्रतिगमन में pca से एक कदम अधिक है, और दूसरे चरण से अस्थिरता अस्तित्व में आती है:

पक्का और बहु ​​का पहला कदम। रिग्रेशन को सहसंबंध-मैट्रिक्स दो चोलस्की कारकों में फैक्टरिंग के रूप में देखा जा सकता है , जो त्रिकोणीय-और हैं जो निम्न या उच्च सहसंबंधों के प्रति उदासीन हैं। (Pca तो उस (त्रिकोणीय) cholesky- कारक के एक रोटेशन के रूप में देखा जा सकता है पीसी-स्थिति (इसे जैकोबी-रोटेशन कहा जाता है जहाँ तक मुझे याद है) आरएलएलटी

बहु। रिग्रेशन प्रक्रिया उस चोकसी फैक्टर माइनस के प्रतिलोम और आश्रित चर के कॉलम को लागू करने के लिए है , जो सहसंबंध-मैट्रिक्स की अंतिम पंक्ति में सुविधाजनक रूप से है। अस्थिरता यहाँ खेल में आती है: यदि स्वतंत्र चर अत्यधिक सहसंबद्ध होते हैं, तो चॉल्स्की कारक का विकर्ण बहुत छोटे संख्यात्मक मानों को पतित कर सकता है - और उलटा जो परिचय देता है तो लगभग शून्य द्वारा विभाजन की समस्या।एल
एल


यह मोटे तौर पर मैं क्या देख रहा था। वास्तव में, आपके उत्तर को पढ़ने से मुझे एक और स्पष्टीकरण के बारे में सोचना पड़ता है: घूर्णन संख्यात्मक रूप से स्थिर होते हैं, भले ही सहसंयोजक / सहसंबंध मैट्रिक्स के निर्धारक की परवाह किए बिना। और चूंकि पीसीए को को-ऑर्डिनेट अक्ष के सबसे अच्छे रोटेशन को खोजने के रूप में तैयार किया जा सकता है, इसलिए यह संख्यात्मक रूप से स्थिर भी होगा।
probabilityislogic

हाँ, उदाहरण के लिए, स्टैन मुलिक की "फैक्टरैनैलिसिस की नींव" में पीसी-रोटेशन (जैकोबी-मेथड) की स्थिरता को स्पष्ट रूप से उल्लेख किया गया था, अगर मुझे स्रोत सही ढंग से याद है। कारक विश्लेषण के अपने स्वयं के कार्यान्वयन में मैं घूर्णन के द्वारा चोल्स्की के बाद सब कुछ करता हूं: पीसीए, वरीमैक्स, यहां तक ​​कि "प्रिंसिपल एक्सिस फैक्टरिंग" (एसपीएसएस में पीएएफ) रोटेशन के आधार पर पुनर्निर्माण किया जा सकता है। यदि बहु प्रतिगमन चोल्स्की कारक L पर आधारित होता है और L का वह भाग जिसमें स्वतंत्र चर होते हैं, PC- स्थिति में होता है, तो बहुसंख्यात्मकता को और भी बेहतर तरीके से नियंत्रित किया जा सकता है।
गॉटफ्रीड हेल्स

3

पीसीए अक्सर समाप्त होने का एक साधन है; एक से अधिक प्रतिगमन के इनपुट या क्लस्टर विश्लेषण में उपयोग के लिए अग्रणी। मुझे लगता है कि आपके मामले में, आप एक प्रतिगमन करने के लिए एक पीसीए के परिणामों का उपयोग करने के बारे में बात कर रहे हैं।

उस स्थिति में, PCA करने का आपका उद्देश्य mulitcollinearity से छुटकारा पाना और कई प्रतिगमन में ऑर्थोगोनल इनपुट प्राप्त करना है, न कि आश्चर्यजनक रूप से इसे प्रिंसिपल कंपोनेंट रिग्रेशन कहा जाता है। यहां, यदि आपके सभी मूल इनपुट ऑर्थोगोनल थे, तो एक पीसीए करने से आपको ऑर्थोगोनल इनपुट का एक और सेट मिलेगा। इसलिए; यदि आप एक PCA कर रहे हैं, तो कोई यह मान लेगा कि आपके इनपुट में बहुसंख्या है।

उपरोक्त को देखते हुए, आप एक समस्या से कुछ इनपुट चर प्राप्त करने के लिए पीसीए करना चाहते हैं जिसमें कई इनपुट होते हैं। यह निर्धारित करने के लिए कि आपको कितने नए ऑर्थोगोनल वैरिएबल बनाए रखने चाहिए, एक स्कोरी प्लॉट अक्सर इस्तेमाल किया जाता है (जॉनसन एंड विचर्न, 2001, पी। 445)। यदि आपके पास बड़ी संख्या में अवलोकन हैं, तो आप अंगूठे के नियम का भी उपयोग कर सकते हैं जो कि साथ सबसे बड़ा अनुमानित eigenvalue केवल उन मूल्यों का उपयोग और शामिल करने के लिए करता है, जहां एक (जॉनसन एंड विचर्न, 2001, पी। 451) से अधिक या बराबर हैं।λमैं^मैंटीλमैं^पी

संदर्भ

जॉनसन एंड विचर्न (2001)। एप्लाइड मल्टीवीरेट स्टैटिस्टिकल एनालिसिस (6 वां संस्करण)। शागिर्द कक्ष।


6
मुझे यकीन नहीं है कि पीसीआर के बाद ओपी है। पीसीए मल्टीवेरेट डेटासेट को संक्षेप में प्रस्तुत करने का एक अच्छा तरीका है (जरूरी नहीं कि मॉडलिंग फ्रेमवर्क में बाद के उपयोग के लिए डेटा में कमी करने के लिए), जो कि अधिकांश जानकारी को बनाए रखते हुए वीसी मैट्रिक्स को कम-क्रम में अनुमानित करता है। यह प्रश्न प्रतीत होता है: क्या मैं सही हूँ जब कुछ कोलीनिटी इफ़ेक्ट होने पर भी पहले के कुछ स्वदेशी और पीसी (मूल चरों के रैखिक संयोजनों के रूप में) की व्याख्या की जाए? आपकी प्रतिक्रिया सीधे ओपी के प्रश्न को संबोधित नहीं करती है।
chl

2
पीसीए के बारे में सामान्य रूप से अच्छा जवाब है, लेकिन जब पीसीए अंतिम उत्पाद है तो क्या होगा? यही है, लक्ष्य एक पीसी का उत्पादन करना है। @ CH प्रश्न की अपनी व्याख्या के साथ पैसे पर सही है
प्रायिकतालोगिक

@chl इस प्रश्न पर आपकी क्या प्रतिक्रिया है: "क्या मैं पहले कुछ eigenvalues ​​और PC की व्याख्या कर रहा हूँ, भले ही कुछ कोलिनरिटी प्रभाव थे?" मैं पूछता हूं क्योंकि मैं यह पता लगाने की कोशिश कर रहा हूं कि जब आयामी कमी करते हुए अत्यधिक सहसंबंधित चर रखने के लिए यह एक अच्छा विचार है। कभी-कभी जब हम सिद्धांत से जानते हैं कि दो चर एक ही अव्यक्त चर द्वारा संचालित होते हैं तो आपको एक चर को हटा देना चाहिए ताकि अव्यक्त चर का प्रभाव दो बार न गिने। जब इसके सहसंबद्ध चर रखने के लिए ठीक है के माध्यम से सोचने की कोशिश कर रहा हूं।
अमात्य
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.