बारलेट के टेस्ट से पता चलता है कि पीसीए अनुचित क्यों है?


14

मैं समझता हूं कि बार्टलेट का परीक्षण यह निर्धारित करने से संबंधित है कि क्या आपके नमूने समान भिन्नताओं वाले आबादी से हैं।

यदि नमूने समान भिन्नताओं वाले आबादी से हैं, तो हम परीक्षण की अशक्त परिकल्पना को अस्वीकार करने में विफल रहते हैं, और इसलिए एक प्रमुख घटक विश्लेषण अनुचित है।

मुझे यकीन नहीं है कि इस स्थिति के साथ समस्या (होमोसैकेस्टिक डेटा सेट होने पर) निहित है। डेटा सेट होने में समस्या क्या है जहाँ आपके सभी डेटा का अंतर्निहित वितरण समान है? अगर यह स्थिति मौजूद है तो मैं बड़ी बात नहीं देखता। यह एक पीसीए को अनुचित क्यों बनाएगा?

मुझे ऑनलाइन कहीं भी कोई भी अच्छी जानकारी नहीं मिल सकती है। क्या किसी को यह व्याख्या करने का कोई अनुभव है कि यह परीक्षण एक पीसीए के लिए प्रासंगिक क्यों है?

जवाबों:


15

प्रश्न शीर्षक के जवाब में।

बारलेट की गोलाकारता का परीक्षण , जो अक्सर पूर्व पीसीए या कारक विश्लेषण किया जाता है, परीक्षण करता है कि क्या डेटा शून्य कोविरियन के साथ बहुभिन्नरूपी सामान्य वितरण से आता है। (कृपया ध्यान दें, परीक्षण का मानक विषम संस्करण बहुभिन्नरूपी सामान्यता से प्रस्थान के लिए बिल्कुल भी मजबूत नहीं है। कोई बूटस्ट्रैपिंग का उपयोग नोंगौसियन क्लाउड के साथ कर सकता है।) इसे समान रूप से लगाने के लिए, नोड परिकल्पना यह है कि जनसंख्या सहसंबंध मैट्रिक्स पहचान मैट्रिक्स है। या कि सहसंयोजक मैट्रिक्स विकर्ण है।1

अब कल्पना करें कि बहुभिन्नरूपी बादल पूरी तरह से गोलाकार है (यानी इसका सहसंयोजक मैट्रिक्स पहचान मैट्रिक्स के समानुपाती है)। फिर 1) कोई भी मनमाना आयाम प्रमुख घटकों की सेवा कर सकता है, इसलिए पीसीए समाधान अद्वितीय नहीं है; 2) सभी घटकों में समान रूपांतर (eigenvalues) हैं, इसलिए PCA डेटा को कम करने में मदद नहीं कर सकता है।

दूसरे मामले की कल्पना करें जहां बहुभिन्नरूपी बादल आयताकार सख्ती के साथ चर के कुल्हाड़ियों के साथ होता है (यानी इसका कोवरियन मैट्रिक्स विकर्ण है: विकर्ण को छोड़कर सभी मान शून्य हैं)। तब पीसीए परिवर्तन द्वारा निहित रोटेशन शून्य होगा; मुख्य घटक स्वयं चर होते हैं, केवल पुन: व्यवस्थित और शक्तिशाली रूप से साइन-रिवर्ट होते हैं। यह एक तुच्छ परिणाम है: डेटा को कम करने के लिए कुछ कमजोर आयामों को छोड़ने के लिए किसी पीसीए की आवश्यकता नहीं थी।


1 कई (कम से कम तीन, मेरी जागरूकता के लिए) आंकड़ों में परीक्षण बारलेट के नाम पर हैं। यहां हम बार्टलेट के गोलाकार परीक्षण की बात कर रहे हैं।


14

ऐसा प्रतीत होता है कि बार्टलेट के परीक्षण नामक दो परीक्षण हैं । आपके द्वारा संदर्भित (1937) यह निर्धारित करता है कि आपके नमूने समान भिन्नताओं वाले आबादी से हैं या नहीं। एक और परीक्षण करने के लिए प्रतीत होता है कि डेटा के एक सेट के लिए सहसंबंध मैट्रिक्स पहचान मैट्रिक्स (1951) है या नहीं। यह अधिक समझ में आता है कि आप एक पहचान सहसंबंध मैट्रिक्स के साथ डेटा पर पीसीए नहीं चलाएंगे, क्योंकि आप अपने मूल चर को वापस पा लेंगे क्योंकि वे पहले से ही असंबंधित हैं। तुलना, जैसे,


2
+1 यह दूसरे उत्तर की तुलना में भ्रम को बेहतर करता है।
हैलोवर्ल्ड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.