पीसीए के उदाहरण जहां कम विचरण वाले पीसी "उपयोगी" होते हैं


24

आम तौर पर प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) में पहले कुछ पीसी का इस्तेमाल किया जाता है और कम वेरिएशन वाले पीसी को गिराया जाता है, क्योंकि वे डेटा में बहुत ज्यादा बदलाव नहीं करते हैं।

हालांकि, क्या ऐसे उदाहरण हैं जहां कम भिन्नता वाले पीसी उपयोगी होते हैं (यानी डेटा के संदर्भ में उपयोग किया जाता है, एक सहज व्याख्या है, आदि) और उन्हें फेंक नहीं दिया जाना चाहिए?


5
पर्याप्त। पीसीए देखें , घटक की यादृच्छिकता? यह एक डुप्लिकेट भी हो सकता है, लेकिन आपका शीर्षक बहुत स्पष्ट है (इसलिए संभवतः खोज द्वारा खोजना आसान है), इसलिए कृपया इसे हटाएं नहीं भले ही यह बंद हो जाए।
निक स्टनर

जवाबों:


18

यहाँ जोलिफ़ (1982) का एक अच्छा अंश है जिसे मैंने अपने पिछले उत्तर में इसी तरह के प्रश्न में शामिल नहीं किया था, " पीसीए में कम विचरण घटक, क्या वे वास्तव में सिर्फ शोर हैं? क्या इसके लिए परीक्षण करने का कोई तरीका है? " यह बहुत सहज है।

मानना ​​है कि हवाई अड्डों पर एक महत्वपूर्ण समस्या क्लाउड-बेस, की ऊंचाई की भविष्यवाणी करना आवश्यक है । विभिन्न जलवायु चरों को सतह के तापमान , और सतह ओस बिंदु, सहित मापा जाता है । यहाँ, T_d वह तापमान है जिस पर सतह की वायु को जल वाष्प के साथ संतृप्त किया जाएगा, और अंतर T_s-T_d , सतह की आर्द्रता का माप है। अब T_s, T_d आम तौर पर सकारात्मक रूप से सहसंबद्ध होते हैं, इसलिए जलवायु चर के एक प्रमुख घटक विश्लेषण में एक उच्च-विचरण घटक होगा जो T_s + T_d के साथ अत्यधिक सहसंबद्ध है , और एक कम-भिन्नता जो T_s-T_d के साथ सहसंबद्ध हैटी एस टी डी टी डी टी एस - टी डी टी एस , टी डी टी एस + टी डी टी एस - टी डीएचटीरोंटीटीटीरों-टीटीरों,टीटीरों+टीटीरों-टी। लेकिन एच आर्द्रता से संबंधित है और इसलिए टीरों-टी , यानी उच्च-विचरण घटक के बजाय कम-विचरण के लिए, इसलिए एक रणनीति जो कम-विचरण घटकों को अस्वीकार करती है, वह H के लिए खराब भविष्यवाणियां देगी एच
इस उदाहरण की चर्चा आवश्यक रूप से अस्पष्ट है क्योंकि किसी भी अन्य जलवायु चर के अज्ञात प्रभावों के कारण जो विश्लेषण में भी मापा और शामिल किया गया है। हालांकि, यह एक भौतिक रूप से प्रशंसनीय मामला दिखाता है जहां एक आश्रित चर कम-भिन्न घटक से संबंधित होगा, साहित्य से तीन अनुभवजन्य उदाहरणों की पुष्टि करता है।
इसके अलावा, 1966-73 की अवधि के लिए कार्डिफ़ (वेल्स) हवाई अड्डे के डेटा पर क्लाउड-बेस उदाहरण का परीक्षण किया गया है, जिसमें एक अतिरिक्त जलवायु परिवर्तनशील, समुद्र की सतह का तापमान भी शामिल है। परिणाम अनिवार्य रूप से ऊपर भविष्यवाणी की गई थी। अंतिम मुख्य घटक लगभग टीरों-टी , और इसमें कुल भिन्नता का केवल 0 · 4 प्रतिशत था। हालांकि, एक प्रमुख घटक प्रतिगमन में यह एच के लिए आसानी से सबसे महत्वपूर्ण भविष्यवक्ता थाएच[महत्व दिया]

साहित्य के तीन उदाहरणों में दूसरे पैराग्राफ के अंतिम वाक्य में मेरे द्वारा उल्लिखित प्रश्न के उत्तर में वर्णित तीन थे ।


संदर्भ
जोलिफ, आईटी (1982)। प्रतिगमन में प्रमुख घटकों के उपयोग पर ध्यान दें। एप्लाइड सांख्यिकी, 31 (3), 300-303। Http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTododinamica20072008/Biblio/Articoli/PCR%20vecchio%2082 से पुनर्प्राप्त किया गया ।


यह वास्ताव में अच्छा है। मैं सिर्फ एक नोट जोड़ूंगा कि हमेशा । यह समझने में मुझे एक सेकंड के लिए कि क्यों जरूरी एक "कम विचरण" घटक थाV(A+B)=V(A)+V(B)+2Cov(A,B)वी(-बी)=वी()+वी(बी)-2सीv(,बी)टीरों-टी
छायाकार

+1, यह एक अच्छा उदाहरण है। दिलचस्प बात यह है कि यह दमन का भी उदाहरण है।
गुंग - को पुनः स्थापित मोनिका

17

यदि आपके पास आर है, crabsतो एमएएसएस पैकेज में डेटा में एक अच्छा उदाहरण है ।

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

98% से अधिक विचरण पहले दो पीसी द्वारा "समझाया गया" है, लेकिन वास्तव में अगर आपने वास्तव में इन मापों को एकत्र किया था और उनका अध्ययन कर रहे थे, तो तीसरा पीसी बहुत दिलचस्प है, क्योंकि यह केकड़े की प्रजाति से निकटता से संबंधित है। लेकिन इसे PC1 (जो केकड़े के आकार के अनुरूप लगता है) और PC2 (जो केकड़े के लिंग के अनुरूप प्रतीत होता है) से भरा हुआ है।

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें


2
+1, यह एक बहुत साफ-सुथरा प्रदर्शन है। मैंने 2 स्कैल्पल मेट्रिसेस बनाए, जिन्हें आप पसंद कर सकते हैं।
गूँज - मोनिका

1
@ गुंग: स्कैल्पलोट्स जोड़ने के लिए धन्यवाद! मैंने पहले इस उत्तर को उकेरा, लेकिन भूखंडों को देखे बिना पूरी तरह से इसकी सराहना नहीं की। स्कैटरप्लॉट पीसी 2 बनाम पीसी 3 वास्तव में अच्छा है: दोनों लिंग और प्रजातियों को लगभग पूरी तरह से अलग करना। मुझे यह उदाहरण भी पसंद है क्योंकि यह दिखाता है कि क्या होता है जब सभी चर दृढ़ता से सहसंबद्ध होते हैं (यानी PC1 बहुत सारे विचरण को समझाता है और मूल रूप से औसत है)।
अमीबा का कहना है कि मोनिका

1
धन्यवाद, @amoeba मुझे वास्तव में वे जिस तरह से निकले, वह पसंद है। मैंने बहुत समय व्यतीत किया w / उन्हें (रंग, pch, lables, किंवदंती)। मैं वास्तव में लगता है कि वे अब बहुत सुंदर हैं। आप PC1 के बारे में एक अच्छी बात करते हैं। हम यह भी देख सकते हैं कि कई रिश्तों में सेक्स और / या प्रजातियों द्वारा भिन्नता (शायद) का एक निरंतर गुणांक है; वे बढ़ते हैं (उम्र?) वे और अधिक विशिष्ट हो जाते हैं। आदि देखने के लिए बहुत सारे सामान हैं - आप बस उन्हें देखते रह सकते हैं।
गूँग - मोनिका

8

यहाँ मेरे अनुभव के दो उदाहरण हैं (रसायन, ऑप्टिकल / कंपन / रमन स्पेक्ट्रोस्कोपी):

  • मेरे पास हाल ही में ऑप्टिकल स्पेक्ट्रोस्कोपी डेटा था, जहां> कच्चे डेटा के कुल विचलन का 99% पृष्ठभूमि की रोशनी में बदलाव के कारण था (मापा बिंदु पर स्पॉटलाइट अधिक या कम तीव्र, फ्लोरोसेंट लैंप चालू / बंद, अधिक या कम बादल पहले सूरज)। ज्ञात प्रभावशाली कारकों के ऑप्टिकल स्पेक्ट्रा के साथ पृष्ठभूमि में सुधार के बाद (कच्चे डेटा पर पीसीए द्वारा निकाले गए; उन विविधताओं को कवर करने के लिए अतिरिक्त माप लिया गया), जिस प्रभाव में हम रुचि रखते थे वह पीसी 4 और 5 में दिखाया गया था।
    पीसी 1 और 3 जहां मापे गए नमूने में अन्य प्रभावों के कारण, और पीसी 2 माप के दौरान उपकरण की नोक को गर्म करने से संबंधित है।

  • एक अन्य माप में, मापा वर्णक्रमीय रेंज के लिए रंग सुधार के बिना एक लेंस का उपयोग किया गया था। वर्णक्रमीय पृथक्करण स्पेक्ट्रा में विकृतियों के लिए नेतृत्व करता है जो सीए के लिए जिम्मेदार था। पूर्व-संसाधित डेटा के कुल संस्करण का 90% (ज्यादातर पीसी 1 में कब्जा कर लिया गया)।
    इस डेटा के लिए हमें यह महसूस करने में काफी समय लगा कि वास्तव में क्या हुआ था, लेकिन एक बेहतर उद्देश्य के लिए स्विच करने से बाद के प्रयोगों के लिए समस्या हल हो गई।

(मैं विवरण नहीं दिखा सकता क्योंकि ये अध्ययन अभी भी अप्रकाशित हैं)


3

मैंने देखा है कि कम विचरण वाले पीसी एक सहसंयोजक मैट्रिक्स पर एक पीसीए प्रदर्शन करते समय सबसे अधिक सहायक होते हैं जहां अंतर्निहित डेटा को किसी तरह से क्लस्टर या समूहित किया जाता है। यदि किसी एक समूह में अन्य समूहों की तुलना में काफी कम औसत विचरण है, तो उस समूह में सबसे छोटे पीसी का प्रभुत्व होगा। हालाँकि, आपके पास कुछ कारण हो सकता है कि आप उस समूह से परिणाम नहीं निकालना चाहते हैं।

वित्त में, स्टॉक रिटर्न में लगभग 15-25% वार्षिक मानक विचलन है। बॉन्ड यील्ड में बदलाव ऐतिहासिक रूप से बहुत कम मानक विचलन है। यदि आप स्टॉक रिटर्न और बॉन्ड यील्ड में परिवर्तन के सहसंयोजक मैट्रिक्स पर पीसीए का प्रदर्शन करते हैं, तो शीर्ष पीसी सभी शेयरों के विचरण को दर्शाएंगे और सबसे छोटे वाले बॉन्ड के वेरिएंट को प्रतिबिंबित करेंगे। यदि आप बॉन्ड को समझाने वाले पीसी को फेंक देते हैं, तो आप कुछ परेशानी में पड़ सकते हैं। उदाहरण के लिए, बॉन्ड में स्टॉक की तुलना में बहुत भिन्न वितरण विशेषताएं हो सकती हैं (पतले पूंछ, अलग-अलग समय-भिन्न विचरण गुण, भिन्न माध्य प्रत्यावर्तन, संयोग, आदि)। ये परिस्थितियों के आधार पर मॉडल के लिए बहुत महत्वपूर्ण हो सकते हैं।

यदि आप सहसंबंध मैट्रिक्स पर पीसीए प्रदर्शन करते हैं, तो आप शीर्ष के निकट बंधों को समझाते हुए अधिक पीसी देख सकते हैं।


इस उत्तर को समझना बहुत कठिन है अगर कोई नहीं जानता कि स्टॉक, बॉन्ड, पैदावार और रिटर्न क्या हैं। मैं नहीं करता, और इसलिए मैं यह नहीं देख सकता कि आपका पहला वाक्य आपके दूसरे से कैसे जुड़ा है ...
अमीबा का कहना है कि मोनिका

1
मैंने कुछ संपादन किए हैं।
जॉन

1

में इस बात ( स्लाइड ) प्रस्तुतकर्ताओं उच्च परिवर्तनशीलता और कम परिवर्तनशीलता सुविधाओं के बीच भेदभाव करने के लिए पीसीए के अपने उपयोग पर चर्चा।

वे वास्तव में विसंगति का पता लगाने के लिए कम परिवर्तनशीलता सुविधाओं को पसंद करते हैं, क्योंकि कम परिवर्तनशीलता आयाम में एक महत्वपूर्ण बदलाव विसंगतिपूर्ण व्यवहार का एक मजबूत संकेतक है। वे जो प्रेरक उदाहरण प्रदान करते हैं वह इस प्रकार है:

मान लें कि एक उपयोगकर्ता हमेशा मैक से लॉग इन करता है। उनकी गतिविधि का "ऑपरेटिंग सिस्टम" आयाम बहुत कम विचरण होगा। लेकिन अगर हमने उसी उपयोगकर्ता से एक लॉगिन ईवेंट देखा, जहां "ऑपरेटिंग सिस्टम" विंडोज था, तो यह बहुत दिलचस्प होगा, और ऐसा कुछ जिसे हम पकड़ना चाहते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.