बनाए रखने के लिए प्रमुख घटकों की संख्या का चयन


10

एक तरीका जो मुझे सुझाया गया था, उसका उपयोग करने के लिए पीसी की सही संख्या निर्धारित करने के लिए एक डरावनी साजिश को देखना और "कोहनी" की जांच करना है। लेकिन अगर भूखंड स्पष्ट नहीं है, तो क्या आर की संख्या निर्धारित करने के लिए गणना है?

fit <- princomp(mydata, cor=TRUE)

3
वो नहीं जो मैं जानता हूँ। सबसे पहले, यदि आप "1 नियम-अंगूठे से ऊपर के स्वदेशी" या तथाकथित Kayser के नियम का उल्लेख करते हैं, तो आप संभवतः उन पीसी की संख्या पाएंगे जो इसे संतुष्ट करते हैं (ध्यान रखें कि यह आम तौर पर आयामों की संख्या को कम कर देता है) अधिक सटीक रूप से अपने स्कोरी प्लॉट पर। दूसरा, समानांतर विश्लेषण घटकों की संख्या निर्धारित करने का एक बेहतर तरीका है; घटक और कारकों की संख्या के निर्धारण के लिए R, और SPSS, SAS और MATLAB प्रोग्राम में psyया psychपैकेज देखें । समानांतर विश्लेषण और वेलसर के एमएपी टेस्ट का अधिक सामान्यतः उपयोग करना।
chl

जवाबों:


10

निम्नलिखित लेख: Cangelosi द्वारा CDNA माइक्रोएरे डेटा के अनुप्रयोग के साथ प्रमुख घटक विश्लेषण में घटक प्रतिधारण और एक अध्ययन में घटकों की संख्या का पता लगाने के लिए अंगूठे के मानक नियम का एक अच्छा अवलोकन देता है। (स्क्री प्लॉट, कुल विचरण का अनुपात समझाया गया, औसत ईजेनवेल्यू नियम, लॉग-ईजेनवेल्यू आरेख, आदि) उनमें से ज्यादातर आर में लागू करने के लिए काफी सीधे हैं।

सामान्य तौर पर यदि आपका स्कोरी प्लॉट बहुत अनिर्णायक है तो आपको बस "अपना जहर" लेने की जरूरत है। वास्तव में किसी भी डेटा के लिए कोई पूर्ण अधिकार या गलत नहीं है क्योंकि वास्तव में उपयोग करने के लिए पीसी की संख्या समस्या की आपकी समझ पर निर्भर करती है। एकमात्र डेटा-सेट जिसे आप "वास्तव में" जान सकते हैं, जिस आयाम का आप स्वयं निर्माण करते हैं। :-) दिन के अंत में मुख्य घटक RSS मीट्रिक के तहत डेटा का इष्टतम अपघटन प्रदान करते हैं (जहाँ उप-उत्पाद के रूप में आपको भिन्नता के एक प्रमुख मोड का प्रतिनिधित्व करने के लिए प्रत्येक घटक मिलता है) और दिए गए कई घटकों को शामिल या बाहर करना आपकी समस्या की गतिशीलता के बारे में आपकी धारणा को निर्धारित करता है।

व्यक्तिगत पसंद की बात के रूप में, मैं पीसीए के लिए आयामी की इस स्वचालित पसंद पर मिंका के दृष्टिकोण को पसंद करता हूं जो पीसीए की एक संभाव्य व्याख्या पर आधारित है लेकिन फिर, आप एक दिए गए आयाम के लिए अपने डेटा की संभावना को मॉडल करने की कोशिश के खेल में उतरते हैं। (यदि आप इस तर्क का पालन करना चाहते हैं तो लिंक मैटलैब कोड प्रदान करता है।)

अपने डेटा को और समझने की कोशिश करें। जैसे। क्या आप वास्तव में मानते हैं कि आपके डेटा-सेट की 99.99% विविधता आपके मॉडल के सहसंयोजकों के कारण है? यदि नहीं, तो शायद आपको उन आयामों को शामिल करने की आवश्यकता नहीं है जो कुल विचरण के ऐसे छोटे अनुपात को प्रदर्शित करते हैं। क्या आपको लगता है कि वास्तव में एक घटक सिर्फ ध्यान देने योग्य मतभेदों की सीमा से नीचे भिन्नता को दर्शाता है? शायद फिर से इसका मतलब है कि आपके विश्लेषण के लिए उस घटक को शामिल करने में बहुत कम प्रासंगिकता है।

किसी भी मामले में, सौभाग्य और अपने डेटा को सावधानीपूर्वक जांचें। (उन्हें प्लॉट करना चमत्कार भी बनाता है।)


क्या आप मैटलैब कोड की ओर इशारा कर सकते हैं, मैं इसे नहीं ढूँढ सकता।
मर्ग्लूम

मुझे लगता है कि मुझे यह पता चला है कि यह शोध है
।microsoft.com

यीप! यही वह कड़ी थी जिसका मैं जिक्र कर रहा था।
us --r11852

मुझे आश्चर्य है कि अगर मिंका का दृष्टिकोण आर द्वारा अब तक लागू किया गया है? कहें कि सबसे महत्वपूर्ण पीसी विभिन्न तरीकों से एक अध्ययन में निर्धारित किए गए हैं, हम जानते हैं कि ये डेटा का सिग्नल हिस्सा होना चाहिए। क्या आप संयोग से जानते हैं कि अगर इन PCs को समझने के लिए% भिन्नता में कोई सीमा है, जिसके नीचे एक और विश्लेषण के लिए No-Go माना जाता है? किसी भी संदर्भ में बहुत सराहना की जाएगी।
डॉक्टरेट

6

इस समस्या पर पिछले कुछ वर्षों में बहुत अच्छा काम किया गया है क्योंकि यह प्रश्न मूल रूप से पूछा और उत्तर दिया गया था। मैं गविश और डोनोहो द्वारा निम्नलिखित पेपर की अत्यधिक अनुशंसा करता हूं: सिंगुलर वैल्यू के लिए इष्टतम कठिन थ्रेशोल्ड 4 / sqrt (3) है

उनका परिणाम असममित विश्लेषण पर आधारित है (यानी एक अच्छी तरह से परिभाषित इष्टतम समाधान है क्योंकि आपका डेटा मैट्रिक्स असीम रूप से बड़ा हो जाता है), लेकिन वे प्रभावशाली संख्यात्मक परिणाम दिखाते हैं जो छोटे और वास्तविक रूप से डेटासेट के लिए असममित रूप से इष्टतम प्रक्रिया काम करते हैं, यहां तक ​​कि अलग शोर के तहत भी। मॉडल।

अनिवार्य रूप से, इष्टतम प्रक्रिया शोर के आकलन के लिए , मैट्रिक्स के प्रत्येक तत्व में जोड़ा गया। इसके आधार पर आप एक सीमा की गणना करते हैं और उन प्रमुख घटकों को हटाते हैं, जिनका एकवचन मूल्य सीमा से नीचे आता है। वर्ग मैट्रिक्स के लिए, आनुपातिकता निरंतर 4 / sqrt (3) पता चलता है जैसा कि शीर्षक में सुझाया गया है:n × nσn×n

λ=4σn3

वे पेपर में नॉन-स्क्वायर केस भी समझाते हैं। उनके पास एक अच्छा कोड पूरक है (MATLAB में), लेकिन एल्गोरिदम आर या कहीं और लागू करना आसान होगा: https://purl.stanford.edu/vg705qn9070

चेतावनियां:

  • यदि आपके पास लापता डेटा है, तो मुझे यकीन नहीं है कि यह काम करेगा
  • यदि आपके डेटासेट के प्रत्येक फीचर में अलग-अलग नॉइज़ परिमाण हैं, तो मुझे यकीन नहीं है कि यह काम करेगा (हालाँकि इस धारणा के तहत वाइटनिंग संभवतः इसके आसपास हो सकती है)
  • यह देखना दिलचस्प होगा कि क्या इसी तरह के परिणाम अन्य निम्न-श्रेणी के मैट्रिक्स कारक (जैसे गैर-नकारात्मक मैट्रिक्स कारक) के लिए पकड़ रखते हैं।

+1, वाह यह पेपर बेहद दिलचस्प लग रहा है। इसका उल्लेख करने के लिए बहुत बहुत धन्यवाद।
अमीबा

4

कैसर की कसौटी के साथ समस्या (सभी एक से अधिक eigenvalues) यह है कि निकाले गए कारकों की संख्या आमतौर पर बैटरी में वस्तुओं या तराजू की संख्या से लगभग एक तिहाई होती है, भले ही अतिरिक्त कारकों में से कई शोर हों। समानांतर विश्लेषण और डरावनी कसौटी आम तौर पर निकालने के लिए कारकों की संख्या निर्धारित करने के लिए अधिक सटीक प्रक्रियाएं हैं (हार्मन और लेदरार्ड टकर द्वारा क्लासिक ग्रंथों के साथ-साथ वेन वेलसर द्वारा हाल ही में किए गए कार्य।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.