जवाबों:
निम्नलिखित लेख: Cangelosi द्वारा CDNA माइक्रोएरे डेटा के अनुप्रयोग के साथ प्रमुख घटक विश्लेषण में घटक प्रतिधारण और एक अध्ययन में घटकों की संख्या का पता लगाने के लिए अंगूठे के मानक नियम का एक अच्छा अवलोकन देता है। (स्क्री प्लॉट, कुल विचरण का अनुपात समझाया गया, औसत ईजेनवेल्यू नियम, लॉग-ईजेनवेल्यू आरेख, आदि) उनमें से ज्यादातर आर में लागू करने के लिए काफी सीधे हैं।
सामान्य तौर पर यदि आपका स्कोरी प्लॉट बहुत अनिर्णायक है तो आपको बस "अपना जहर" लेने की जरूरत है। वास्तव में किसी भी डेटा के लिए कोई पूर्ण अधिकार या गलत नहीं है क्योंकि वास्तव में उपयोग करने के लिए पीसी की संख्या समस्या की आपकी समझ पर निर्भर करती है। एकमात्र डेटा-सेट जिसे आप "वास्तव में" जान सकते हैं, जिस आयाम का आप स्वयं निर्माण करते हैं। :-) दिन के अंत में मुख्य घटक RSS मीट्रिक के तहत डेटा का इष्टतम अपघटन प्रदान करते हैं (जहाँ उप-उत्पाद के रूप में आपको भिन्नता के एक प्रमुख मोड का प्रतिनिधित्व करने के लिए प्रत्येक घटक मिलता है) और दिए गए कई घटकों को शामिल या बाहर करना आपकी समस्या की गतिशीलता के बारे में आपकी धारणा को निर्धारित करता है।
व्यक्तिगत पसंद की बात के रूप में, मैं पीसीए के लिए आयामी की इस स्वचालित पसंद पर मिंका के दृष्टिकोण को पसंद करता हूं जो पीसीए की एक संभाव्य व्याख्या पर आधारित है लेकिन फिर, आप एक दिए गए आयाम के लिए अपने डेटा की संभावना को मॉडल करने की कोशिश के खेल में उतरते हैं। (यदि आप इस तर्क का पालन करना चाहते हैं तो लिंक मैटलैब कोड प्रदान करता है।)
अपने डेटा को और समझने की कोशिश करें। जैसे। क्या आप वास्तव में मानते हैं कि आपके डेटा-सेट की 99.99% विविधता आपके मॉडल के सहसंयोजकों के कारण है? यदि नहीं, तो शायद आपको उन आयामों को शामिल करने की आवश्यकता नहीं है जो कुल विचरण के ऐसे छोटे अनुपात को प्रदर्शित करते हैं। क्या आपको लगता है कि वास्तव में एक घटक सिर्फ ध्यान देने योग्य मतभेदों की सीमा से नीचे भिन्नता को दर्शाता है? शायद फिर से इसका मतलब है कि आपके विश्लेषण के लिए उस घटक को शामिल करने में बहुत कम प्रासंगिकता है।
किसी भी मामले में, सौभाग्य और अपने डेटा को सावधानीपूर्वक जांचें। (उन्हें प्लॉट करना चमत्कार भी बनाता है।)
इस समस्या पर पिछले कुछ वर्षों में बहुत अच्छा काम किया गया है क्योंकि यह प्रश्न मूल रूप से पूछा और उत्तर दिया गया था। मैं गविश और डोनोहो द्वारा निम्नलिखित पेपर की अत्यधिक अनुशंसा करता हूं: सिंगुलर वैल्यू के लिए इष्टतम कठिन थ्रेशोल्ड 4 / sqrt (3) है
उनका परिणाम असममित विश्लेषण पर आधारित है (यानी एक अच्छी तरह से परिभाषित इष्टतम समाधान है क्योंकि आपका डेटा मैट्रिक्स असीम रूप से बड़ा हो जाता है), लेकिन वे प्रभावशाली संख्यात्मक परिणाम दिखाते हैं जो छोटे और वास्तविक रूप से डेटासेट के लिए असममित रूप से इष्टतम प्रक्रिया काम करते हैं, यहां तक कि अलग शोर के तहत भी। मॉडल।
अनिवार्य रूप से, इष्टतम प्रक्रिया शोर के आकलन के लिए , मैट्रिक्स के प्रत्येक तत्व में जोड़ा गया। इसके आधार पर आप एक सीमा की गणना करते हैं और उन प्रमुख घटकों को हटाते हैं, जिनका एकवचन मूल्य सीमा से नीचे आता है। वर्ग मैट्रिक्स के लिए, आनुपातिकता निरंतर 4 / sqrt (3) पता चलता है जैसा कि शीर्षक में सुझाया गया है:n × n
वे पेपर में नॉन-स्क्वायर केस भी समझाते हैं। उनके पास एक अच्छा कोड पूरक है (MATLAB में), लेकिन एल्गोरिदम आर या कहीं और लागू करना आसान होगा: https://purl.stanford.edu/vg705qn9070
चेतावनियां:
कैसर की कसौटी के साथ समस्या (सभी एक से अधिक eigenvalues) यह है कि निकाले गए कारकों की संख्या आमतौर पर बैटरी में वस्तुओं या तराजू की संख्या से लगभग एक तिहाई होती है, भले ही अतिरिक्त कारकों में से कई शोर हों। समानांतर विश्लेषण और डरावनी कसौटी आम तौर पर निकालने के लिए कारकों की संख्या निर्धारित करने के लिए अधिक सटीक प्रक्रियाएं हैं (हार्मन और लेदरार्ड टकर द्वारा क्लासिक ग्रंथों के साथ-साथ वेन वेलसर द्वारा हाल ही में किए गए कार्य।
psy
याpsych
पैकेज देखें । समानांतर विश्लेषण और वेलसर के एमएपी टेस्ट का अधिक सामान्यतः उपयोग करना।