मेरे पास 11 वैरिएबल के साथ एक डेटासेट है और डेटा को कम करने के लिए पीसीए (ऑर्थोगोनल) किया गया था। इसे बनाए रखने के लिए घटकों की संख्या पर निर्णय लेना मेरे लिए विषय और स्कोरी प्लॉट (नीचे देखें) के बारे में मेरे ज्ञान से स्पष्ट था कि डेटा की व्याख्या करने के लिए दो प्रमुख घटक (पीसी) पर्याप्त थे और शेष घटक केवल कम जानकारीपूर्ण थे।
समानांतर विश्लेषण के साथ डरावना साजिश: 100 सिमुलेशन (लाल) के आधार पर मनाया eigenvalues (हरा) और सिम्युलेटेड eigenvalues। स्क्री प्लॉट 3 पीसी का सुझाव देता है, जबकि समानांतर परीक्षण केवल पहले दो पीसी का सुझाव देता है।
जैसा कि आप देख सकते हैं कि पहले दो पीसी द्वारा केवल 48% विचरण को पकड़ा जा सकता है।
पहले 2 पीसी द्वारा बनाए गए पहले विमान पर प्लॉटिंग अवलोकनों ने पदानुक्रमित एग्लोमेरेटिव क्लस्टरिंग (एचएसी) और के-साधन क्लस्टरिंग का उपयोग करते हुए तीन अलग-अलग समूहों का खुलासा किया। ये 3 क्लस्टर प्रश्न में समस्या के लिए बहुत प्रासंगिक थे और अन्य निष्कर्षों के साथ भी संगत थे। इस तथ्य को छोड़कर कि केवल 48% विचरण पर कब्जा कर लिया गया था, बाकी सब कुछ जबरदस्त रूप से ठीक था।
मेरे दो समीक्षकों में से एक ने कहा: कोई भी इन निष्कर्षों पर ज्यादा भरोसा नहीं कर सकता है क्योंकि केवल 48% विचरण को समझाया जा सकता है और यह आवश्यकता से कम है।
प्रश्न
वहाँ किसी भी है की आवश्यकता कितना विचरण पीसीए द्वारा कब्जा कर लिया जाना चाहिए मान्य होने के लिए का मान? क्या यह उपयोग में डोमेन ज्ञान और कार्यप्रणाली पर निर्भर नहीं है? क्या कोई भी व्याख्या किए गए विचरण के मात्र मूल्य के आधार पर पूरे विश्लेषण की योग्यता पर न्याय कर सकता है?
टिप्पणियाँ
- डेटा आणविक जीव विज्ञान में एक बहुत ही संवेदनशील कार्यप्रणाली द्वारा मापा गया जीन के 11 चर हैं जिन्हें रियल-टाइम क्वांटिटेटिव पॉलीमरेज़ चेन रिएक्शन (RT-qPCR) कहा जाता है।
- आर का उपयोग करके विश्लेषण किया गया था।
- माइक्रोएरे विश्लेषण, केमोमेट्रिक्स, स्पेक्ट्रोमेट्रिक विश्लेषण या एक जैसे क्षेत्रों में वास्तविक जीवन की समस्याओं पर काम करने वाले अपने व्यक्तिगत अनुभव के आधार पर डेटा विश्लेषकों के उत्तर बहुत सराहे जाते हैं।
- कृपया यथासंभव संदर्भ के साथ उत्तर देने में सहायता करने पर विचार करें।