क्या पीसीए द्वारा बाद में विश्लेषण करने के लिए किसी भी आवश्यक मात्रा में विचरण किया गया है?


15

मेरे पास 11 वैरिएबल के साथ एक डेटासेट है और डेटा को कम करने के लिए पीसीए (ऑर्थोगोनल) किया गया था। इसे बनाए रखने के लिए घटकों की संख्या पर निर्णय लेना मेरे लिए विषय और स्कोरी प्लॉट (नीचे देखें) के बारे में मेरे ज्ञान से स्पष्ट था कि डेटा की व्याख्या करने के लिए दो प्रमुख घटक (पीसी) पर्याप्त थे और शेष घटक केवल कम जानकारीपूर्ण थे।

यहाँ छवि विवरण दर्ज करें
समानांतर विश्लेषण के साथ डरावना साजिश: 100 सिमुलेशन (लाल) के आधार पर मनाया eigenvalues ​​(हरा) और सिम्युलेटेड eigenvalues। स्क्री प्लॉट 3 पीसी का सुझाव देता है, जबकि समानांतर परीक्षण केवल पहले दो पीसी का सुझाव देता है।

यहाँ छवि विवरण दर्ज करें

जैसा कि आप देख सकते हैं कि पहले दो पीसी द्वारा केवल 48% विचरण को पकड़ा जा सकता है।

पहले 2 पीसी द्वारा बनाए गए पहले विमान पर प्लॉटिंग अवलोकनों ने पदानुक्रमित एग्लोमेरेटिव क्लस्टरिंग (एचएसी) और के-साधन क्लस्टरिंग का उपयोग करते हुए तीन अलग-अलग समूहों का खुलासा किया। ये 3 क्लस्टर प्रश्न में समस्या के लिए बहुत प्रासंगिक थे और अन्य निष्कर्षों के साथ भी संगत थे। इस तथ्य को छोड़कर कि केवल 48% विचरण पर कब्जा कर लिया गया था, बाकी सब कुछ जबरदस्त रूप से ठीक था।

मेरे दो समीक्षकों में से एक ने कहा: कोई भी इन निष्कर्षों पर ज्यादा भरोसा नहीं कर सकता है क्योंकि केवल 48% विचरण को समझाया जा सकता है और यह आवश्यकता से कम है।

प्रश्न
वहाँ किसी भी है की आवश्यकता कितना विचरण पीसीए द्वारा कब्जा कर लिया जाना चाहिए मान्य होने के लिए का मान? क्या यह उपयोग में डोमेन ज्ञान और कार्यप्रणाली पर निर्भर नहीं है? क्या कोई भी व्याख्या किए गए विचरण के मात्र मूल्य के आधार पर पूरे विश्लेषण की योग्यता पर न्याय कर सकता है?

टिप्पणियाँ

  • डेटा आणविक जीव विज्ञान में एक बहुत ही संवेदनशील कार्यप्रणाली द्वारा मापा गया जीन के 11 चर हैं जिन्हें रियल-टाइम क्वांटिटेटिव पॉलीमरेज़ चेन रिएक्शन (RT-qPCR) कहा जाता है।
  • आर का उपयोग करके विश्लेषण किया गया था।
  • माइक्रोएरे विश्लेषण, केमोमेट्रिक्स, स्पेक्ट्रोमेट्रिक विश्लेषण या एक जैसे क्षेत्रों में वास्तविक जीवन की समस्याओं पर काम करने वाले अपने व्यक्तिगत अनुभव के आधार पर डेटा विश्लेषकों के उत्तर बहुत सराहे जाते हैं।
  • कृपया यथासंभव संदर्भ के साथ उत्तर देने में सहायता करने पर विचार करें।

रैंडम मैट्रिक्स थ्योरी के लिए eigenvalues ​​का वितरण बहुत महत्वपूर्ण है। Marcenko-Pastur वितरण कभी-कभी समान अनुप्रयोगों के लिए उपयोग किया जाता है।
जॉन

हरे और नारंगी / भूरी रेखाएँ क्या दर्शाती हैं? केवल धुरी में है।
us --r11852

@ us @r11852, कृपया अद्यतन कैप्शन देखें।
डॉक्टरेट

जवाबों:


8

आपके विशेष प्रश्नों के बारे में:

क्या पीसीए द्वारा मान्य होने के लिए कितना भिन्नता होनी चाहिए, इसका कोई आवश्यक मूल्य है?

नहीं, वहाँ (मेरे सर्वोत्तम ज्ञान के लिए) नहीं है। मेरा दृढ़ विश्वास है कि कोई एक मूल्य नहीं है जिसका आप उपयोग कर सकते हैं; पकड़े गए विचरण प्रतिशत का कोई जादू नहीं। Cangelosi और Goriely का लेख: cDNA माइक्रोएरे डेटा के लिए आवेदन के साथ प्रमुख घटक विश्लेषण में घटक प्रतिधारण एक अध्ययन में घटकों की संख्या का पता लगाने के लिए अंगूठे के आधा दर्जन मानक नियमों का एक अच्छा अवलोकन देता है । (डरावना प्लॉट, कुल विचरण का अनुपात समझाया गया, औसत ईजेनवेल्यू नियम, लॉग-ईजेनवल्यू डायग्राम, आदि) अंगूठे के नियमों के रूप में मैं दृढ़ता से उनमें से किसी पर भरोसा नहीं करूंगा।

क्या यह उपयोग में डोमेन ज्ञान और कार्यप्रणाली पर निर्भर नहीं है?

आदर्श रूप से यह निर्भर होना चाहिए लेकिन आपको सावधान रहना चाहिए कि आप इसे कैसे कहते हैं और आपका क्या मतलब है।

उदाहरण के लिए: ध्वनिकी में बस ध्यान देने योग्य अंतर ( JND ) की धारणा है । मान लें कि आप एक ध्वनिकी नमूना का विश्लेषण कर रहे हैं और एक विशेष पीसी में उस जेएनडी थ्रेसहोल्ड के नीचे भौतिक पैमाने पर भिन्नता है। कोई भी आसानी से तर्क नहीं दे सकता है कि ध्वनिकी अनुप्रयोग के लिए आपको उस पीसी को शामिल करना चाहिए । आप अश्रव्य शोर का विश्लेषण करेंगे। इस पीसी को शामिल करने के कुछ कारण हो सकते हैं, लेकिन इन कारणों को अन्य तरीके से प्रस्तुत करने की आवश्यकता नहीं है। क्या वे RT-qPCR विश्लेषण के लिए JND के समान हैं?

इसी तरह, यदि कोई घटक 9 वें क्रम लीजेंड बहुपद की तरह दिखता है और आपके पास इस बात के पुख्ता सबूत हैं कि आपके नमूने में एकल गाऊसी धक्कों हैं, तो आपके पास यह मानने के अच्छे कारण हैं कि आप फिर से अप्रासंगिक बदलाव की मॉडलिंग कर रहे हैं। भिन्नता दिखाने के ये रूढ़िवादी तरीके क्या हैं? उदाहरण के लिए आपके मामले में 3 जी पीसी के साथ "गलत" क्या है?

तथ्य यह है कि आप कहते हैं " ये 3 क्लस्टर प्रश्न में समस्या के लिए बहुत प्रासंगिक हैं " वास्तव में एक मजबूत तर्क नहीं है। आप साधारण डेटा ड्रेज कर सकते हैं (जो एक बुरी बात है)। अन्य तकनीकें हैं, उदाहरण के लिए। Isomaps और स्थानीय रूप से रैखिक एम्बेडिंग , जो बहुत शांत हैं, उन का उपयोग क्यों नहीं करते हैं? आपने पीसीए को विशेष रूप से क्यों चुना?

अन्य निष्कर्षों के साथ आपके निष्कर्षों की स्थिरता अधिक महत्वपूर्ण है, खासकर यदि ये खोज अच्छी तरह से स्थापित मानी जाती हैं। इस पर गहरी खुदाई करें। यह देखने की कोशिश करें कि क्या आपके परिणाम अन्य अध्ययनों से पीसीए निष्कर्षों से सहमत हैं।

क्या कोई भी व्याख्या किए गए विचरण के मात्र मूल्य के आधार पर पूरे विश्लेषण की योग्यता पर न्याय कर सकता है?

सामान्य तौर पर किसी को ऐसा नहीं करना चाहिए। यह मत सोचिए कि आपका समीक्षक एक कमीने या ऐसा कुछ भी है; 48% वास्तव में उचित औचित्य प्रस्तुत किए बिना बनाए रखने के लिए एक छोटा सा प्रतिशत है।


आपके उत्तर के लिए धन्यवाद। JND के साथ RT-qPCR के बारे में कुछ खास नहीं है। वास्तव में, RT-qPCR केवल वह तकनीक है जिसके द्वारा हम जीन चर को स्वयं मापते हैं। संभवत: आपका मतलब उन पीसी से था जो सभी 11 के रैखिक संयोजन से बने नए चर हैं। अन्य वर्णनात्मक चर को देखते हुए, पहले 2 पीसी प्रतिरक्षा प्रतिक्रिया की कोशिकाओं से संबंधित थे, जबकि तीसरा पीसी नहीं। अन्यथा तीसरा पीसी गलत नहीं है।
डॉक्टरेट

मेरे पास डेटा ड्रेज तकनीकों पर एक नज़र होगी और उनके बारे में अधिक जानकारी प्राप्त होगी। लेकिन क्या आप संयोग से जानते हैं कि क्या यह किसी आर-पैकेज (एस) द्वारा लागू किया गया है?
डॉक्टरेट

1
@doctorate: पूरा विचार डेटा ड्रेजिंग से बचने के लिए है। मुझे खेद है लेकिन मुझे इसके लिए स्पष्ट रूप से परीक्षण करने वाले किसी भी पैकेज का पता नहीं है।
us --r11852 का कहना है कि

1
+1, लेकिन डेटा ड्रेजिंग के बारे में आपका वाक्य ("आप साधारण डेटा ड्रेज कर सकते हैं") बहुत स्पष्ट नहीं है और शायद इसीलिए @doctorate भ्रमित था। वास्तव में, मुझे पता है कि पूरा अनुच्छेद बहुत स्पष्ट नहीं है: आइसोमैप और एलएलई को डेटा ड्रेजिंग के साथ क्या करना है? क्या डेटा अच्छा या बुरा ड्रेजिंग है? विकी लेख जिसे आपने शुरू किया है, इसे स्मथ गुड के रूप में वर्णित करने के साथ शुरू होता है। शायद आप उस अनुच्छेद में थोड़ा और अधिक स्पष्ट होने के लिए संपादित कर सकते हैं?
अमीबा का कहना है कि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.