प्रमुख घटक विश्लेषण बनाम पत्राचार विश्लेषण का उपयोग करना


9

मैं अंतःविषय समुदायों से संबंधित डेटा सेट का विश्लेषण कर रहा हूं। डेटा क्वाड्रेट्स में प्रतिशत कवर (समुद्री शैवाल, बार्नाकल, मसल्स, आदि) हैं। मैं प्रजाति गणना के संदर्भ में पत्राचार विश्लेषण (सीए) , और सिद्धांत घटक विश्लेषण (पीसीए) के बारे में सोचने के लिए उपयोग किया जाता हूं क्योंकि रैखिक पर्यावरण (प्रजातियां नहीं) प्रवृत्तियों के लिए कुछ अधिक उपयोगी है। अगर पीसीए या सीए प्रतिशत कवर के लिए बेहतर होगा (कोई कागज नहीं मिल सकता है), तो मुझे वास्तव में कोई भी अनुमान नहीं है, और मुझे यकीन भी नहीं है कि 100% तक का वितरण किया जाएगा। ?

मैं किसी न किसी गाइडलाइन से परिचित हूं कि यदि पहले डिरेल्ड पत्राचार विश्लेषण (डीसीए) अक्ष की लंबाई 2 से अधिक है, तो आप सुरक्षित रूप से मान सकते हैं कि सीए का उपयोग किया जाना चाहिए। DCA अक्ष 1 की लंबाई 2.17 थी, जो मुझे मददगार नहीं लगती।


3
पीसीए और सीए दोनों संबंधित हैं और दोनों एसवीडी एल्गोरिथ्म पर आधारित हो सकते हैं। मौलिक औपचारिक अंतर (@ गैविन के अन्यथा गहरे उत्तर में उल्लिखित नहीं) यह है कि पीसीए केवल स्तंभों के बीच संबंधों को विघटित करता है (जैसे उनके सहसंयोजक मैट्रिक्स को विघटित करके), पंक्तियों को "मामलों" के रूप में माना जाता है; जबकि CA स्तंभों और पंक्तियों को एक साथ समरूपतापूर्वक व्यवहार करते हुए, क्रॉस-टेबुलेशन "श्रेणियों" के रूप में प्रदर्शित करता है। इसलिए सीए द्वारा छोड़े गए बिप्लॉट और पीसीए के बाद अर्ध-द्विप्लव (लोडिंग + स्कोर) प्लॉट किए जा सकते हैं जो कि वैचारिक रूप से काफी अलग जानकारी देते हैं।
ttnphns

जवाबों:


9

पीसीए उन मूल्यों पर काम करता है जहां सीए सापेक्ष मूल्यों पर काम करता है। दोनों आपके द्वारा उल्लेख किए गए सॉर्ट के सापेक्ष बहुतायत डेटा के लिए ठीक हैं (एक प्रमुख चेतावनी के साथ, बाद में देखें)। % डेटा के साथ आपके पास पहले से ही एक सापेक्ष उपाय है, लेकिन फिर भी मतभेद होंगे। अपने आप से पूछो

  • क्या आप प्रचुर मात्रा में प्रजाति / कर में पैटर्न पर जोर देना चाहते हैं (यानी बड़े% कवर वाले), या
  • क्या आप सापेक्ष रचना के पैटर्न पर ध्यान देना चाहते हैं?

यदि पूर्व, PCA का उपयोग करें। यदि बाद का उपयोग सीए। दो सवालों से मेरा क्या मतलब है आप क्या चाहते हैं

A = {50, 20, 10}
B = { 5,  2,  1}

अलग माना जाता है या एक ही है? Aऔर Bदो नमूने हैं और मानों को दिखाए गए तीन टैक्सों का% कवर है। (यह उदाहरण खराब रूप से निकला, मान लें कि नंगे जमीन है; ;-) पीसीए यूक्लिडियन दूरी के कारण इन सबसे अलग पर विचार करेगा, लेकिन सीए इन दोनों नमूनों को बहुत समान होने पर विचार करेगा क्योंकि समान रिश्तेदार प्रोफ़ाइल है।

यहां बड़ा कैवेट डेटा की बंद संरचना प्रकृति है। यदि आपके पास कुछ समूह हैं (सैंड, सिल्ट, क्ले, उदाहरण के लिए) जो कि 1 (100%) तक है, तो न तो दृष्टिकोण सही है और आप ऐचिसन के लॉग-अनुपात पीसीए के माध्यम से अधिक उपयुक्त विश्लेषण पर जा सकते हैं जिसे बंद संरचना के लिए डिज़ाइन किया गया था डेटा। (IIRC ऐसा करने के लिए आपको पंक्तियों और स्तंभों द्वारा केंद्र की आवश्यकता है , और डेटा को रूपांतरित करें।) अन्य दृष्टिकोण भी हैं। यदि आप आर का उपयोग करते हैं, तो एक पुस्तक जो उपयोगी होगी वह है आर के साथ कम्पोजिटल डेटा का विश्लेषण करना


हमेशा की तरह, वास्तव में एक उत्कृष्ट जवाब गेविन। धन्यवाद! यह चीजों को बहुत स्पष्ट करता है, और मैं तब पीसीए का उपयोग करूंगा। यह देखते हुए कि अंतर्जातीय समुदाय 3 आयामी है, प्रतिशत कवर वास्तव में कुछ मामलों में 100% हो गया जब जीव एक-दूसरे के ऊपर बढ़ गए। यह बंद कंपोजिशन फॉर्म नहीं है जिसके बारे में आप बात कर रहे हैं, है ना?
HFBrowning

नहीं, यह वह नहीं है जिसके बारे में वह बात कर रहा है। बंद करके मेरा मानना ​​है कि उनका मतलब एक ऐसी प्रणाली से है जिसमें तीन प्रजातियां A, B, C, आपके पास% C = 100% -% B -% A
पर्टिनैक्स

और डीसीए के बारे में क्या?
डार्विन पीसी

DCA CA का एक गड़बड़ संस्करण है, इसलिए समान सामान्य सिद्धांत इस पर लागू होते हैं। डीसीए डेटा की कुछ अजीब यातना कर रहा है और मुझे नहीं लगता कि हमें आज हमारे टूलबॉक्स में एक विधि के रूप में इसके साथ परेशान करने की आवश्यकता है, लेकिन दूसरों की राय उस पर भिन्न होगी।
गेविन सिम्पसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.