पीसीए / पत्राचार विश्लेषण में "घोड़े की नाल प्रभाव" और / या "आर्च प्रभाव" क्या है?


20

बहुआयामी डेटा के खोजपूर्ण डेटा विश्लेषण के लिए पारिस्थितिक आंकड़ों में कई तकनीकें हैं। इन्हें 'ऑर्डिनेशन' तकनीक कहा जाता है। कई समान या बारीकी से आँकड़ों में कहीं सामान्य तकनीकों से संबंधित हैं। शायद प्रोटोटाइप का उदाहरण मुख्य घटक विश्लेषण (पीसीए) होगा। पारिस्थितिकीविज्ञानी 'ग्रेडिएंट' का पता लगाने के लिए पीसीए और संबंधित तकनीकों का उपयोग कर सकते हैं (मैं पूरी तरह से स्पष्ट नहीं हूं कि ढाल क्या है, लेकिन मैं इसके बारे में थोड़ा पढ़ रहा हूं।)

पर इस पेज के तहत पिछले आइटम प्रधानाचार्य घटक विश्लेषण (पीसीए) पर लिखा है:

  • पीसीए में वनस्पति डेटा के लिए एक गंभीर समस्या है: घोड़े की नाल का प्रभाव। यह ग्रेडिएंट्स के साथ प्रजातियों के वितरण की वक्रता के कारण होता है। चूंकि प्रजाति प्रतिक्रिया वक्र आम तौर पर असमान (यानी बहुत दृढ़ता से वक्रता वाले) होते हैं, घोड़े की नाल प्रभाव आम हैं।

पत्राचार विश्लेषण या पारस्परिक लाभ (आरए) के तहत पृष्ठ के नीचे , यह "आर्च प्रभाव:" को संदर्भित करता है

  • आरए की एक समस्या है: आर्क प्रभाव। यह ग्रेडिएंट्स के साथ वितरण की गैर-समता के कारण भी होता है।
  • आर्क पीसीए के घोड़े की नाल के प्रभाव के रूप में गंभीर नहीं है, क्योंकि ढाल के छोर जटिल नहीं हैं।

क्या कोई इसे समझा सकता है? मैंने हाल ही में प्लॉट में इस घटना को देखा है जो कम आयामी स्थान (अर्थात, पत्राचार विश्लेषण और कारक विश्लेषण) में डेटा का पुन: प्रतिनिधित्व करते हैं।

  1. एक "ढाल" अधिक सामान्यतः (यानी, एक गैर-पारिस्थितिक संदर्भ में) के अनुरूप कैसे होगा?
  2. यदि आपके डेटा के साथ ऐसा होता है, तो क्या यह "समस्या" ("गंभीर समस्या") है? किस लिए?
  3. आउटपुट की व्याख्या कैसे करनी चाहिए जहां एक घोड़े की नाल / मेहराब दिखाई देता है?
  4. क्या एक उपाय लागू करने की आवश्यकता है? क्या? क्या मूल डेटा के रूपांतरण से मदद मिलेगी? क्या होगा यदि डेटा क्रमिक रेटिंग हैं?

उत्तर उस साइट के अन्य पृष्ठों में मौजूद हो सकते हैं (जैसे, पीसीए , सीए और डीसीए के लिए )। मैं उन लोगों के माध्यम से काम करने की कोशिश कर रहा हूं। लेकिन विचार-विमर्श पर्याप्त रूप से अपरिचित पारिस्थितिक शब्दावली और उदाहरणों में स्पष्ट है कि इस मुद्दे को समझना कठिन है।


1
(+1) मुझे ordination.okstate.edu/PCA.htm पर यथोचित स्पष्ट उत्तर मिला । आपके उद्धरण में "वक्रता" स्पष्टीकरण पूरी तरह से गलत है - जो कि इसे इतना भ्रमित करता है।
whuber

2
डायकॉनिस, एट अल भी देखें। (2008), घोड़े की नाल बहुआयामी स्केलिंग और स्थानीय कर्नेल विधियों में , एन। Appl। स्टेट। , वॉल्यूम। 2, नहीं। 3, 777-807।
कार्डिनल

मैंने आपके सवालों के जवाब देने की कोशिश की है, लेकिन मुझे यकीन नहीं है कि मैंने कितना अच्छा हासिल किया है, क्योंकि मैं एक इकोलॉजिस्ट और ग्रेडिएंट हूं।
मोनिका को बहाल करें - जी। सिम्पसन

@ शुभंकर: उद्धृत "वक्रता" स्पष्टीकरण भ्रामक हो सकता है और बहुत स्पष्ट नहीं है, लेकिन मुझे नहीं लगता कि यह "पूरी तरह से गलत" है। यदि वास्तविक "ढाल" (आपके लिंक से एक उदाहरण का उपयोग करके) के साथ स्थिति के एक समारोह के रूप में प्रजातियों की बहुतायत सभी रैखिक थे (शायद कुछ शोर से भ्रष्ट), तो अंकों का बादल (लगभग) 1-आयामी और पीसीए होगा मिल जाएगा। अंकों का बादल तुला / घुमावदार हो जाता है क्योंकि फ़ंक्शन रैखिक नहीं होते हैं। स्थानांतरित गौसियों का एक विशेष मामला एक घोड़े की नाल के लिए होता है।
अमीबा का कहना है कि मोनिका

@Amoeba फिर भी, घोड़े की नाल का प्रभाव प्रजातियों के प्रवणता की वक्रता से नहीं होता है: यह वितरण अनुपातों में गैर-विहीनताओं से उत्पन्न होता है । उद्धरण, ग्रेडिएंट्स के आकार को स्वयं को प्रभावित करने के लिए, घटना के कारण की सही पहचान नहीं करता है।
whuber

जवाबों:


19

Q1

पारिस्थितिकीविद हर समय ग्रेडिएंट की बात करते हैं। बहुत सारे प्रकार के ग्रेडिएंट हैं, लेकिन उनमें से कुछ के संयोजन के रूप में यह सोचना सबसे अच्छा हो सकता है कि आप जो भी चर (ओं) चाहते हैं या प्रतिक्रिया के लिए महत्वपूर्ण हैं। तो एक ढाल समय, या स्थान, या मिट्टी की अम्लता, या पोषक तत्व, या कुछ और अधिक जटिल हो सकता है जैसे कि किसी तरह से प्रतिक्रिया द्वारा आवश्यक चर की एक श्रेणी का रैखिक संयोजन।

हम ग्रेडिएंट के बारे में बात करते हैं क्योंकि हम अंतरिक्ष या समय में प्रजातियों का निरीक्षण करते हैं और चीजों का एक पूरा मेजबान उस स्थान या समय के साथ बदलता रहता है।

Q2

मैं इस निष्कर्ष पर पहुंचा हूं कि कई मामलों में पीसीए में घोड़े की नाल एक गंभीर समस्या नहीं है यदि आप समझते हैं कि यह कैसे उठता है और पीसी 1 जैसी मूर्खतापूर्ण चीजें नहीं करता है जब "ग्रेडिएंट" वास्तव में पीसी 1 और पीसी 2 द्वारा प्रतिनिधित्व किया जाता है (अच्छी तरह से) भी उच्च पीसी में विभाजित है, लेकिन उम्मीद है कि एक 2-डी प्रतिनिधित्व ठीक है)।

सीए में मुझे लगता है कि मुझे लगता है कि एक ही (अब इसके बारे में थोड़ा सोचने के लिए मजबूर किया गया है)। जब डेटा में कोई मजबूत 2 आयाम नहीं होता है तो समाधान एक आर्च बना सकता है जैसे कि पहले अक्ष का एक मुड़ा हुआ संस्करण, जो CA अक्षों की ऑर्थोगोनलिटी आवश्यकता को संतुष्ट करता है, डेटा में एक और दिशा की तुलना में अधिक "जड़ता" की व्याख्या करता है। यह अधिक गंभीर हो सकता है क्योंकि यह संरचना से बना है जहां पीसीए के साथ आर्क सिर्फ एक प्रमुख ढाल के साथ साइटों पर प्रजातियों के बहुतायत का प्रतिनिधित्व करने का एक तरीका है।

मैं कभी नहीं समझ पाया कि लोग एक मजबूत घोड़े की नाल के साथ PC1 के गलत ऑर्डर के बारे में इतनी चिंता क्यों करते हैं। मैं काउंटर करूंगा कि आपको ऐसे मामलों में सिर्फ PC1 नहीं लेना चाहिए, और फिर समस्या दूर हो जाती है; PC1 और PC2 पर निर्देशांक के जोड़े उन दो अक्षों में से किसी एक पर उलटफेर से छुटकारा दिलाते हैं।

Q3

अगर मैं एक पीसीए बाइपोलॉट में घोड़े की नाल देखता हूं, तो मैं डेटा को एक एकल प्रमुख ढाल या भिन्नता की दिशा होने के रूप में व्याख्या करूंगा।

यदि मैंने आर्च को देखा, तो मैं शायद उसी को समाप्त करूंगा, लेकिन मैं सीए 2 को बिल्कुल समझाने की कोशिश करूंगा।

मैं DCA को लागू नहीं करूंगा - यह सिर्फ आर्च को दूर करता है (सर्वोत्तम परिस्थितियों में) जैसे कि आप 2-d भूखंडों में विषमताओं को नहीं देखते हैं, लेकिन कई मामलों में यह हीरे या तुरही के आकार जैसी अन्य प्रभावशाली संरचनाएं पैदा करता है। डीसीए अंतरिक्ष में नमूनों की व्यवस्था। उदाहरण के लिए:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

यहां छवि विवरण दर्ज करें

हम प्लॉट के बाईं ओर नमूना बिंदुओं से बाहर एक विशिष्ट फैनिंग देखते हैं।

Q4

यह डेटा के उच्च-आयामी स्थान में एक अरेखीय दिशा खोजने का सुझाव देगा। ऐसी ही एक विधि हैस्टी और स्टुज़ेल की प्रमुख वक्र है, लेकिन अन्य गैर-रेखीय कई गुना विधियां उपलब्ध हैं जो पर्याप्त हो सकती हैं।

उदाहरण के लिए, कुछ रोग संबंधी आंकड़ों के लिए

यहां छवि विवरण दर्ज करें

हम एक मजबूत घोड़े की नाल देखते हैं। प्रिंसिपल कर्व इस अंतर्निहित ग्रेडिएंट या डेटा के मी डायमेंशन में स्मूथ कर्व के माध्यम से सैंपल आर्डर / रिकवर करने की कोशिश करता है। नीचे दिए गए आंकड़े से पता चलता है कि कैसे पुनरावृत्ति एल्गोरिथ्म अंतर्निहित ढाल को अनुमानित करने वाली किसी चीज़ पर परिवर्तित होता है। (मुझे लगता है कि यह साजिश के शीर्ष पर डेटा से दूर भटकता है ताकि उच्च आयामों में डेटा के करीब हो, और आंशिक रूप से एक वक्र के लिए स्व-संगतता मानदंड के कारण मुख्य वक्र घोषित किया जा सके।)

यहां छवि विवरण दर्ज करें

मेरे पास अपने ब्लॉग पोस्ट पर कोड सहित और अधिक विवरण हैं जिनसे मैंने उन चित्रों को लिया। लेकिन यहाँ मुख्य बिंदु प्रमुख घटता है जो नमूनों के ज्ञात क्रम को आसानी से ठीक कर देता है जबकि PC1 या PC2 अपने आप नहीं होता है।

पीसीए मामले में, पारिस्थितिकी में परिवर्तन लागू करना आम है। लोकप्रिय रूपांतरण वे हैं जिन्हें यूक्लिडियन दूरी को रूपांतरित डेटा पर गणना करने पर कुछ गैर-यूक्लिडियन दूरी वापस करने के बारे में सोचा जा सकता है। उदाहरण के लिए, हेलिंगर दूरी है

डीएचएलएलमैंnजीआर(एक्स1,एक्स2)=Σजे=1पी[y1जेy1+-y2जेy2+]2

yमैंजेजेमैंyमैं+मैं

पारिस्थितिकी में लंबे समय तक घोड़े की नाल जाना और अध्ययन किया गया है; कुछ प्रारंभिक साहित्य (प्लस एक अधिक आधुनिक रूप) है

मुख्य प्रमुख वक्र संदर्भ हैं

पूर्व के साथ एक बहुत ही पारिस्थितिक प्रस्तुति है।


धन्यवाद, गेविन। एक डेटासेट w / 1 से क्रमिक रेटिंग पर विचार करें: जैसे "मुझे मेरा डॉक्टर पसंद है", और "मुझे लगता है कि मेरा डॉक्टर एक व्यक्ति के रूप में मेरे बारे में परवाह करता है"। ये सार्थक रूप से अंतरिक्ष या समय पर वितरित नहीं होते हैं। यहां would ग्रेडिएंट ’क्या होगा?
गुंग - को पुनः स्थापित मोनिका

W / 5x5 तालिका और उच्च एन, डेटा को दर्शाने का एक तरीका w / CA है। डेटा क्रमबद्ध हैं, लेकिन CA यह नहीं पहचानता है; इसलिए हम यह देख सकते हैं कि क्या आसन्न पंक्तियाँ / स्तंभ आगे से अलग हैं। दोनों बिंदुओं के समुच्चय उचित क्रम में एक स्पष्ट रेखा के साथ आते हैं, लेकिन रेखा इस तरह घटती है कि चरम 2 डी अंतरिक्ष में मध्य बिंदु की तुलना में एक दूसरे के करीब हैं। इसकी व्याख्या कैसे की जानी चाहिए?
गूँग -

CA दोनों पंक्तियों (सैंपल) और वैरिएबल (cols) के लिए ऑर्डर करता है जो सैंपल "स्कोर" के फैलाव को अधिकतम करता है। यह एक अव्यक्त चर (चर का एक रैखिक संयोजन) पाता है जो उस फैलाव को अधिकतम करता है। हम उस अव्यक्त चर को एक ढाल कहते हैं।
मोनिका को बहाल करें - जी। सिम्पसन

संपीड़न को फिर से करें, क्या आपका मतलब सीए अक्ष 1 पर एक-दूसरे के करीब है या बाइपोलॉट के पैमाने में यूक्लिडियन दूरी के संदर्भ में एक-दूसरे के करीब है? किसी भी तरह से, यह वास्तव में कम आयामी स्थान पर डेटा के प्रक्षेपण में एक मुद्दा है। डीसीए बिगड़े हुए डीसीए अक्ष 1 के अंत में अलग-अलग नमूने खींचकर और मूल के पास के नमूनों को संपीड़ित करके इस प्रभाव को पूर्ववत करने की कोशिश करता है। तो हां, यह एक समस्या है, लेकिन यह अंतर्निहित ढाल को उचित रूप से पकड़ने के लिए विधि की अनम्यता के कारण है। हम इसके साथ रह सकते हैं या अधिक लचीले दृष्टिकोण (कम से कम पारिस्थितिकी में) का उपयोग कर सकते हैं।
मोनिका को बहाल करें - जी। सिम्पसन

1
यदि आप इसे अधिक आयामों में देखते हैं, तो समस्या दूर हो जाएगी। मुझे लगता है कि यह केवल विधि की एक सीमा है; यह कई मामलों में ठीक है, लेकिन दूसरों में विफल रहता है।
मोनिका को बहाल करें - जी। सिम्पसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.