असतत डेटा और पीसीए के लिए विकल्प


9

मेरे पास असतत (आर्डिनल, मेरिस्टिक और नॉमिनल) वेरिएबल्स का एक डेटासेट है जिसमें कीड़े के कई निकट संबंधी प्रजातियों पर रूपात्मक विंग पात्रों का वर्णन है। मैं जो करना चाह रहा हूं वह किसी प्रकार का विश्लेषण है जो मुझे रूपात्मक विशेषताओं के आधार पर विभिन्न प्रजातियों की समानता का एक दृश्य प्रतिनिधित्व प्रदान करेगा। पहली चीज जो मेरे सिर में थी, वह थी पीसीए (यह उस प्रकार का दृश्य है जिसे मैं बनाने के लिए देख रहा हूं), लेकिन इसे देखने के बाद (विशेष रूप से अन्य प्रश्न जैसे: क्या प्रिंसिपल कंपोनेंट विश्लेषण को डेटासेट पर लागू किया जा सकता है जिसमें निरंतर का मिश्रण होता है और श्रेणीबद्ध चर?), ऐसा लगता है कि पीसीए असतत डेटा के लिए अनुपयुक्त हो सकता है (पीसीए का उपयोग साहित्य में इस प्रकार के अध्ययनों में किया जाता है, लेकिन हमेशा अन्य डेटा के साथ)। इस डेटा के अनुपयुक्त होने की सांख्यिकीय पृष्ठभूमि को अनदेखा करते हुए, पीसीए मेरे जैविक प्रश्न के संबंध में अपेक्षाकृत सही परिणाम देता है (ब्याज समूहों के संकर समूह अपने पैतृक समूहों के बीच में ही सही)।

मैंने आँकड़ों को तुष्ट करने के लिए कई पत्राचार विश्लेषणों की भी कोशिश की है (कम से कम जहाँ तक मेरी समझ जाती है), लेकिन मुझे ऐसा कोई कथानक नहीं मिल रहा है, जो मेरे पीसीए के साथ मिल जाए, जहाँ मेरी टिप्पणियों (जैविक व्यक्तियों) के अनुरूप हो अलग-अलग समूह (विभिन्न प्रजातियों, जैविक रूप से बोलने) को दिखाने के लिए रंग द्वारा अलग-अलग कहा जाता है। ऐसा लगता है कि यह विश्लेषण यह बताने के उद्देश्य से है कि चर (यहाँ, मेरी रूपात्मक विशेषताएं) एक-दूसरे से संबंधित हैं, न कि व्यक्तिगत टिप्पणियों से। और जब मैं समूह द्वारा चित्रित टिप्पणियों का प्लॉट करता हूं, तो मुझे केवल एक ही मूल्य (शायद एक औसत) मिलता है जो व्यक्तियों के पूरे सेट का वर्णन करता है। मैंने आर में विश्लेषण किया है, इसलिए शायद मैं भी आर-सेवी नहीं हूं, ताकि मैं काम करने के लिए अपने विचार को प्राप्त कर सकूं।

क्या मैं अपने डेटा के साथ इस तरह के विश्लेषण की कोशिश में सही हूं, या क्या मैं रास्ते से हट गया हूं? यदि आप नहीं बता सकते हैं, तो मेरी सांख्यिकीय विशेषज्ञता सीमित है, इसलिए इन विश्लेषणों के नीचे होने वाले समीकरण मेरे सिर पर हैं। मैं इस विश्लेषण का पूरी तरह से वर्णन करने की कोशिश कर रहा हूं (मुझे किसी और डाउनस्ट्रीम नंबर को क्रंच करने की आवश्यकता नहीं है), और मैंने पढ़ा है कि यदि यह मामला है, तो पीसीए पर्याप्त होगा, लेकिन यह सुनिश्चित करना चाहता हूं कि मैं नहीं हूं कई सांख्यिकीय मान्यताओं का उल्लंघन करना।


1
आप कई पत्राचार विश्लेषण के साथ जिस तरह का प्लॉट चाहते हैं, उसे पाने में सक्षम होना चाहिए। यदि आप हमें अपने डेटा का लिंक दे सकते हैं तो हम देख सकते हैं। बहुआयामी स्केलिंग एक और संभावना है, लेकिन MCA को बहुआयामी स्केलिंग के रूप में देखा जा सकता है
kjetil b halvorsen

अव्यक्त वर्ग क्लस्टरिंग एक अन्य पद्धतिगत विकल्प है। मूल रूप से, एलसीए एक 'मॉडल' बनाता है जिसमें अवशिष्ट से विषमता का उपयोग किया जाता है। ऐतिहासिक रूप से, साहित्य में 2 व्यापक अनुसंधान धाराएँ रही हैं, दोनों समाजशास्त्रीय। 50 के दशक में कोलंबिया के मूल LCA में लार्सफेल्ड के लिए तारीखें अनसुनी हो गई थीं और श्रेणीबद्ध डेटा का उपयोग किया गया था- R का poLCA इसका एक उदाहरण है। LCA के लिए हाल ही में पर्यवेक्षित परिमित मिश्रण मॉडल विकसित किए गए हैं। मुझे आर मॉड्यूल्स के बारे में पता नहीं है लेकिन वहाँ सस्ता वाणिज्यिक सॉफ्टवेयर है जो इसे ( अव्यक्त सोना ) करता है। एलजी वेबसाइट के पास एलसीए
माइक हंटर

जवाबों:


1

यह आपके उद्देश्य पर थोड़ा निर्भर करता है, लेकिन यदि आप एक विज़ुअलाइज़ेशन टूल के बाद हैं, तो यादृच्छिक वन निकटता के आउटपुट में बहुआयामी स्केलिंग लागू करने के साथ एक चाल है जो सुंदर चित्र पैदा कर सकता है और श्रेणीबद्ध और निरंतर डेटा के मिश्रण के लिए काम करेगा। यहाँ आप अपने भविष्यवक्ताओं के अनुसार प्रजातियों का वर्गीकरण करेंगे। लेकिन - और यह एक बड़ी चेतावनी है - मुझे नहीं पता कि क्या वास्तव में किसी को पता है कि इन विज़ुअलाइज़ेशन का आउटपुट क्या है।

एक अन्य विकल्प यह हो सकता है कि गोवर समानता जैसी किसी चीज़ पर बहुआयामी स्केलिंग लागू करें।

एक लटका हुआ प्रश्न है - आपका अंतिम उद्देश्य क्या है? आप किस प्रश्न का उत्तर देना चाहते हैं? मैं इन तकनीकों को खोजपूर्ण साधनों के रूप में पसंद करता हूं, जो शायद आपको अधिक और बेहतर प्रश्न पूछने के लिए प्रेरित करते हैं, लेकिन मुझे यकीन नहीं है कि वे आपको क्या समझाते हैं या खुद से बताते हैं।

हो सकता है कि मैं आपके प्रश्न में बहुत अधिक पढ़ रहा हूं, लेकिन यदि आप यह पता लगाना चाहते हैं कि दो शुद्ध प्रजातियों के बीच बैठे हाइब्रिड के लिए कौन से प्रेडिक्टर वेरिएबल्स के मान हैं, तो आप बेहतर तरीके से एक मॉडल का निर्माण कर सकते हैं जो भविष्यवक्ता चर के लिए मूल्यों का अनुमान लगाता है सीधे प्रजातियों और संकरों के लिए। यदि आप मापना चाहते हैं कि चर एक-दूसरे से कैसे संबंधित हैं, तो शायद एक सहसंबंध मैट्रिक्स का निर्माण करें - और इसके लिए कई स्वच्छ विज़ुअलाइज़ेशन हैं।


इनपुट के लिए धन्यवाद। अंत में, इस विश्लेषण से मैं चाहता हूं कि कुछ प्रजातियों की समानता का कुछ मात्रात्मक माप दूसरों की तुलना में हो (मेरे पास दो प्रजातियां हैं, जो सिर्फ हाव-भाव के आधार पर एक अन्य निकट संबंधी प्रजातियों की तरह दिखती हैं, लेकिन आनुवंशिक रूप से एक अलग प्रजाति के समान दिखाई देती हैं, प्राचीन संकरण का सुझाव)। इस शोध प्रश्न का मुख्य बिंदु समूह के आनुवंशिकी की जांच करना है, और यह रूपात्मक विश्लेषण पूरी जैविक कहानी में जोड़ देगा। क्या यह बहुआयामी स्केलिंग पीसीए के समान दृश्य की ओर ले जाएगा?
जद

आपको समान दृश्य मिलते हैं। एमडीएस का विचार / अंतर्ज्ञान एक उच्च आयामी स्थान (आप के लिए रूपात्मक विशेषताओं का स्थान) से कुछ कम आयामी अंतरिक्ष (जैसे 2 डी फ्लैट विमान) जैसे मानचित्रण का निर्माण करना है, ताकि उच्च आयामी अंतरिक्ष में दूरी "बहुत अधिक हो" वही "निम्न डायनामिक स्पेस के रूप में। फिर आप 2 डी फ्लैट विमान की साजिश कर सकते हैं। लेकिन यह कहीं से उच्च आयामी अंतरिक्ष के लिए एक दूरी मीट्रिक प्राप्त करने के लिए आकस्मिक है।
पैट्रिक कैलडन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.