बूलियन सुविधाओं के एक छोटे से नमूने के लिए पीसीए और वर्णक्रमीय क्लस्टरिंग के बीच अंतर


10

मेरे पास 50 नमूनों का डेटासेट है। प्रत्येक नमूना 11 (संभवतः सहसंबद्ध) बूलियन सुविधाओं से बना है। मैं कुछ ऐसे नमूनों को 2 डी प्लॉट पर देखना चाहता हूं और जांचना चाहता हूं कि क्या 50 नमूनों में समूह / समूह हैं।

मैंने निम्नलिखित दो तरीकों की कोशिश की है:

(ए) 50x11 मैट्रिक्स पर पीसीए चलाएं और पहले दो प्रमुख घटकों को चुनें। डेटा को 2D प्लॉट पर प्रोजेक्ट करें और क्लस्टर की पहचान करने के लिए सरल K- साधन चलाएं।

(बी) एक 50x50 (कोसाइन) समानता मैट्रिक्स का निर्माण। K- साधनों के बाद फिर से आयामी कमी के लिए वर्णक्रमीय क्लस्टरिंग चलाएं ।

प्रत्यक्ष पीसीए बनाम समानता मैट्रिक्स के eigenvalues ​​का उपयोग करने के बीच वैचारिक अंतर क्या है? क्या यह दूसरे से बढ़िया है?

इसके अलावा, 2 डी में इस तरह के डेटा की कल्पना करने के बेहतर तरीके हैं? चूँकि मेरे नमूने का आकार हमेशा 50 तक सीमित होता है और मेरा फीचर सेट हमेशा 10-15 रेंज में होता है, इसलिए मैं फ़्लाई-ऑन-फ्लाई के कई तरीकों को आज़माने और सर्वश्रेष्ठ लेने के लिए तैयार हूं।

संबंधित प्रश्न: क्लस्टरिंग या पीसीए द्वारा नमूनों को समूहीकृत करना

जवाबों:


9

प्रत्यक्ष पीसीए बनाम समानता मैट्रिक्स के eigenvalues ​​का उपयोग करने के बीच वैचारिक अंतर क्या है?

पीसीए एक सहसंयोजक या सहसंबंध मैट्रिक्स पर किया जाता है, लेकिन वर्णक्रमीय क्लस्टरिंग किसी भी समानता मैट्रिक्स (जैसे कोसाइन समानता के साथ बनाया गया) ले सकते हैं और वहां क्लस्टर ढूंढ सकते हैं।

दूसरा, वर्णक्रमीय क्लस्टरिंग एल्गोरिदम ग्राफ विभाजन पर आधारित होता है (आमतौर पर यह ग्राफ़ के सबसे अच्छे कट खोजने के बारे में होता है), जबकि पीसीए उन दिशाओं का पता लगाता है जिनमें अधिकांश विचरण होते हैं। यद्यपि दोनों मामलों में हम ईजेनवेक्टरों को ढूंढते हुए समाप्त होते हैं, वैचारिक दृष्टिकोण अलग हैं।

और अंत में, मैं देख रहा हूं कि पीसीए और वर्णक्रमीय क्लस्टरिंग अलग-अलग उद्देश्यों की पूर्ति करती है: एक एक आयामी कमी तकनीक है और दूसरा क्लस्टरिंग के लिए एक दृष्टिकोण है (लेकिन यह आयामी कमी के माध्यम से किया जाता है)


5

बूलियन (यानी, दो वर्गों के साथ श्रेणीबद्ध) सुविधाओं के लिए, पीसीए का उपयोग करने का एक अच्छा विकल्प मल्टीपल कॉरेस्पॉन्डेंस एनालिसिस (एमसीए) का उपयोग करना है, जो कि पीसीए का विस्तार श्रेणीबद्ध चर (संबंधित धागा देखें ) के लिए है। एमसीए के बारे में कुछ पृष्ठभूमि के लिए, कागजात हसन एट अल हैं। (2010) , या अब्दी और वैलेंटाइन (2007) । MCA करने के लिए एक उत्कृष्ट R पैकेज FactoMineR है । यह आपको प्रमुख घटकों पर टिप्पणियों के भार के दो-आयामी मानचित्रों की साजिश करने के लिए उपकरण प्रदान करता है, जो बहुत ही व्यावहारिक है।

नीचे मेरे पिछले अनुसंधान परियोजनाओं में से दो मानचित्र उदाहरण हैं (ggplot2 के साथ प्लॉट किए गए)। मेरे पास केवल 60 अवलोकन थे और इसने अच्छे परिणाम दिए। पहला नक्शा स्पेस पीसी 1-पीसी 2 में टिप्पणियों का प्रतिनिधित्व करता है, दूसरा नक्शा स्पेस पीसी 3-पीसी 4 में ... चर को मैप में भी दर्शाया जाता है, जो आयामों के अर्थ की व्याख्या करने में मदद करता है। इन मानचित्रों में से कई से अंतर्दृष्टि एकत्रित करना आपके डेटा में क्या हो रहा है, इसकी एक बहुत अच्छी तस्वीर दे सकता है।

यहाँ छवि विवरण दर्ज करें

ऊपर दी गई वेबसाइट पर, आपको एक उपन्यास प्रक्रिया, एचसीपीसी के बारे में जानकारी मिलेगी, जो प्रमुख घटकों पर श्रेणीबद्ध क्लस्टरिंग के लिए है, और जो आपके लिए रुचि हो सकती है। मूल रूप से, यह विधि निम्नानुसार काम करती है:

  • MCA करें,
  • पहले को बनाए रखें आयाम (कहां) <पी, साथ में पीआपकी सुविधाओं की मूल संख्या)। यह कदम इस मायने में उपयोगी है कि यह कुछ शोर को दूर करता है, और इसलिए अधिक स्थिर क्लस्टरिंग की अनुमति देता है,
  • बनाए रखने वाले पीसी के स्थान पर एक एग्लोमेरेटिव (नीचे-ऊपर) पदानुक्रमित क्लस्टरिंग करते हैं। चूंकि आप पीसी स्पेस (वास्तविक संख्या) में टिप्पणियों के अनुमानों के निर्देशांक का उपयोग करते हैं, तो आप लिंकेज के लिए वार्ड की कसौटी (भीतर-क्लस्टर विचरण में न्यूनतम वृद्धि) के साथ यूक्लिडियन दूरी का उपयोग कर सकते हैं। आप अपनी पसंद की ऊंचाई पर डेंडोग्राम को काट सकते हैं या आर को काट सकते हैं यदि आप कुछ अनुमान के आधार पर,
  • (वैकल्पिक) K- साधन क्लस्टरिंग करके क्लस्टर को स्थिर करते हैं। प्रारंभिक विन्यास पिछले चरण में पाए गए समूहों के केंद्रों द्वारा दिया जाता है।

फिर, आपके पास क्लस्टर (अधिकांश प्रतिनिधि सुविधाएँ, अधिकांश प्रतिनिधि व्यक्ति, आदि) की जांच करने के बहुत सारे तरीके हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.