पीसीए एक k- साधन क्लस्टरिंग विश्लेषण के साथ कैसे मदद करेगा?


32

पृष्ठभूमि : मैं किसी शहर के आवासीय क्षेत्रों को उनकी सामाजिक-आर्थिक विशेषताओं के आधार पर समूहों में वर्गीकृत करना चाहता हूं, जिसमें आवास इकाई घनत्व, जनसंख्या घनत्व, हरा अंतरिक्ष क्षेत्र, आवास मूल्य, स्कूलों की संख्या / स्वास्थ्य केंद्र / दिन देखभाल केंद्र आदि शामिल हैं। मैं यह समझना चाहता हूं कि आवासीय क्षेत्रों को कितने अलग-अलग समूहों में विभाजित किया जा सकता है और उनकी विशिष्ट विशेषताएं क्या हैं। यह जानकारी शहर नियोजन को आसान बना सकती है।

कुछ उदाहरणों के आधार पर (cf., यह ब्लॉग पोस्ट: PCA और K-mean Clustering of Delta विमान ), मुझे लगा कि विश्लेषण करने का तरीका है:

  1. पहले पीसीए विश्लेषण करें।

  2. पीसीए परिणामों के आधार पर अद्वितीय समूहों (समूहों) की संख्या निर्धारित करें (उदाहरण के लिए, "कोहनी" विधि का उपयोग करके, या वैकल्पिक रूप से, घटकों की संख्या जो कुल विचरण का 80 से 90% बताती है)।

  3. समूहों की संख्या निर्धारित करने के बाद, वर्गीकरण करने के लिए k- साधन क्लस्टरिंग लागू करें।

मेरे प्रश्न: ऐसा लगता था कि पीसीए घटकों की संख्या क्लस्टर विश्लेषण से संबंधित है। तो क्या यह सच है, अगर, कहते हैं, हमने पाया कि 5 पीसीए घटकों ने सभी विशेषताओं के 90% से अधिक भिन्नता को समझाया, तो हम k- साधन क्लस्टरिंग लागू करेंगे और 5 क्लस्टर प्राप्त करेंगे। तो क्या 5 समूह PCA विश्लेषण में 5 घटकों के बिल्कुल अनुरूप होंगे?

दूसरे शब्दों में, मुझे लगता है कि मेरा सवाल यह है: पीसीए विश्लेषण और के-साधन क्लस्टरिंग के बीच क्या संबंध है?

अपडेट: Emre, xeon और Kirill के इनपुट के लिए धन्यवाद। तो वर्तमान जवाब:

  1. क्लस्टरिंग विश्लेषण से पहले पीसीए करना एक सुविधा चिमटा के रूप में आयामीता में कमी के लिए भी उपयोगी है और समूहों को प्रकट / प्रकट करता है।

  2. क्लस्टरिंग के बाद पीसीए करना क्लस्टरिंग एल्गोरिथ्म को मान्य कर सकता है (संदर्भ: कर्नेल प्रमुख घटक विश्लेषण )।

  3. पीसीए को कभी-कभी क्लस्टरिंग से पहले डेटासेट की गतिशीलता को कम करने के लिए लागू किया जाता है। हालाँकि, Yeung & Ruzzo (2000) ने दिखाया कि मूल चरों के बजाय पीसी के साथ क्लस्टरिंग करने से क्लस्टर गुणवत्ता में सुधार नहीं होता है। विशेष रूप से, पहले कुछ पीसी (जिनमें डेटा में सबसे अधिक भिन्नता है) जरूरी नहीं कि अधिकांश क्लस्टर संरचना को कैप्चर करें।

    • येंग, का ये और वाल्टर एल रुज़ो। जीन अभिव्यक्ति डेटा क्लस्टरिंग के लिए प्रमुख घटक विश्लेषण पर एक अनुभवजन्य अध्ययन। तकनीकी रिपोर्ट, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, वाशिंगटन विश्वविद्यालय, 2000। ( पीडीएफ )
  4. ऐसा लगता था कि दो-चरणीय क्लस्टरिंग विश्लेषण से पहले पीसीए आवश्यक है । Ibes (2015) के आधार पर, जिसमें PCA में पहचाने गए कारकों का उपयोग करके क्लस्टर विश्लेषण चलाया गया था।


1
आप सुविधा निकालने वाले के रूप में आयामीता में कमी के लिए पीसीए का उपयोग कर सकते हैं, और समूहों की कल्पना कर सकते हैं।
एमरे

3
सरल शुरू करें: आपके पास मौजूद डेटा पर सीधे क्लासिफायर चलाएं और प्रदर्शन पर ध्यान दें। यदि आप प्रदर्शन से संतुष्ट नहीं हैं, तो पीसीए का प्रयास करें (क्रमबद्ध आइगेनवेल्यू प्लॉट के "घुटने" पर घटकों की संख्या का चयन करें) और के-साधन चलाएं। यदि आप अच्छे क्लस्टर देखते हैं, तो एक अच्छा मौका है कि पीसीए + क्लासिफायर एक अच्छा काम करेगा।
व्लादिस्लाव्स डोवलगेक्स

1
आप अपने क्लस्टरिंग एल्गोरिथ्म को मान्य करने के लिए, क्लस्टरिंग के बाद भी पीसीए कर सकते हैं ; रंग अपने क्लस्टर लेबल द्वारा प्रत्येक बिंदु कोड। मैं कर्नेल पीसीए में देखने की भी सलाह देता हूं ।
इमर

ऐसे तरीके हैं जो एक साथ आयामीता में कमी और क्लस्टरिंग करते हैं। इन तरीकों से क्लस्टर्स की पहचान को सुविधाजनक बनाने के लिए एक बेहतर रूप से चुने गए कम आयामी प्रतिनिधित्व की तलाश की जाती है। उदाहरण के लिए, R और संबंधित संदर्भों में संकुल पैकेज देखें।
Nat

जवाबों:


16

पीसीए एक क्लस्टरिंग विधि नहीं है। लेकिन कभी-कभी यह समूहों को प्रकट करने में मदद करता है।

010

1102101010

0


आपके इनपुट्स के लिए धन्यवाद। क्या आप बता सकते हैं कि 0-माध्य के साथ 10-आयामी सामान्य वितरण क्या है? क्या आपका मतलब है कि दस इनपुट फीचर वैरिएबल और उनमें से प्रत्येक एक सामान्य वितरण का अनुसरण करता है?
enJJ

क्षमा करें, मैं एक यादृच्छिक चर के बारे में बात कर रहा हूं जो कि बहु-आयामी सामान्य वितरण का अनुसरण करता है जिसका मतलब है कि 10-आयामी वेक्टर और कोवरियन मैट्रिक्स होगा जो 10x10 सममित मैट्रिक्स है।
किरिल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.