पृष्ठभूमि : मैं किसी शहर के आवासीय क्षेत्रों को उनकी सामाजिक-आर्थिक विशेषताओं के आधार पर समूहों में वर्गीकृत करना चाहता हूं, जिसमें आवास इकाई घनत्व, जनसंख्या घनत्व, हरा अंतरिक्ष क्षेत्र, आवास मूल्य, स्कूलों की संख्या / स्वास्थ्य केंद्र / दिन देखभाल केंद्र आदि शामिल हैं। मैं यह समझना चाहता हूं कि आवासीय क्षेत्रों को कितने अलग-अलग समूहों में विभाजित किया जा सकता है और उनकी विशिष्ट विशेषताएं क्या हैं। यह जानकारी शहर नियोजन को आसान बना सकती है।
कुछ उदाहरणों के आधार पर (cf., यह ब्लॉग पोस्ट: PCA और K-mean Clustering of Delta विमान ), मुझे लगा कि विश्लेषण करने का तरीका है:
पहले पीसीए विश्लेषण करें।
पीसीए परिणामों के आधार पर अद्वितीय समूहों (समूहों) की संख्या निर्धारित करें (उदाहरण के लिए, "कोहनी" विधि का उपयोग करके, या वैकल्पिक रूप से, घटकों की संख्या जो कुल विचरण का 80 से 90% बताती है)।
समूहों की संख्या निर्धारित करने के बाद, वर्गीकरण करने के लिए k- साधन क्लस्टरिंग लागू करें।
मेरे प्रश्न: ऐसा लगता था कि पीसीए घटकों की संख्या क्लस्टर विश्लेषण से संबंधित है। तो क्या यह सच है, अगर, कहते हैं, हमने पाया कि 5 पीसीए घटकों ने सभी विशेषताओं के 90% से अधिक भिन्नता को समझाया, तो हम k- साधन क्लस्टरिंग लागू करेंगे और 5 क्लस्टर प्राप्त करेंगे। तो क्या 5 समूह PCA विश्लेषण में 5 घटकों के बिल्कुल अनुरूप होंगे?
दूसरे शब्दों में, मुझे लगता है कि मेरा सवाल यह है: पीसीए विश्लेषण और के-साधन क्लस्टरिंग के बीच क्या संबंध है?
अपडेट: Emre, xeon और Kirill के इनपुट के लिए धन्यवाद। तो वर्तमान जवाब:
क्लस्टरिंग विश्लेषण से पहले पीसीए करना एक सुविधा चिमटा के रूप में आयामीता में कमी के लिए भी उपयोगी है और समूहों को प्रकट / प्रकट करता है।
क्लस्टरिंग के बाद पीसीए करना क्लस्टरिंग एल्गोरिथ्म को मान्य कर सकता है (संदर्भ: कर्नेल प्रमुख घटक विश्लेषण )।
पीसीए को कभी-कभी क्लस्टरिंग से पहले डेटासेट की गतिशीलता को कम करने के लिए लागू किया जाता है। हालाँकि, Yeung & Ruzzo (2000) ने दिखाया कि मूल चरों के बजाय पीसी के साथ क्लस्टरिंग करने से क्लस्टर गुणवत्ता में सुधार नहीं होता है। विशेष रूप से, पहले कुछ पीसी (जिनमें डेटा में सबसे अधिक भिन्नता है) जरूरी नहीं कि अधिकांश क्लस्टर संरचना को कैप्चर करें।
- येंग, का ये और वाल्टर एल रुज़ो। जीन अभिव्यक्ति डेटा क्लस्टरिंग के लिए प्रमुख घटक विश्लेषण पर एक अनुभवजन्य अध्ययन। तकनीकी रिपोर्ट, कंप्यूटर विज्ञान और इंजीनियरिंग विभाग, वाशिंगटन विश्वविद्यालय, 2000। ( पीडीएफ )
ऐसा लगता था कि दो-चरणीय क्लस्टरिंग विश्लेषण से पहले पीसीए आवश्यक है । Ibes (2015) के आधार पर, जिसमें PCA में पहचाने गए कारकों का उपयोग करके क्लस्टर विश्लेषण चलाया गया था।
- Ibes, डोरोथी सी। एक बहु-आयामी वर्गीकरण और शहरी पार्क प्रणाली का इक्विटी विश्लेषण: एक उपन्यास पद्धति और केस स्टडी एप्लिकेशन। लैंडस्केप और अर्बन प्लानिंग , वॉल्यूम 137, मई 2015, पृष्ठ 122-137।