क्या मैं क्लस्टर विश्लेषण के लिए चर चयन करने के लिए पीसीए का उपयोग कर सकता हूं?


12

मुझे क्लस्टर विश्लेषण करने के लिए चर की संख्या कम करनी होगी। मेरे चर दृढ़ता से सहसंबद्ध हैं, इसलिए मैंने एक कारक विश्लेषण पीसीए (प्रमुख घटक विश्लेषण) करने के लिए सोचा । हालांकि, यदि मैं परिणामी अंकों का उपयोग करता हूं, तो मेरे क्लस्टर सही नहीं हैं (साहित्य में पिछले वर्गीकरणों की तुलना में)।

सवाल:

क्या मैं प्रत्येक घटक / कारक के लिए सबसे बड़े भार के साथ चर का चयन करने के लिए रोटेशन मैट्रिक्स का उपयोग कर सकता हूं और मेरी क्लस्टरिंग के लिए केवल इन चर का उपयोग कर सकता हूं?

कोई ग्रंथ सूची संदर्भ भी सहायक होगा।

अपडेट करें:

कुछ स्पष्टीकरण:

  • मेरा लक्ष्य: मुझे SPSS द्वारा द्वि-चरणीय एल्गोरिथ्म के साथ क्लस्टर विश्लेषण चलाना है, लेकिन मेरे चर स्वतंत्र नहीं हैं, इसलिए मैंने उनमें से कुछ को त्यागने के बारे में सोचा।

  • मेरा डेटासेट: मैं 100,000 मामलों के 15 स्केलर मापदंडों (मेरे चर) पर काम कर रहा हूं। कुछ चर दृढ़ता से सहसंबद्ध होते हैं ( पियर्सन)>0.9

  • मेरा संदेह: चूंकि मुझे केवल स्वतंत्र चर की आवश्यकता है, इसलिए मैंने एक प्रिंसिपल कंपोनेंट एनालिसिस चलाने के बारे में सोचा (क्षमा करें: मैंने अपने मूल प्रश्न, मेरी गलती के फैक्टर एनालिसिस के बारे में गलत तरीके से बात की) और प्रत्येक घटक के लिए सबसे बड़े लोडिंग वाले केवल चर का चयन करें। मुझे पता है कि पीसीए प्रक्रिया कुछ मनमाने कदमों को प्रस्तुत करती है, लेकिन मुझे पता चला कि यह चयन वास्तव में " विधि बी 4 " के समान है, जिसे आईटी जोलीफे (1972 और 2002) द्वारा प्रस्तावित किया गया था, चर का चयन करने के लिए और 1999 में जेआर किंग और डीए जैक्सन द्वारा भी सुझाव दिया गया था। ।

    इसलिए मैं इस तरह से स्वतंत्र चर के कुछ उप-समूहों का चयन करने के लिए सोच रहा था। मैं तब समूहों का उपयोग विभिन्न क्लस्टर विश्लेषण चलाने के लिए करूंगा और मैं परिणामों की तुलना करूंगा।


1
यदि आप सही उत्तर जानते हैं, तो विश्लेषण क्यों करते हैं?
StasK

1
एक और नोट पर, आपको क्यों लगता है कि आपको क्लस्टर विश्लेषण के लिए चर की संख्या कम करने की आवश्यकता है? मुझे नहीं लगता कि क्लस्टर विश्लेषण के किसी भी आधुनिक उपकरण में इनपुट चर की संख्या की कोई सीमाएं हैं। बेशक अगर आपके पास 120 वस्तुओं के साथ एक परीक्षण है, तो चीजें इसके साथ जटिल हो जाएंगी।
StasK


यह मुझे लगता है कि इस क्यू के क्लस्टर विश्लेषण पहलू के अलावा यह खुला रहने के लिए पर्याप्त पर्याप्त बनाता है।
गूँग - मोनिका

आप मुझे @gung की तुलना में डुप्लिकेट करने के लिए कठोर मानदंड लागू करने लगते हैं; शायद आप सही हैं (और इस एक पर भी वोटिंग अच्छी नहीं होती)। हालाँकि, इस विशेष मामले में ओपी सरलतम पीसीए-आधारित सुविधा चयन (जैसा कि उनके अद्यतन में स्पष्ट किया गया है) के बारे में पूछ रहा था जो मेरे द्वारा सुझाए गए धागे में शामिल है। दूसरी ओर, StasK ने यहां एक दिलचस्प जवाब पोस्ट किया, जो विशेष रूप से क्लस्टरिंग के बारे में है ...
अमीबा का कहना है कि मोनिका

जवाबों:


7

मैं करूंगा, जैसा कि मेरा रिवाज है, एक कदम पीछे हटो और पूछो कि तुम क्या करने की कोशिश कर रहे हो, बिल्कुल। फैक्टर विश्लेषण को अव्यक्त चर खोजने के लिए डिज़ाइन किया गया है। यदि आप अव्यक्त चर खोजना चाहते हैं और उन्हें क्लस्टर करना चाहते हैं, तो आप जो कर रहे हैं वह सही है। लेकिन आप कहते हैं कि आप बस चर की संख्या को कम करना चाहते हैं - जो इसके बजाय प्रमुख घटक विश्लेषण का सुझाव देते हैं।

हालाँकि, उन दोनों में से, आपको नए वेरिएबल्स पर क्लस्टर विश्लेषण की व्याख्या करनी होगी, और उन नए वेरिएबल्स को केवल पुराने लोगों के वजन के रूप में जाना जाता है।

आपके पास कितने चर हैं? वे कितने सहसंबद्ध हैं? यदि बहुत दूर हैं, और वे बहुत दृढ़ता से सहसंबद्ध हैं, तो आप कुछ बहुत अधिक संख्या में सभी सहसंबंधों की तलाश कर सकते हैं, और प्रत्येक जोड़ी से एक चर को यादृच्छिक रूप से हटा सकते हैं। यह चर की संख्या को कम करता है और चर को छोड़ देता है जैसे वे हैं।

मुझे यह सब करने की आवश्यकता के बारे में @StasK भी गूँजती है, और @ rolando2 जो पहले पाया गया है उससे कुछ अलग खोजने की उपयोगिता के बारे में। के रूप में मेरे पसंदीदा स्कूल में स्नातक स्कूल के प्रोफेसर कहते थे, "यदि आप आश्चर्यचकित नहीं हैं, तो आपने कुछ भी नहीं सीखा है"।


1
सबसे पहले, मुझे खेद है: मैं वास्तव में एक प्रिंसिपल घटकों के विश्लेषण का उल्लेख कर रहा हूं, कारक विश्लेषण के लिए नहीं, मेरी गलती है। इसके अलावा, मैं मनमाने ढंग से डायन सहसंबद्ध चर का चयन नहीं करने का एक तरीका ढूंढ रहा था। मैं ऊपर की समस्या के बारे में अधिक जानकारी जोड़ता हूं .. धन्यवाद फिर से
एन।

5

एक ही समय में कारक विश्लेषण और क्लस्टर विश्लेषण करने का एक तरीका संरचनात्मक समीकरण मिश्रण मॉडल के माध्यम से है। इन मॉडलों में, आप यह मानते हैं कि प्रत्येक क्लस्टर के लिए अलग-अलग मॉडल (इस मामले में, कारक मॉडल) हैं। आपको सह-विश्लेषण के साथ-साथ माध्य विश्लेषण की आवश्यकता होगी, और सादे वनोपज कारक विश्लेषण में एक बड़ी हद तक पहचान से संबंधित होना चाहिए। SEM की तरफ से आया विचार जेडी एट में दिखाई देता है अल। (1997) , और एड्रियन राफ्टी द्वारा मॉडल-आधारित क्लस्टरिंग में क्लस्टरिंग साइड से । इस प्रकार का विश्लेषण, जाहिरा तौर पर, Mplus में उपलब्ध है ।


1
इनपुट के लिए धन्यवाद, विशेष रूप से संदर्भों के लिए, लेकिन मैंने गलत तरीके से फैक्टर एनालिसिस का संदर्भ दिया: मैं वास्तव में प्रिंसिपल कंपोनेंट्स के बारे में सोच रहा था ताकि मेरे वेरिएबल्स को स्वतंत्र चर के उप-समूह में सेट किया जा सके। मेरी गलती
इं।

2

मुझे नहीं लगता कि यह "शुद्धता" का मामला शुद्ध और सरल है, बल्कि यह है कि क्या यह पूरा करेगा कि आप क्या करना चाहते हैं। आपके द्वारा वर्णित दृष्टिकोण कुछ कारकों के अनुसार क्लस्टरिंग को समाप्त कर देगा, पानी वाले तरीके से, क्योंकि आप प्रत्येक कारक का प्रतिनिधित्व करने के लिए केवल एक संकेतक का उपयोग कर रहे होंगे। अंतर्निहित, अव्यक्त कारक के लिए अपूर्ण सूचक होने के लिए इस तरह के प्रत्येक संकेतक आंकड़े। यह एक मुद्दा है।

एक अन्य मुद्दा यह है कि कारक विश्लेषण स्वयं, जैसा कि मैंने (और कई अन्य लोगों) ने सुना है , व्यक्तिपरक निर्णयों से भरा है जिसमें लापता डेटा से निपटने के लिए, निकालने के लिए कारकों की संख्या, कैसे निकालना है, क्या और कैसे घुमाना है, आदि शामिल हैं। पर। तो यह स्पष्ट हो सकता है कि आपके द्वारा त्वरित, सॉफ़्टवेयर-डिफ़ॉल्ट तरीके से निकाले गए कारक (जैसा कि मुझे लगता है कि आपने निहित है) किसी भी मायने में "सर्वश्रेष्ठ" हैं।

कुल मिलाकर, फिर, आपने उन कारकों के वाटर-डाउन संस्करणों का उपयोग किया हो सकता है, जो आपके डेटा को अंतर्निहित करने वाले विषयों को चिह्नित करने के सर्वोत्तम तरीके के रूप में खुद को डिबेट करने योग्य हैं। मुझे उम्मीद नहीं है कि इस तरह के इनपुट चर से उत्पन्न क्लस्टर सबसे अधिक जानकारीपूर्ण या सबसे अलग होंगे।

एक और नोट पर, यह दिलचस्प लगता है कि आप इसे क्लस्टर सदस्यता / प्रोफाइल के लिए एक समस्या मानते हैं जो अन्य शोधकर्ताओं ने नहीं पाया है। कभी-कभी डिस्कॉन्फिरिंग निष्कर्ष बहुत स्वस्थ हो सकते हैं!


आपको बहुत बहुत धन्यवाद, मैं ऊपर मेरी संदेह निर्दिष्ट करने के लिए और अधिक जानकारी जोड़ लिया है
एन।

0

आपके मामले में क्या हो सकता है कि कारक विश्लेषण में निकाले गए कारकों ने मूल चर से सकारात्मक और नकारात्मक भार की भरपाई की है। यह भिन्नता को कम करेगा जो कि क्लस्टरिंग का उद्देश्य है।

क्या आप प्रत्येक निकाले गए कारक को 2 में तोड़ सकते हैं - एक सिर्फ सकारात्मक लोडिंग, दूसरा सिर्फ नकारात्मक लोडिंग?

प्रत्येक कारक के लिए प्रत्येक मामले के लिए सकारात्मक स्कोर और नकारात्मक स्कोर द्वारा कारक स्कोर को बदलें और स्कोर के इस नए सेट पर क्लस्टरिंग का प्रयास करें।

यदि यह आपके लिए काम करता है तो कृपया एक पंक्ति में छोड़ दें।


0

आप उच्च मूल्यों के लिए और निम्न मूल्यों के लिए भी स्कैन कर सकते हैं और कारकों में सभी चर छोड़ सकते हैं। इस तरह, कारकों में कटौती करने की कोई आवश्यकता नहीं है। यदि आप फैक्टर 1 (मान) को लोडिंग के संकेतों के आधार पर एक निश्चित तरीके से विभाजित करते हैं, तो फैक्टर 2 में, संकेत काफी भिन्न हो सकते हैं। क्या आप तब फैक्टर 2 को फैक्टर 1 से अलग तरीके से काटेंगे? यह भ्रामक लगता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.