आर के साथ मिश्रित प्रकार के डेटा का क्लस्टरिंग


19

मुझे आश्चर्य है कि क्या मिश्रित डेटा चर वाले डेटा की क्लस्टरिंग R के भीतर प्रदर्शन करना संभव है। दूसरे शब्दों में, मेरे पास एक डेटा सेट है जिसमें दोनों संख्यात्मक और श्रेणीबद्ध चर हैं और मैं उन्हें क्लस्टर करने का सबसे अच्छा तरीका ढूंढ रहा हूं। SPSS में मैं दो-चरण क्लस्टर का उपयोग करूंगा। मुझे आश्चर्य है कि क्या आर में मुझे एक समान तकनीक मिल सकती है। मुझे poLCA पैकेज के बारे में बताया गया था, लेकिन मुझे यकीन नहीं है ...


1
क्या SPSS टूस्टेप को बड़े डेटासेट से निपटने के लिए डिज़ाइन नहीं किया गया है? (मैं यहां एक संबंधित प्रश्न का जवाब प्रदान करता हूं ।) अन्यथा, क्या मेरी प्रतिक्रिया कैन कैन प्रिंसिपल कंपोनेंट एनालिसिस को सतत और श्रेणीबद्ध चर के मिश्रण वाले डेटासेट पर लागू हो सकती है? किसी भी मदद के हो?
CHL

आर पैकेज के भीतर क्लस्टर है ? डेज़ी जो मिश्रित डेटा (गोवर समानता गुणांक) के लिए एक विषमताओं मैट्रिक्स पैदा करेगा। तब आप उपयोग कर सकते हैं ? एग्नेस या अन्य क्लस्टरिंग फ़ंक्शन।
रोंडा

1
कार्यान्वयन के साथ विधि को भ्रमित न करें। एक क्लस्टरिंग एल्गोरिथ्म के लिए पहले देखो जो समझ में आता है। फिर एक आर पैकेज की तलाश करें जो इसे लागू करता है।
छायाकार

गोवर समानता का उपयोग किया जा सकता है।
tnnphns

@gung ने हाल ही में मेरे द्वारा पूछे गए एक समान प्रश्न को बंद कर दिया। मुझे बताया गया कि मेरा प्रश्न विषय से हटकर था क्योंकि यह मुख्य रूप से सॉफ्टवेयर के बारे में था। यह सॉफ्टवेयर के बारे में समान प्रतीत होता है। मुझे यह जानने में बहुत दिलचस्पी होगी कि यहां के नियम क्यों असंगत रूप से लागू किए जा रहे हैं। ध्यान रहे, मुझे लगता है कि प्रश्न सूचनात्मक है, लेकिन नियम नियम होने चाहिए।
वीएन एनजी

जवाबों:


8

यह देर से आ सकता है लेकिन klaR ( http://cran.r-project.org/web/packages/klaR/index.html ) आज़माएं

install.packages("klar")

यह गैर-पदानुक्रमित k- मोड एल्गोरिथ्म का उपयोग करता है, जो एक दूरी फ़ंक्शन के रूप में सरल मिलान पर आधारित है, इसलिए दो डेटा बिंदुओं x और चर m के बीच की दूरी h द्वारा दी गई हैxy

δ(xm,ym)={1xmym,0otherwise

पैकेज के साथ एक दोष है, वह यह है कि यदि दो डेटा बिंदुओं की क्लस्टर-सेंटर में समान दूरी है, तो आपके डेटा में पहले को यादृच्छिक बिंदु के विपरीत चुना जाता है, लेकिन आप आसानी से कोड में बिट को संशोधित कर सकते हैं।

मिश्रित-चर क्लस्टरिंग के लिए समायोजित करने के लिए, आपको कोड में जाने के लिए और संख्यात्मक और गैर-संख्यात्मक मोड और चर की पहचान करने के लिए दूरी फ़ंक्शन को संशोधित करना होगा।


7

मिश्रित प्रकारों के चर को संभालने का एक और आकर्षक तरीका यह है कि रैंडम फ़ॉरेस्ट से प्रोक्सी / समानता मैट्रिक्स का उपयोग करें: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf । यह सभी चर (समान रूप से, चर चयन पूर्वाग्रह मुद्दे के बारे में पता होना) के समान व्यवहार करने का एकीकृत तरीका है। दूसरी ओर, मिश्रित प्रकारों के चर के लिए दूरी को परिभाषित करने का वास्तव में कोई स्वर्ण सार्वभौमिक तरीका नहीं है। यह सब अनुप्रयोग संदर्भों पर निर्भर करता है।


4

आप श्रेणीबद्ध चर से निरंतर आयाम बनाने के लिए कई पत्राचार विश्लेषण का उपयोग कर सकते हैं और फिर दूसरे चरण में संख्यात्मक चर के साथ उनका उपयोग कर सकते हैं।


1
आप MCA में संख्यात्मक चर का इलाज कैसे करेंगे? विवेक का उपयोग?
chl

एमसीए के विस्तार हैं जिनमें निरंतर चर शामिल हो सकते हैं, उदाहरण के लिए देखें समरूपता विश्लेषण होमल
kjetil b halvorsen

3

खैर, आप निश्चित रूप से कर सकते हैं। श्रेणीबद्ध चर को कृत्रिम रूप से संख्यात्मक बनाकर। या दूरी-मैट्रिक्स आधारित क्लस्टरिंग का उपयोग करके (fpc शायद ऐसा कर सकते हैं)। जिस सवाल का आपको पहले जवाब देने की कोशिश करनी चाहिए, वह है: क्या यह वास्तव में समझ में आता है?


3

jk

SG=i=1nwi,j,ksi,j,ki=1nwi,j,k
i

wi,j,k

si,j,k

  • wi,j,k

  • बहुस्तरीय वर्ण (नाममात्र या क्रमिक): 1 समानता के लिए, 0 और (साधारण मिलान गुणांक के बराबर)

  • si,j,k=1|Xi,jXi,k|RiRii

SG

1SG


क्या आप अपने जवाब में "चरित्र" (और "कार्डिनल चरित्र") को परिभाषित कर सकते हैं? उसके द्वारा आप चर / विशेषता / सुविधा का मतलब है? इसके अलावा, मैं जोड़ सकते हैं उन्हें नाममात्र ( "Multistate") के रूप में, इलाज के बिना कि गोवर क्रमसूचक चर के लिए गणना की जा सकती देख
ttnphns

बैक्टीरिया, चर, विशेषता सभी समानार्थक शब्द हैं। कार्डिनल का मतलब या तो अंतराल या तर्कसंगत पैमाना है।
एंगेलबर्ट बक्सबाम

इसे स्पष्ट करने के लिए धन्यवाद। मैंने सिर्फ इसलिए पूछा क्योंकि आपकी शब्दावली स्पष्ट रूप से आंकड़ों या मशीन सीखने में बहुत आम नहीं है: "चरित्र" असामान्य है, और जिसे आप "कार्डिनल" चर प्रकार कहते हैं, आमतौर पर "स्केल" चर उर्फ ​​"मेट्रिक" चर के रूप में जाना जाता है, इसने श्रेणीबद्ध का विरोध किया। ।
ttnphns

1

यदि श्रेणीबद्ध चरों के संभावित मान बहुत अधिक नहीं हैं, तो आप उन मानों में से द्विआधारी चर बनाने के बारे में सोच सकते हैं। आप इन बाइनरी चर को संख्यात्मक चर के रूप में मान सकते हैं और अपनी क्लस्टरिंग चला सकते हैं। यही मैंने अपने प्रोजेक्ट के लिए किया।


1

k- प्रोटोटाइप क्लस्टरिंग यहां बेहतर अनुकूल हो सकते हैं। यह k- मोड और k- साधन को जोड़ती है और मिश्रित संख्यात्मक / श्रेणीबद्ध डेटा को क्लस्टर करने में सक्षम है। R के लिए, पैकेज 'clustMixType' का उपयोग करें।

https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf


0

VarSelLCM पैकेज की पेशकश

गुम मानों के साथ मिश्रित-प्रकार डेटा सेट के मॉडल-आधारित क्लस्टरिंग के लिए परिवर्तनीय चयन

पर क्रैन , और में और अधिक वर्णित कागज

पिछले तरीकों में से कुछ पर लाभ यह है कि यह गुम डेटा की संख्या और हैंडल को चुनने में कुछ मदद प्रदान करता है। अच्छा चमकदार एप्लिकेशन भी प्रदान नहीं की जाती है।

यहाँ छवि विवरण दर्ज करें

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.