क्लस्टर के आकार को कैसे मापें?


14

मुझे पता है कि इस सवाल को अच्छी तरह से परिभाषित नहीं किया गया है, लेकिन कुछ समूहों में अण्डाकार होते हैं या निचले आयामी स्थान पर झूठ होते हैं, जबकि दूसरे में अरेखीय आकार (2 डी या 3 डी उदाहरणों में) होते हैं।

क्या गुच्छों की गैर-शुद्धता (या "आकृति") का कोई माप है?

ध्यान दें कि 2 डी और 3 डी अंतरिक्ष में, यह किसी भी क्लस्टर के आकार को देखने के लिए समस्या नहीं है, लेकिन उच्च आयामी स्थानों में आकार के बारे में कुछ कहना समस्या है। विशेष रूप से, वहाँ कोई उपाय है कि उत्तल क्लस्टर कैसे है?

मैं इस सवाल के लिए कई अन्य प्रश्नों से प्रेरित था जहां लोग समूहों के बारे में बात करते हैं लेकिन कोई भी उन्हें (उच्च आयामी स्थानों में) देखने में सक्षम नहीं है। इसके अलावा, मुझे पता है कि 2D घटता के लिए nonlinearity के कुछ उपाय हैं।


1
en.wikipedia.org/wiki/Topological_data_analysis मदद कर सकता है, जहां आकार बिल्कुल वैसा नहीं है जैसा आप का मतलब है, हालांकि।
ज़ियायुंग

1
शायद आप उद्देश्य के लिए कॉम्पैक्टनेस की अवधारणा को अपना सकते हैं।
user12719

जवाबों:


4

मुझे गाऊसी मिक्सचर मॉडल (जीएमएम) पसंद है।

उनकी एक विशेषता यह है कि, प्रोबिट डोमेन में , वे टुकड़े-टुकड़े इंटरपोलर की तरह काम करते हैं। इसका एक निहितार्थ यह है कि वे एक प्रतिस्थापन आधार, एक सार्वभौमिक सन्निकट की तरह कार्य कर सकते हैं। इसका मतलब यह है कि गैर-गॉसियन वितरण के लिए, जैसे कि लॉगनॉर्मल, वीबुल या क्रेज़ियर गैर-विश्लेषणात्मक, जब तक कुछ मानदंड पूरे हो जाते हैं - जीएमएम वितरण को अनुमानित कर सकते हैं।

इसलिए यदि आप GMM का उपयोग करके AICc या BIC इष्टतम सन्निकटन के मापदंडों को जानते हैं, तो आप इसे छोटे आयामों में प्रोजेक्ट कर सकते हैं। आप इसे घुमा सकते हैं, और अनुमानित जीएमएम के घटकों के प्रमुख अक्षों को देख सकते हैं।

परिणाम हमारे 3 डी देखने दृश्य धारणा का उपयोग करते हुए उच्च आयामी डेटा के सबसे महत्वपूर्ण भागों को देखने के लिए एक सूचनात्मक और नेत्रहीन सुलभ तरीका होगा।

संपादित करें: (निश्चित बात, व्हीबर)

आकृति को देखने के कई तरीके हैं।

  • आप साधनों में रुझान देख सकते हैं। गॉसियंस की एक श्रृंखला के द्वारा एक लॉगनॉर्मल का अनुमान लगाया जाता है, जिसका अर्थ है उत्तरोत्तर करीब हो जाना और जिसका वजन प्रगति के साथ छोटा हो जाता है। योग भारी पूंछ का अनुमान लगाता है। एन-आयामों में, इस तरह के घटकों का एक क्रम एक लोब बनाता है। आप बीच में दूरी (उच्च आयाम में परिवर्तित) और दिशा कोसाइन के बीच की दूरी को भी ट्रैक कर सकते हैं। यह बहुत अधिक सुलभ आयामों में परिवर्तित होगा।
  • आप एक 3 डी सिस्टम बना सकते हैं जिसकी कुल्हाड़ियों का वजन, माध्य का परिमाण और परिमाण / सहसंयोजक का परिमाण हो। यदि आपके पास बहुत अधिक क्लस्टर-गिनती है, तो यह एक दूसरे के साथ तुलना में उन्हें देखने का एक तरीका है। यह एक 3 डी अंतरिक्ष में कुछ बादलों में 2k उपायों के साथ 50k भागों को परिवर्तित करने का एक मूल्यवान तरीका है। मैं उस स्थान पर प्रक्रिया नियंत्रण निष्पादित कर सकता हूं, अगर मैं चुनता हूं। मुझे गॉसियन मिश्रण मॉडल के घटकों पर आधारित नियंत्रण मॉडल का उपयोग करने की पुनरावृत्ति पसंद है, जो आंशिक मापदंडों पर फिट बैठता है।
  • डी-क्लटरिंग के संदर्भ में आप बहुत कम वजन, या प्रति कोवरियन, या इस तरह के वजन से फेंक सकते हैं।
  • आप GMM क्लाउड को BIC, , महालनोबिस दूरी के घटकों या समग्र रूप से, सदस्यता की संभावना या समग्र रूप से देख सकते हैं। आर2
  • आप इसे ऐसे देख सकते हैं जैसे बुलबुले को काटना । जीएमएम क्लस्टर्स के प्रत्येक जोड़े के बीच समान संभावना (शून्य कुल्बैक-लिबलर विचलन) का स्थान मौजूद है। यदि आप उस स्थिति को ट्रैक करते हैं, तो आप उस स्थान पर सदस्यता की संभावना को फ़िल्टर कर सकते हैं। यह आपको वर्गीकरण सीमाओं के अंक देगा। यह आपको "अकेला" को अलग करने में मदद करेगा। आप प्रति सदस्य सीमा से ऊपर ऐसी सीमाओं की संख्या की गणना कर सकते हैं और प्रति घटक "कनेक्टिविटी" की एक सूची प्राप्त कर सकते हैं। आप स्थानों के बीच कोणों और दूरियों को भी देख सकते हैं।
  • आप गॉसियन पीडीएफ दिए गए यादृच्छिक संख्याओं का उपयोग करके अंतरिक्ष को फिर से खोल सकते हैं, और फिर उस पर सिद्धांत घटक विश्लेषण कर सकते हैं, और ईजन-आकृतियों, और उनके साथ जुड़े eigenvalues ​​को देख सकते हैं।

संपादित करें:

आकार का क्या अर्थ है? वे कहते हैं कि विशिष्टता सभी अच्छे संचार की आत्मा है। "माप" के बारे में आपका क्या मतलब है?

इसका क्या अर्थ हो सकता है इसके बारे में विचार:

  • नेत्रगोलक सामान्य ज्ञान / सामान्य रूप का अनुभव करता है। (अत्यंत गुणात्मक, दृश्य सुलभता)
  • जीडी और टी आकार की माप (कॉपलनारिटी, सांद्रता, आदि) (अत्यंत मात्रात्मक)
  • कुछ संख्यात्मक (स्वदेशी, संवेग, आदि ...)
  • एक उपयोगी कम आयाम समन्वय (जीएमएम मापदंडों के आयाम बनने की तरह)
  • एक कम शोर प्रणाली (किसी तरह से सुचारू, फिर प्रस्तुत)

अधिकांश "कई तरीके" इन पर कुछ भिन्नताएं हैं।


3

यह बजाय सरलीकृत हो सकता है, लेकिन आप अपने प्रत्येक समूह पर एक प्रतिरूप विश्लेषण करके कुछ अंतर्दृष्टि प्राप्त कर सकते हैं।

मेरी कोशिश होगी कि सभी बिंदुओं को एक क्लस्टर में सौंपा जाए और उन्हें एक मल्टीवेरेट गॉसियन के साथ फिट किया जाए। फिर आप फिट किए गए सहसंयोजक मैट्रिक्स के आइगेनवेल्यूज की गणना कर सकते हैं और उन्हें प्लॉट कर सकते हैं। इसे करने के कई तरीके हैं ; शायद सबसे प्रसिद्ध और व्यापक रूप से इस्तेमाल किया जाने वाला प्रमुख घटक विश्लेषण या पीसीए कहा जाता है ।

एक बार जब आपके पास स्वदेशी (जिसे स्पेक्ट्रम भी कहा जाता है), आप यह निर्धारित करने के लिए उनके रिश्तेदार आकारों की जांच कर सकते हैं कि क्लस्टर कुछ आयामों में "फैला हुआ" कैसे है। स्पेक्ट्रम जितना कम होगा, क्लस्टर उतना ही अधिक "सिगार के आकार का" होगा, और स्पेक्ट्रम जितना अधिक होगा, क्लस्टर उतना ही गोलाकार होगा। आप यह बताने के लिए भी कुछ प्रकार की मीट्रिक को परिभाषित कर सकते हैं कि गैर-समान रूप से आइगेनवेल्यूज़ (वर्णक्रमी एंट्रोपी) कैसे हैं; http://en.wikipedia.org/wiki/Spectral_flatness देखें ।

एक साइड बेनिफिट के रूप में, आप "जहां सिगार के आकार वाले" क्लस्टर आपके डेटा स्पेस में इंगित कर रहे हैं, को देखने के लिए प्रमुख घटकों (बड़े ईजेनवेल्यूज़ से जुड़े आइजनवेक्टर) की जांच कर सकते हैं।

स्वाभाविक रूप से यह एक मनमाना क्लस्टर के लिए एक कच्चा सन्निकटन है, क्योंकि यह केवल एकल दीर्घवृत्त के रूप में क्लस्टर में बिंदुओं को मॉडल करता है। लेकिन, जैसा मैंने कहा, यह आपको कुछ जानकारी दे सकता है।


+1 सरलीकृत, शायद; लेकिन यह प्रभावी और व्यावहारिक लगता है। मल्टीवेरेट गौसियन फिटिंग के लिए कोई लाभ नहीं लगता है: बस केंद्रित क्लस्टर डेटा (जो कि क्लस्टर पर अनिवार्य रूप से पीसीए है) के एसवीडी का उपयोग करें।
whuber

@ जब भी हां, मैं उन लोगों के बारे में सोचता हूं जो एक ही काम करते हैं! फिटिंग अधिक है जो सिद्धांत कहता है कि पर्दे के पीछे क्या हो रहा है, जबकि पीसीए उस प्रक्रिया का एक ठोस कार्यान्वयन है। मैं इसे और अधिक स्पष्ट करने के लिए अपने उत्तर को संपादित करूँगा।
lmjohns3

2

सहसंबंध क्लस्टरिंग एल्गोरिदम जैसे 4C, ERiC या LMCLUS आमतौर पर क्लस्टर को रैखिक मैनिफ़ेस्ट मानते हैं। यानी डी-डायमेंशनल स्पेस में के-डायमेंशनल हाइपरप्लेन। खैर, 4C और ERiC के लिए केवल स्थानीय रूप से रैखिक है, इसलिए वे वास्तव में गैर-उत्तल हो सकते हैं। लेकिन वे अभी भी कम स्थानीय आयामीता के समूहों का पता लगाने की कोशिश करते हैं।

उच्च आयामी डेटा में मनमाने आकार के क्लस्टर ढूंढना काफी कठिन समस्या है। विशेष रूप से, आयामीता के अभिशाप के कारण जो खोज स्थान को विस्फोट करने देता है और साथ ही यह भी आवश्यक है कि यदि आपके पास अभी भी महत्वपूर्ण परिणाम चाहते हैं तो आपके पास बहुत बड़ा इनपुट डेटा है । वैसे भी कई एल्गोरिदम इस बात पर ध्यान नहीं देते हैं कि क्या वे पाते हैं कि अभी भी महत्वपूर्ण है या यादृच्छिक भी हो सकता है।

इसलिए वास्तव में मेरा मानना ​​है कि उच्च-आयामी अंतरिक्ष में जटिल समूहों के गैर-उत्तलता की उत्तलता के बारे में सोचने से पहले हल करने के लिए अन्य समस्याएं हैं।

इसके अलावा उच्च आयामों में उत्तल पतवार की गणना की जटिलता पर एक नजर ...

इसके अलावा, क्या आपके पास जिज्ञासा से परे एक सच्चा उपयोग मामला है?


2

यदि आपकी गतिशीलता 2 या 3 से अधिक नहीं है, तो यह संभव हो सकता है कि ब्याज के क्लस्टर को 2 डी अंतरिक्ष में कई बार प्रोजेक्ट किया जाए और परिणामों की कल्पना की जाए या आपके 2 डी माप का उपयोग न किया जाए। मैंने इसका कारण रैंडम प्रोजेक्शंस http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf के बारे में सोचा ।

एक सूचकांक बनाने के लिए यादृच्छिकता को कम करने के लिए यादृच्छिक अनुमानों का उपयोग किया जा सकता है। सिद्धांत यह है कि यदि दो बिंदु डी आयामों के करीब हैं और आप डी के साथ आयामों में एक यादृच्छिक प्रक्षेपण लेते हैं

संक्षिप्तता के लिए, आप एक सपाट सतह पर ग्लोब को प्रोजेक्ट करने के बारे में सोच सकते हैं। कोई फर्क नहीं पड़ता कि आप इसे न्यूयॉर्क और न्यू जर्सी के साथ कैसे जोड़ते हैं, लेकिन शायद ही कभी आप न्यूयॉर्क और लंदन को एक साथ धकेलेंगे।

मुझे नहीं पता कि क्या यह आपकी कठोरता से मदद कर सकता है, लेकिन यह क्लस्टर की कल्पना करने का एक त्वरित तरीका हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.