क्लस्टरिंग वितरण

10

मेरे पास कई वितरण हैं (नीचे दिए गए आंकड़े में 10 वितरण)।

वास्तव में ये हिस्टोग्राम होते हैं: x- अक्ष पर 70 मान होते हैं जो किसी विलयन में कुछ कणों के आकार होते हैं और x के प्रत्येक मान के लिए y का संबंधित मान उन कणों का अनुपात होता है जिनका आकार x के मान के आसपास होता है।

मैं इन वितरणों को क्लस्टर करना चाहूंगा। वर्तमान में मैं यूक्लिडियन दूरी के साथ एक पदानुक्रमित क्लस्टरिंग का उपयोग करता हूं उदाहरण के लिए। मैं दूरी की पसंद से संतुष्ट नहीं हूं। मैंने कुल्लब-लिबलर जैसे सूचना-सिद्धांत की दूरी की कोशिश की है, लेकिन डेटा में कई शून्य हैं और यह कठिनाइयों का कारण बनता है। क्या आपके पास उचित दूरी और / या अन्य क्लस्टरिंग विधि का प्रस्ताव है?

clustering

— स्टीफन लॉरेंट
स्रोत

16

मैं आपको ऐसे समझता हूं कि सभी वितरण संभावित रूप से समान 70 असतत मूल्यों को ले सकते हैं। फिर आपके लिए वितरण के संचयी वक्रों की तुलना करना आसान होगा (संचयी घटता की तुलना करना वितरण की तुलना करने का सामान्य तरीका है)। आकार, स्थान और प्रसार में अंतर के लिए यह सर्वव्यापी तुलना होगी।

तो, डेटा तैयार करें जैसे (ए, बी, ... आदि वितरण हैं)

Value CumProp_A CumProp_B ...
1       .01       .05
2       .12       .14
...     ...       ...
70      1.00      1.00

और वितरण के बीच एक दूरी मैट्रिक्स की गणना करें। पदानुक्रमिक क्लस्टरिंग के लिए सबमिट करें (मैं पूर्ण लिंकेज विधि की सिफारिश करूंगा)। क्या दूरी? ठीक है, अगर आपको लगता है कि दो संचयी वक्र बहुत अलग हैं यदि वे सिर्फ एक मूल्य ( बी ) से अलग हैं, तो चेबीशेव दूरी का उपयोग करें। यदि आपको लगता है कि दो संचयी वक्र बहुत भिन्न हैं केवल यदि एक दूसरे से काफी ऊपर है मानों की एक विस्तृत श्रृंखला ( सी ) के साथ, ऑटोकॉररेटिव दूरी का उपयोग करें। यदि कर्व के बीच कोई स्थानीय अंतर महत्वपूर्ण है ( ए ), तो मैनहट्टन दूरी का उपयोग करें।

यहां छवि विवरण दर्ज करें

पुनश्च ऑटोकरेक्लेटिव दूरी संचयी घटता X और Y के बीच अंतरों के स्वतःसंक्रमण का एक गैर-सामान्यीकृत गुणांक है:

$\sum_{i=2}^N (X-Y)_i*(X-Y)_{i-1}$

— ttnphns
स्रोत

बहुत बढ़िया - बहुत धन्यवाद! मैं इसे कल करूंगा

— स्टीफन लॉरेंट

स्वतःसंबंधी दूरी संभवतः नकारात्मक है। क्या यह वास्तव में अच्छी परिभाषा है?

— स्टीफन लॉरेंट

मैं एक और सवाल पूछना भूल गया: आप पूर्ण लिंकेज की सिफारिश क्यों करेंगे?

— स्टीफन लॉरेंट

यदि कोई हो, तो आप नकारात्मक उत्पाद शर्तों को शून्य पर सेट कर सकते हैं। मैं पूर्ण लिंकेज पर जोर नहीं देता, बल्कि, मैं वार्ड या सेंट्रोइड जैसे "ज्यामितीय" तरीकों के खिलाफ चेतावनी देता हूं क्योंकि दूरियां यूक्लिनियन नहीं हैं। मैंने यह भी सोचा कि पूरी तरह से जुड़ाव की तरह एक "कमजोर" तरीका आपकी पसंद के लिए होगा

— ttnphns

4

यदि आपका डेटा हिस्टोग्राम है, तो आप "हिस्टोग्राम चौराहे की दूरी" के रूप में इसके लिए विनियोग दूरी के कार्यों को देखना चाहते हैं।

ईएलकेआई नामक एक उपकरण है जिसमें क्लस्टरिंग एल्गोरिदम की एक विस्तृत विविधता है (के-साधन और पदानुक्रमित क्लस्टरिंग की तुलना में बहुत अधिक आधुनिक) और इसमें हिस्टोग्राम चौराहे की दूरी का एक संस्करण भी शामिल है, जिसे आप अधिकांश एल्गोरिदम में उपयोग कर सकते हैं। आप इसमें उपलब्ध कुछ एल्गोरिदम को आज़माना चाहेंगे। ऊपर दिए गए कथानक से, यह स्पष्ट नहीं है कि आप क्या करना चाहते हैं। व्यक्तिगत हिस्टोग्राम, सही समूह? आपके द्वारा दिखाए गए 10 में से, कोई क्लस्टर नहीं हो सकता है।

— QUIT है - एनीनी-मूस
स्रोत

धन्यवाद। लेकिन मैं आर या एसएएस में उपलब्ध टूल की तलाश कर रहा हूं। फिर ऊपर के दस वितरण केवल एक उदाहरण हैं, मेरे पास क्लस्टर के वितरण की बहुत सी श्रृंखला है।

— स्टीफन लॉरेंट

2

आप एक के-साधन या अन्य प्रकार के क्लस्टरिंग के लिए विवरणदाताओं को प्राप्त करने के लिए कुछ सुविधा निष्कर्षण तकनीक का उपयोग करना चाह सकते हैं।

एक मूल दृष्टिकोण आपके हिस्टोग्राम के लिए एक निश्चित वितरण को फिट करना होगा और इसके मापदंडों को डिस्क्रिप्टर के रूप में उपयोग करना होगा। उदाहरण के लिए, आपको बिमोडल वितरण प्रतीत होता है, जिसे आप 2 साधनों और 2 मानक विचलन के साथ वर्णन कर सकते हैं।

एक अन्य संभावना हिस्टोग्राम के काउंट्स के पहले दो या तीन प्रमुख घटक पर क्लस्टर करना है।

वैकल्पिक रूप से तरंगों के दृष्टिकोण का उपयोग किया जा सकता है।

यह पृष्ठ बताता है कि कैसे करना है जब बाह्य स्पाइक के साथ काम करना है। डेटा अलग है, लेकिन विचार आपके मामले पर लागू होना चाहिए। आपको नीचे कई संदर्भ भी मिलेंगे।

http://www.scholarpedia.org/article/Spike_sorting

आर में आप princompया तो या prcompफ़ंक्शन का उपयोग करके अपनी चोटियों के प्रमुख घटकों की गणना कर सकते हैं । यहाँ आपको R में PCA पर एक ट्यूटोरियल मिलेगा।

तरंगों के लिए आप waveletsपैकेज देख सकते हैं ।

k- साधन क्लस्टरिंग kmeansफ़ंक्शन का उपयोग करके प्राप्त किया जा सकता है ।

— निको
स्रोत

धन्यवाद, जब भी संभव हो मैं आपके प्रस्ताव पर एक नज़र डालूँगा।

— स्टीफन लॉरेंट