मात्रात्मक रूप से कैसे बताएं कि क्या 1 डी डेटा 1 या 3 मानों के आसपास क्लस्टर किया गया है?


9

मुझे मानव के दिल की धड़कन के बीच के समय का कुछ डेटा मिला है। एक्टोपिक (अतिरिक्त) बीट्स का एक संकेत यह है कि इन अंतरालों को एक के बजाय तीन मूल्यों के आसपास क्लस्टर किया जाता है। मैं इसका मात्रात्मक माप कैसे प्राप्त कर सकता हूं?

मैं कई डेटा सेटों की तुलना करना चाह रहा हूं, और ये दो 100-बिन हिस्टोग्राम सभी के प्रतिनिधि हैं।

यहाँ छवि विवरण दर्ज करें

मैं भिन्नताओं की तुलना कर सकता हूं, लेकिन मैं चाहता हूं कि मेरा एल्गोरिदम यह पता लगाने में सक्षम हो कि अन्य मामलों की तुलना किए बिना प्रत्येक मामले में एक या तीन क्लस्टर हैं या नहीं।

यह ऑफ़लाइन प्रसंस्करण के लिए है, इसलिए यदि आवश्यक हो तो बहुत सारी संगणना शक्ति उपलब्ध है।


जवाबों:


3

मैं यहां k- साधनों का उपयोग करने के खिलाफ दृढ़ता से सलाह देता हूं । कश्मीर के विभिन्न मूल्यों के लिए परिणाम बहुत अच्छी तरह से तुलनीय नहीं हैं। विधि सिर्फ एक कच्चे हेयुरिस्टिक है। यदि आप वास्तव में क्लस्टरिंग का उपयोग करना चाहते हैं, तो EM क्लस्टरिंग का उपयोग करें, क्योंकि आपके डेटा में सामान्य वितरण शामिल हैं। और अपने परिणामों को मान्य करें!

इसके बजाय, स्पष्ट दृष्टिकोण एक एकल गाऊसी फ़ंक्शन को फिट करने का प्रयास करना है और (उदाहरण के लिए लेवेनबर्ग-मार्क्वार्ड विधि का उपयोग करके) तीन गाऊसी कार्यों को फिट करते हैं, शायद एक ही ऊंचाई पर (गिरावट से बचने के लिए) विवश हैं।

फिर परीक्षण करें, कि दोनों में से कौन सा वितरण बेहतर है।


धन्यवाद, मैं Levenberg-Marquardt का पता नहीं था! ये क्लस्टर गौसियन नहीं हैं; क्या आपको अभी भी लगता है कि गॉसियन फ़ंक्शन उन्हें फिट करने के लिए सबसे अच्छा पीडीएफ होगा?
निकोलस

यह करने के लिए और ग्रेग हिमपात। मैं इस सलाह से पूरी तरह सहमत हूं। @ निकोलस मुझे लगता है कि यह "गाऊसी पर्याप्त" लग रहा है ताकि गाऊसी वितरण का मिश्रण फिट हो सके। आप एक सही फिट नहीं चाहते हैं, बस यह जांचने का एक तरीका है कि कितने क्लस्टर हैं। इस ऑप्टिक में, समान मानक विचलन को साझा करने के लिए सभी घटकों को बाध्य करना एक अच्छा विचार हो सकता है (एनी-मूस द्वारा बताए गए कारणों के लिए)।
एल्विस

वे स्पष्ट रूप से मेरे लिए गौसेन को पर्याप्त रूप से देखते हैं। K- साधन वोरोनोई कोशिकाओं के साथ मॉडल डेटा। यह समझना मेरे लिए समझदारी की बात नहीं है कि सबसे अच्छा विभाजन बिंदु दो पड़ोसी साधनों के बीच में है।
है क्विट -

6

डेटा के मिश्रण वितरण को फ़िट करें, 3 सामान्य वितरणों के मिश्रण की तरह कुछ, फिर उस फिट की तुलना एक सामान्य वितरण के फिट करने के लिए करें (संभावना अनुपात परीक्षण, या एआईसी / बीआईसी का उपयोग करके)। के लिए flexmixपैकेज Rमदद का हो सकता है।


4

यदि आप K- साधन क्लस्टरिंग का उपयोग करना चाहते हैं, तो आपको तुलना करने का एक तरीका चाहिए =1 तथा =3मामलों। एक दृष्टिकोण तिब्शीरानी एट अल से अंतर आंकड़े का उपयोग करना होगा । और चुनेंजो बेहतर मूल्य प्रदान करता है। SLmisc में R कार्यान्वयन उपलब्ध है , हालांकि वह विशेष कार्य करने की कोशिश करेगा=1,2,3, इसलिए आपको केवल यह सुनिश्चित करने के लिए ध्यान रखने की आवश्यकता होगी =1 या =3 इष्टतम मूल्य के रूप में वापस किया जा सकता है।


2

विभिन्न साधनों की पहचान करने के लिए K- साधन क्लस्टरिंग एल्गोरिदम का उपयोग करें

उपयुक्त फ़ंक्शन खोजने के लिए फ़ंक्शन KNN में R- की तलाश करें


1
आह, मैं बस के बारे में था कि पोस्ट! आप इस लिंक को कोड और व्हाट्सएप के लिए भी देख सकते हैं: statmethods.net/advstats/cluster.html
King

मैंने मतलब के kmeansफंक्शन के साथ कोशिश की । परिणामी साधन प्रयास करने के लिए व्यापक रूप से भिन्न होता है। (इस क्रियान्वयन में खराब आंकड़े?) 1-क्लस्टर सेट के लिए, मुझे कभी-कभी (270,293,693) लगभग कभी-कभी (260,285,308) के आसपास साधन मिलते हैं। 3-क्लस्टर सेट के लिए, कुछ उत्तर हैं (196,324,468,) और (290,459,478)।
निकोलस

क्या कोई स्थान है जहां मैं डेटा पेस्ट कर सकता हूं?
निकोलस

ओह, इस बारे में 693 का मतलब है: कुल 755 मूल्यों में से दो स्पष्ट आउटलेर, 532 और 855 हैं। बाकी सभी मूल्य हिस्टोग्राम में देखे जा सकते हैं।
निकोलस

आपको k- साधनों से प्राप्त होने वाले साधनों से परे देखना होगा, और देखना होगा कि वे वास्तव में आपके डेटा का कितना वर्णन करते हैं!
क्विट है - एनी-मौसे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.