क्या ऐसे मामले हैं जहां k- साधनों में कोई इष्टतम k नहीं है?


11

यह मेरे दिमाग में कम से कम कुछ घंटों के लिए रहा है। मैं k- साधन एल्गोरिथ्म (एक कोसिनिटी मेट्रिक के साथ ) से आउटपुट के लिए एक इष्टतम कश्मीर खोजने की कोशिश कर रहा था, इसलिए मैंने क्लस्टर की संख्या के एक फ़ंक्शन के रूप में विरूपण की साजिश रचने का अंत किया। मेरा डेटासेट 600-आयामी स्थान में 800 दस्तावेजों का संग्रह है।

मुझे जो समझ में आया है, इस वक्र पर घुटने के बिंदु या कोहनी बिंदु को खोजने से मुझे कम से कम लगभग समूहों की संख्या बताई जानी चाहिए जिन्हें मुझे अपना डेटा डालने की आवश्यकता है। मैंने नीचे ग्राफ रखा। जिस बिंदु पर लाल ऊर्ध्वाधर रेखा खींची गई थी वह अधिकतम दूसरे व्युत्पन्न परीक्षण का उपयोग करके प्राप्त की गई थी । यह सब करने के बाद, मैं कुछ ज्यादा ही सरल हो गया था: यह ग्राफ़ मुझे डेटासेट के बारे में क्या बताता है?

क्या यह मुझे बताता है कि यह क्लस्टरिंग के लायक नहीं है और यह कि मेरे दस्तावेजों में संरचना की कमी है या मुझे बहुत उच्च k सेट करने की आवश्यकता है? एक अजीब बात यह है कि कम के साथ भी, मैं समान दस्तावेजों को एक साथ गुच्छे में देख रहा हूं, इसलिए मुझे यकीन नहीं है कि मुझे यह वक्र क्यों मिल रहा है। कोई विचार?

यहाँ छवि विवरण दर्ज करें


2
जो मैं ईमानदारी से समझ नहीं पा रहा हूं कि आप कैसे निकटता मैट्रिक्स इनपुट (और कि कोसाइन किया जा रहा है!) के साथ k- साधन क्लस्टरिंग को नियोजित करने में सक्षम थे। K- साधन क्लस्टरिंग को कच्चे डेटा (ऑब्जेक्ट्स एक्स चर) की आवश्यकता होती है और आंतरिक रूप से यूक्लिडियन दूरी पर संचालित होती है।
ttnphns 8:13 पर

2
@ttnphns: मुझे आशा है कि मुझे आपकी बात समझ में आ गई, लेकिन मेरे ज्ञान का सबसे अच्छा उपयोग करने के लिए, हम k- मीन्स के साथ किसी भी दूरी की मीट्रिक का उपयोग कर सकते हैं? मैं पायथन में ऐसा कर रहा हूं, लेकिन ऐसा लगता है कि यहां तक ​​कि आर के लिए एक पुस्तकालय भी उपलब्ध है: cran.r-project.org/web/packages/skmeans/index.html इनपुट निकटता मैट्रिक्स नहीं था, बल्कि terms x documentएकवचन वेक्टर प्रदर्शन करने के बाद प्राप्त किया गया था अपघटन। अगर मुझसे गलती हुई है तो कृपया मुझे सुधारें।
लीजेंड

कॉस्मिक माप के आधार पर गोलाकार k- साधन क्लस्टरिंग मेरे लिए नया है, मुझे स्वीकार करना होगा। मैं इसके बारे में एक दिन और पढ़ने की उम्मीद करता हूं।
ttnphns

@ttnphns: वापस पाने के लिए धन्यवाद। बस यह सुनिश्चित करना चाहता था कि मैं सेब और संतरे का एक साथ उपयोग नहीं कर रहा था :)
लीजेंड

k- साधन केवल -Norms के लिए समझदार है । क्योंकि इसका अर्थ है वैक्टर और यह अन्य दूरी के कार्यों के लिए उपयुक्त एमएल-आकलन नहीं है। Lp
है क्विट - Anony-Mousse

जवाबों:


12

ज्यादातर स्थितियों में, मैंने सोचा होगा कि मूल रूप से एक प्लॉट खोदो जिसका मतलब है कि डेटा में कोई क्लस्टर संरचना नहीं है। हालांकि, बहुत उच्च आयामों में क्लस्टरिंग जैसे कि यूक्लिडियन दूरी मीट्रिक के लिए यह मुश्किल है सभी आयाम समान होते हैं क्योंकि आयामों की संख्या बढ़ जाती है। इस विषय पर कुछ पत्रों के संदर्भ के लिए यह विकिपीडिया पृष्ठ देखें । संक्षेप में, यह सिर्फ डेटासेट की उच्च-आयामीता हो सकती है जो समस्या है।

यह अनिवार्य रूप से "आयामीता का अभिशाप" है, इस विकिपीडिया पृष्ठ को भी देखें।

एक कागज जो रुचि का हो सकता है, Sanguinetti, G., "क्लस्टर किए गए डैटसेट की आयामीता में कमी", पैटर्न विश्लेषण और मशीन इंटेलिजेंस, वॉल्यूम पर IEEE लेनदेन। 30 नं। 3, पीपी। 535-540, मार्च 2008 ( www )। जो कि एलडीए के एक अप्रकाशित संस्करण की तरह एक सा है जो एक कम-आयामी स्थान की तलाश करता है जो क्लस्टर संरचना पर जोर देता है। शायद आप k- साधन करने से पहले एक सुविधा निष्कर्षण विधि के रूप में उपयोग कर सकते हैं?


अरे! माफ़ करना। मुझे उल्लेख करना चाहिए था कि मैं कोसाइन समानता का उपयोग कर रहा हूं।
लीजेंड

मुझे लगता है कि यह काफी संभावना है कि आयामीता का अभिशाप ब्रह्मांडीय समानता पर भी लागू होता है। यह मूल रूप से कहता है कि वितरण को परिभाषित करने के लिए आपको (सबसे खराब स्थिति) तेजी से अधिक पैटर्न की आवश्यकता होती है क्योंकि आयामों की संख्या बढ़ जाती है। क्लस्टरिंग में जो आप प्रभावी रूप से कर रहे हैं, उप-आबादी का प्रतिनिधित्व करने वाले वितरणों की पहचान कर रहा है, इसलिए उच्च आयामों में क्लस्टरिंग स्वाभाविक रूप से मुश्किल हो सकती है।
डिक्रान मार्सुपियल जूल

+1 लिंक के लिए धन्यवाद। मैं इसके माध्यम से जाऊंगा और वापस लौटूंगा। मैंने आयामों की संख्या को कम करने के लिए k- साधनों को लागू करने से पहले अपने मूल मैट्रिक्स पर एसवीडी लागू किया।
लीजेंड

3

आप वास्तव में कोसाइन समानता का उपयोग कैसे करते हैं? क्या इसे गोलाकार के-साधन के रूप में संदर्भित किया जाता है? आपका डेटा सेट काफी छोटा है, इसलिए मैं इसे एक नेटवर्क के रूप में देखने की कोशिश करूंगा। इसके लिए एक समानता का उपयोग करना स्वाभाविक है (वास्तव में, उदाहरण के लिए कॉस्मिक समानता या पियर्सन सहसंबंध), एक कट-ऑफ (केवल एक निश्चित समानता से ऊपर के रिश्तों पर विचार करें) को लागू करें, और उदाहरण के लिए एक नेटवर्क के रूप में परिणाम देखें Cososcape या BioLayout । यह डेटा के लिए एक भावना प्राप्त करने के लिए बहुत मददगार हो सकता है। दूसरा, मैं आपके डेटा मैट्रिक्स, या उचित रूप से रूपांतरित और सामान्यीकृत मैट्रिक्स (किसी दस्तावेज़-दस्तावेज़ मैट्रिक्स किसी रूप में प्राप्त) के eigenvalues ​​के लिए एकवचन मानों की गणना करूंगा। क्लस्टर संरचना को (पुन:) eigenvalues ​​या विलक्षण मानों की क्रमबद्ध सूची में एक कूद के रूप में दिखाना चाहिए।


+1 पॉइंटर्स के लिए धन्यवाद। मुझे Cytoscape की जानकारी नहीं थी। मैं कोशिश करूंगा कि और हाँ, ऐसा लगता है कि कोसाइन के साथ k- साधनों को समान रूप से गोलाकार k- साधन के रूप में संदर्भित किया जाता है। मैंने एसवीडी लागू करने और आयामों की संख्या को कम करने के बाद इस के-साधन को लागू किया। जिस तरह से मैंने आयामों की संख्या को कम किया वह भिन्नता नियम का उपयोग करना था (मूल डेटा में 95% तक योगदान करने वाले एकवचन मानों को चुनना)।
लीजेंड

यदि आपको कोई आपत्ति नहीं है, तो क्या आप एक ट्यूटोरियल की ओर इशारा कर सकते हैं जो यह बताता है कि यह कैसे करना है (या कम से कम ऐसा कुछ)। एक बार जब मैं मैट्रिक्स उत्पन्न करता हूं, तो क्या मैं इसे निर्यात करता हूं और फिर इसे साइटोस्केप में आयात करता हूं और आपने जो सुझाव दिया है, उसे करता हूं? मैं इस बारे में उत्सुक हूं कि क्या Cytoscape में कॉज़ेन समानता के लिए अंतर्निहित विधियां हैं या क्या मुझे कुछ डेटा प्रारूप को पूर्वस्थापित करना है और इसे इनपुट के रूप में देना है?
लीजेंड

जब मैं उन कार्यक्रमों के साथ काम करता हूं, तो मैं सभी जोड़ीदार समानताएं बाह्य रूप से गणना करता हूं, थ्रेसहोल्ड द्वारा फ़िल्टर करता हूं, और प्रारूप <लेबल 1> <लेबल 2> <समानता> के साथ एक फ़ाइल का उत्पादन करता हूं। या तो उस इनपुट को पढ़ने में सक्षम होना चाहिए। BioLayout में मुझे लगता है कि एक .txt प्रत्यय होना चाहिए; इन CytoScape 'टेबल से आयात' का उपयोग करें।
माइक जूल 13'11

समझ लिया। मैं ऐसा करूंगा और जल्द ही वापस लौटूंगा। एक बार फिर आपका धन्यवाद।
लीजेंड

गूंगे प्रश्न के लिए क्षमा करें, लेकिन मैंने अपने डेटा को <लेबल 1> <लेबल 2> <समानता> के रूप में प्रारूपित किया, लेकिन यह पता लगाने में सक्षम नहीं हूं कि इसे कैसे आयात किया जाए। मैंने फ़ाइल-> आयात-> तालिका से नेटवर्क किया और अपने स्रोत और लक्ष्य कॉलम का चयन किया। मैंने सहभागिता को डिफ़ॉल्ट के रूप में छोड़ दिया। लेकिन मैं किनारों के साथ किनारे वजन कैसे आयात करने वाला हूं? क्या आपके पास कोई सुझाव होगा?
लीजेंड

2

आम तौर पर, के-साधन बहुत विशिष्ट समाधानों में परिवर्तित हो सकते हैं जिन्हें अनुपयुक्त के रूप में आंका जा सकता है। यह विशेष रूप से अनियमित आकृतियों वाले समूहों के लिए होता है।

अधिक अंतर्ज्ञान प्राप्त करें आप एक और विज़ुअलाइज़ेशन दृष्टिकोण की कोशिश कर सकते हैं: k- साधनों के लिए आप ग्राफग्राम के उपयोग से k- साधनों के साथ कई रन की कल्पना कर सकते हैं (WEKA ग्राफग्राम पैकेज देखें - पैकेज प्रबंधक या यहाँ द्वारा प्राप्त सर्वश्रेष्ठ । एक परिचय और उदाहरण भी हो सकते हैं। यहाँ पाया गया


1

यदि मैं ग्राफ को सही ढंग से समझता हूं तो यह क्लस्टर की संख्या का एक प्लॉट है, एक्स-अक्ष पर K और Y- अक्ष पर क्लस्टर्स की दूरी है?

क्योंकि आपका K- साधन उद्देश्य फ़ंक्शन WCSS को कम करना है, इसलिए यह प्लॉट हमेशा नीरस रूप से कम होना चाहिए। जब आप अधिक क्लस्टर जोड़ते हैं, तो क्लस्टर में बिंदुओं के बीच की दूरी हमेशा घट जाएगी। यह मॉडल चयन की मूलभूत समस्या है, इसलिए आपको थोड़ा और परिष्कार करने की आवश्यकता है।

शायद गैप आँकड़ा आज़माएँ: www-stat.stanford.edu/~tibs/ftp/gap.ps या अन्य इसे पसंद करें।

इसके अलावा, आप पा सकते हैं कि K- साधन नौकरी के लिए सही उपकरण नहीं है। आप कितने क्लस्टर खोजने की उम्मीद करते हैं? क्लस्टरिंग के लिए आयामीता में कमी के लिए विचरण नियम का उपयोग करना उचित नहीं है। इस पेपर को तब देखें जब पहले K-1 PC पर प्रोजेक्ट करना एक उपयुक्त प्रीप्रोसेसिंग उपाय है: http://people.csail.mit.edu/gjw/papers/jcss.ps

आप जल्दी से देख सकते हैं कि क्या यह पहली दो प्रमुख घटकों पर प्रक्षेपण की साजिश रचने के लिए सही बात है। यदि स्पष्ट अलगाव है तो K- साधन ठीक होना चाहिए, यदि आपको किसी और चीज पर ध्यान देने की आवश्यकता नहीं है। शायद K-subspaces या अन्य subspace क्लस्टरिंग विधियाँ। ये तरीके यूक्लिडियन दूरी के लिए लागू होते हैं। मुझे यकीन नहीं है कि यह कॉशन के लिए कैसे बदलता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.