क्या ऐसे मामले हैं जहां k- साधनों में कोई इष्टतम k नहीं है?

11

यह मेरे दिमाग में कम से कम कुछ घंटों के लिए रहा है। मैं k- साधन एल्गोरिथ्म (एक कोसिनिटी मेट्रिक के साथ ) से आउटपुट के लिए एक इष्टतम कश्मीर खोजने की कोशिश कर रहा था, इसलिए मैंने क्लस्टर की संख्या के एक फ़ंक्शन के रूप में विरूपण की साजिश रचने का अंत किया। मेरा डेटासेट 600-आयामी स्थान में 800 दस्तावेजों का संग्रह है।

मुझे जो समझ में आया है, इस वक्र पर घुटने के बिंदु या कोहनी बिंदु को खोजने से मुझे कम से कम लगभग समूहों की संख्या बताई जानी चाहिए जिन्हें मुझे अपना डेटा डालने की आवश्यकता है। मैंने नीचे ग्राफ रखा। जिस बिंदु पर लाल ऊर्ध्वाधर रेखा खींची गई थी वह अधिकतम दूसरे व्युत्पन्न परीक्षण का उपयोग करके प्राप्त की गई थी । यह सब करने के बाद, मैं कुछ ज्यादा ही सरल हो गया था: यह ग्राफ़ मुझे डेटासेट के बारे में क्या बताता है?

क्या यह मुझे बताता है कि यह क्लस्टरिंग के लायक नहीं है और यह कि मेरे दस्तावेजों में संरचना की कमी है या मुझे बहुत उच्च k सेट करने की आवश्यकता है? एक अजीब बात यह है कि कम के साथ भी, मैं समान दस्तावेजों को एक साथ गुच्छे में देख रहा हूं, इसलिए मुझे यकीन नहीं है कि मुझे यह वक्र क्यों मिल रहा है। कोई विचार?

यहाँ छवि विवरण दर्ज करें

machine-learning clustering k-means

— किंवदंती
स्रोत

2

जो मैं ईमानदारी से समझ नहीं पा रहा हूं कि आप कैसे निकटता मैट्रिक्स इनपुट (और कि कोसाइन किया जा रहा है!) के साथ k- साधन क्लस्टरिंग को नियोजित करने में सक्षम थे। K- साधन क्लस्टरिंग को कच्चे डेटा (ऑब्जेक्ट्स एक्स चर) की आवश्यकता होती है और आंतरिक रूप से यूक्लिडियन दूरी पर संचालित होती है।

— ttnphns 8:13 पर

2

@ttnphns: मुझे आशा है कि मुझे आपकी बात समझ में आ गई, लेकिन मेरे ज्ञान का सबसे अच्छा उपयोग करने के लिए, हम k- मीन्स के साथ किसी भी दूरी की मीट्रिक का उपयोग कर सकते हैं? मैं पायथन में ऐसा कर रहा हूं, लेकिन ऐसा लगता है कि यहां तक कि आर के लिए एक पुस्तकालय भी उपलब्ध है: cran.r-project.org/web/packages/skmeans/index.html इनपुट निकटता मैट्रिक्स नहीं था, बल्कि terms x documentएकवचन वेक्टर प्रदर्शन करने के बाद प्राप्त किया गया था अपघटन। अगर मुझसे गलती हुई है तो कृपया मुझे सुधारें।

— लीजेंड

कॉस्मिक माप के आधार पर गोलाकार k- साधन क्लस्टरिंग मेरे लिए नया है, मुझे स्वीकार करना होगा। मैं इसके बारे में एक दिन और पढ़ने की उम्मीद करता हूं।

— ttnphns

@ttnphns: वापस पाने के लिए धन्यवाद। बस यह सुनिश्चित करना चाहता था कि मैं सेब और संतरे का एक साथ उपयोग नहीं कर रहा था :)

— लीजेंड

k- साधन केवल -Norms के लिए समझदार है । क्योंकि इसका अर्थ है वैक्टर और यह अन्य दूरी के कार्यों के लिए उपयुक्त एमएल-आकलन नहीं है।

L_{p}

$L_p$

— है क्विट - Anony-Mousse

12

ज्यादातर स्थितियों में, मैंने सोचा होगा कि मूल रूप से एक प्लॉट खोदो जिसका मतलब है कि डेटा में कोई क्लस्टर संरचना नहीं है। हालांकि, बहुत उच्च आयामों में क्लस्टरिंग जैसे कि यूक्लिडियन दूरी मीट्रिक के लिए यह मुश्किल है सभी आयाम समान होते हैं क्योंकि आयामों की संख्या बढ़ जाती है। इस विषय पर कुछ पत्रों के संदर्भ के लिए यह विकिपीडिया पृष्ठ देखें । संक्षेप में, यह सिर्फ डेटासेट की उच्च-आयामीता हो सकती है जो समस्या है।

यह अनिवार्य रूप से "आयामीता का अभिशाप" है, इस विकिपीडिया पृष्ठ को भी देखें।

एक कागज जो रुचि का हो सकता है, Sanguinetti, G., "क्लस्टर किए गए डैटसेट की आयामीता में कमी", पैटर्न विश्लेषण और मशीन इंटेलिजेंस, वॉल्यूम पर IEEE लेनदेन। 30 नं। 3, पीपी। 535-540, मार्च 2008 ( www )। जो कि एलडीए के एक अप्रकाशित संस्करण की तरह एक सा है जो एक कम-आयामी स्थान की तलाश करता है जो क्लस्टर संरचना पर जोर देता है। शायद आप k- साधन करने से पहले एक सुविधा निष्कर्षण विधि के रूप में उपयोग कर सकते हैं?

— डिक्रान मार्सुपियल
स्रोत

अरे! माफ़ करना। मुझे उल्लेख करना चाहिए था कि मैं कोसाइन समानता का उपयोग कर रहा हूं।

— लीजेंड

मुझे लगता है कि यह काफी संभावना है कि आयामीता का अभिशाप ब्रह्मांडीय समानता पर भी लागू होता है। यह मूल रूप से कहता है कि वितरण को परिभाषित करने के लिए आपको (सबसे खराब स्थिति) तेजी से अधिक पैटर्न की आवश्यकता होती है क्योंकि आयामों की संख्या बढ़ जाती है। क्लस्टरिंग में जो आप प्रभावी रूप से कर रहे हैं, उप-आबादी का प्रतिनिधित्व करने वाले वितरणों की पहचान कर रहा है, इसलिए उच्च आयामों में क्लस्टरिंग स्वाभाविक रूप से मुश्किल हो सकती है।

— डिक्रान मार्सुपियल जूल

+1 लिंक के लिए धन्यवाद। मैं इसके माध्यम से जाऊंगा और वापस लौटूंगा। मैंने आयामों की संख्या को कम करने के लिए k- साधनों को लागू करने से पहले अपने मूल मैट्रिक्स पर एसवीडी लागू किया।

— लीजेंड

3

आप वास्तव में कोसाइन समानता का उपयोग कैसे करते हैं? क्या इसे गोलाकार के-साधन के रूप में संदर्भित किया जाता है? आपका डेटा सेट काफी छोटा है, इसलिए मैं इसे एक नेटवर्क के रूप में देखने की कोशिश करूंगा। इसके लिए एक समानता का उपयोग करना स्वाभाविक है (वास्तव में, उदाहरण के लिए कॉस्मिक समानता या पियर्सन सहसंबंध), एक कट-ऑफ (केवल एक निश्चित समानता से ऊपर के रिश्तों पर विचार करें) को लागू करें, और उदाहरण के लिए एक नेटवर्क के रूप में परिणाम देखें Cososcape या BioLayout । यह डेटा के लिए एक भावना प्राप्त करने के लिए बहुत मददगार हो सकता है। दूसरा, मैं आपके डेटा मैट्रिक्स, या उचित रूप से रूपांतरित और सामान्यीकृत मैट्रिक्स (किसी दस्तावेज़-दस्तावेज़ मैट्रिक्स किसी रूप में प्राप्त) के eigenvalues के लिए एकवचन मानों की गणना करूंगा। क्लस्टर संरचना को (पुन:) eigenvalues या विलक्षण मानों की क्रमबद्ध सूची में एक कूद के रूप में दिखाना चाहिए।

— micans
स्रोत

+1 पॉइंटर्स के लिए धन्यवाद। मुझे Cytoscape की जानकारी नहीं थी। मैं कोशिश करूंगा कि और हाँ, ऐसा लगता है कि कोसाइन के साथ k- साधनों को समान रूप से गोलाकार k- साधन के रूप में संदर्भित किया जाता है। मैंने एसवीडी लागू करने और आयामों की संख्या को कम करने के बाद इस के-साधन को लागू किया। जिस तरह से मैंने आयामों की संख्या को कम किया वह भिन्नता नियम का उपयोग करना था (मूल डेटा में 95% तक योगदान करने वाले एकवचन मानों को चुनना)।

— लीजेंड

यदि आपको कोई आपत्ति नहीं है, तो क्या आप एक ट्यूटोरियल की ओर इशारा कर सकते हैं जो यह बताता है कि यह कैसे करना है (या कम से कम ऐसा कुछ)। एक बार जब मैं मैट्रिक्स उत्पन्न करता हूं, तो क्या मैं इसे निर्यात करता हूं और फिर इसे साइटोस्केप में आयात करता हूं और आपने जो सुझाव दिया है, उसे करता हूं? मैं इस बारे में उत्सुक हूं कि क्या Cytoscape में कॉज़ेन समानता के लिए अंतर्निहित विधियां हैं या क्या मुझे कुछ डेटा प्रारूप को पूर्वस्थापित करना है और इसे इनपुट के रूप में देना है?

— लीजेंड

जब मैं उन कार्यक्रमों के साथ काम करता हूं, तो मैं सभी जोड़ीदार समानताएं बाह्य रूप से गणना करता हूं, थ्रेसहोल्ड द्वारा फ़िल्टर करता हूं, और प्रारूप <लेबल 1> <लेबल 2> <समानता> के साथ एक फ़ाइल का उत्पादन करता हूं। या तो उस इनपुट को पढ़ने में सक्षम होना चाहिए। BioLayout में मुझे लगता है कि एक .txt प्रत्यय होना चाहिए; इन CytoScape 'टेबल से आयात' का उपयोग करें।

— माइक जूल 13'11

समझ लिया। मैं ऐसा करूंगा और जल्द ही वापस लौटूंगा। एक बार फिर आपका धन्यवाद।

— लीजेंड

गूंगे प्रश्न के लिए क्षमा करें, लेकिन मैंने अपने डेटा को <लेबल 1> <लेबल 2> <समानता> के रूप में प्रारूपित किया, लेकिन यह पता लगाने में सक्षम नहीं हूं कि इसे कैसे आयात किया जाए। मैंने फ़ाइल-> आयात-> तालिका से नेटवर्क किया और अपने स्रोत और लक्ष्य कॉलम का चयन किया। मैंने सहभागिता को डिफ़ॉल्ट के रूप में छोड़ दिया। लेकिन मैं किनारों के साथ किनारे वजन कैसे आयात करने वाला हूं? क्या आपके पास कोई सुझाव होगा?

— लीजेंड

2

आम तौर पर, के-साधन बहुत विशिष्ट समाधानों में परिवर्तित हो सकते हैं जिन्हें अनुपयुक्त के रूप में आंका जा सकता है। यह विशेष रूप से अनियमित आकृतियों वाले समूहों के लिए होता है।

अधिक अंतर्ज्ञान प्राप्त करें आप एक और विज़ुअलाइज़ेशन दृष्टिकोण की कोशिश कर सकते हैं: k- साधनों के लिए आप ग्राफग्राम के उपयोग से k- साधनों के साथ कई रन की कल्पना कर सकते हैं (WEKA ग्राफग्राम पैकेज देखें - पैकेज प्रबंधक या यहाँ द्वारा प्राप्त सर्वश्रेष्ठ । एक परिचय और उदाहरण भी हो सकते हैं। यहाँ पाया गया ।

— जोहान्स श्नाइडर
स्रोत

1

यदि मैं ग्राफ को सही ढंग से समझता हूं तो यह क्लस्टर की संख्या का एक प्लॉट है, एक्स-अक्ष पर K और Y- अक्ष पर क्लस्टर्स की दूरी है?

क्योंकि आपका K- साधन उद्देश्य फ़ंक्शन WCSS को कम करना है, इसलिए यह प्लॉट हमेशा नीरस रूप से कम होना चाहिए। जब आप अधिक क्लस्टर जोड़ते हैं, तो क्लस्टर में बिंदुओं के बीच की दूरी हमेशा घट जाएगी। यह मॉडल चयन की मूलभूत समस्या है, इसलिए आपको थोड़ा और परिष्कार करने की आवश्यकता है।

शायद गैप आँकड़ा आज़माएँ: www-stat.stanford.edu/~tibs/ftp/gap.ps या अन्य इसे पसंद करें।

इसके अलावा, आप पा सकते हैं कि K- साधन नौकरी के लिए सही उपकरण नहीं है। आप कितने क्लस्टर खोजने की उम्मीद करते हैं? क्लस्टरिंग के लिए आयामीता में कमी के लिए विचरण नियम का उपयोग करना उचित नहीं है। इस पेपर को तब देखें जब पहले K-1 PC पर प्रोजेक्ट करना एक उपयुक्त प्रीप्रोसेसिंग उपाय है: http://people.csail.mit.edu/gjw/papers/jcss.ps

आप जल्दी से देख सकते हैं कि क्या यह पहली दो प्रमुख घटकों पर प्रक्षेपण की साजिश रचने के लिए सही बात है। यदि स्पष्ट अलगाव है तो K- साधन ठीक होना चाहिए, यदि आपको किसी और चीज पर ध्यान देने की आवश्यकता नहीं है। शायद K-subspaces या अन्य subspace क्लस्टरिंग विधियाँ। ये तरीके यूक्लिडियन दूरी के लिए लागू होते हैं। मुझे यकीन नहीं है कि यह कॉशन के लिए कैसे बदलता है।

— बीएमसी
स्रोत