K- क्लस्टरिंग को प्रारंभ करने के तरीके


11

मैं K- साधनों के लिए प्रारंभिक बीजों (क्लस्टर केंद्रों) का चयन करने के लिए कला की वर्तमान स्थिति में दिलचस्पी रखता हूं।

Googling से दो लोकप्रिय विकल्प निकलते हैं:

  1. प्रारंभिक बीजों का यादृच्छिक चयन, और,
  2. KMeans ++ चयन तकनीक का उपयोग: आर्थर और वासिल्वित्सकी 2006 k- साधन ++: सावधान सीडिंग के लाभ

क्या कोई अन्य आशाजनक विधियाँ हैं जिनके बारे में यहाँ कोई भी जानता है, जो शायद उतना लोकप्रिय नहीं है?

जवाबों:


12

मुझे दूर जाने के बिना, बस अपने स्वयं के फ़ंक्शन (SPSS के लिए मैक्रो) से विकल्पों की एक सूची की प्रतिलिपि बनाने के!kmini लिए, यहां "क्लस्टरिंग" संग्रह में मिला ।

प्रारंभिक क्लस्टर केंद्र बनाने या चयन करने की विधि। चुनें:

  • आरजीसी - यादृच्छिक उपसमूह के केन्द्रक । इन समूहों की सदस्यता, समूहों द्वारा डेटा को अनियमित रूप से विभाजित किया जाता है k, और इन समूहों के केंद्रों को प्रारंभिक केंद्र के रूप में नियुक्त किया जाता है। इस प्रकार, केंद्रों की गणना, मौजूदा डेटासेट मामलों से नहीं की जाती है। यह विधि उन केंद्रों की पैदावार करती है जो एक दूसरे के करीब और डेटा के सामान्य केन्द्रक के पास स्थित होते हैं।
  • आरपी - बेतरतीब ढंग से चयनित अंकkप्रारंभिक केंद्र होने के लिए डेटा के अलग-अलग मामलों को बेतरतीब ढंग से चुना जाता है।
  • RUNFP - सबसे दूर के बिंदु (चयन का चयन)। पहले kमामलों को केंद्र के रूप में लिया जाता है और फिर डेटासेट के बाकी मामलों के माध्यम से चलाने के दौरान केंद्रों के बीच उत्तरोत्तर प्रतिस्थापन किए जाते हैं; प्रतिस्थापन का उद्देश्य kपरिवर्तनशील स्थान में एक दूसरे से सबसे दूर के अंत बिंदुओं को प्राप्त करना है। डेटा क्लाउड में परिधीय पदों पर कब्जा करने वाले ये बिंदु (मामले) उत्पादित प्रारंभिक केंद्र हैं। (इस विधि का उपयोग SPSS k- साधन प्रक्रिया में डिफ़ॉल्ट के रूप में किया जाता है QUICK CLUSTER। SPSS एल्गोरिदम में विवरण देखें। यहां भी देखें )
  • SIMFP - सबसे दूर के बिंदु (सरल चयन)। पहला केंद्र डेटासेट से एक यादृच्छिक मामले के रूप में चुना गया है। 2 केंद्र को उस केंद्र से अधिकतम दूरी के मामले के रूप में चुना जाता है। 3 केंद्र को उन दो (अधिकतम दो से) से दूर के मामले के रूप में चुना जाता है, - और इसी तरह।
  • KMPP - यादृच्छिक दूर के अंक, या k- साधन ++। पहला केंद्र डेटासेट से एक यादृच्छिक मामले के रूप में चुना गया है। 2 वें केंद्र का चयन भी अनियमित रूप से किया जाता है, लेकिन किसी मामले के चयन की संभावना उस (1) केंद्र की दूरी (वर्ग euclidean) के समानुपाती होती है। 3 केंद्र का चयन यादृच्छिक रूप से उन दो केंद्रों के निकटतम मामले के लिए आनुपातिक चयन की संभावना के साथ किया जाता है, - और इसी तरह। (आर्थर, डी।, वासिल्वित्सकी, एस .. के-साधन ++: सावधान बीजों के फायदे। // असतत एल्गोरिदम पर 18 वीं वार्षिक एसीएम-एसआईएएम संगोष्ठी की कार्यवाही। 2007।, 1027-1035।)
  • जीआरईपी - समूह प्रतिनिधि अंक । विधि विचार - केंद्र के रूप में इकट्ठा करने के लिएkअधिकांश प्रतिनिधि, "डिप्टी" मामले। 1 केंद्र को सामान्य डेटा सेनिकॉइड के निकटतम मामले के रूप में लिया जाता है। फिर बाकी केंद्रों को डेटा बिंदुओं से इस तरह से चुना जाता है कि प्रत्येक बिंदु को माना जाता है कि क्या यह करीब है (और कितना है, वर्गीय यूक्लिडियन दूरी के संदर्भ में) उत्तरार्द्ध के प्रत्येक एक से अधिक बिंदुओं के सेट तक। पहले से मौजूद केंद्रों में से किसी में है। यानी प्रत्येक बिंदु को परीक्षार्थी के रूप में जांचा जाता है ताकि अंकों के कुछ समूह का प्रतिनिधित्व किया जा सके, जो पहले से ही एकत्र किए गए केंद्रों द्वारा अच्छी तरह से प्रतिनिधित्व नहीं करता है। इस संबंध में सबसे अधिक प्रतिनिधि को अगले केंद्र के रूप में चुना गया है। (कॉफ़मैन, एल। रूसू, पीजे डेटा में समूह ढूँढना: क्लस्टर विश्लेषण के लिए एक परिचय।, 1990। यह भी देखें: पेना, जेएम एट अल। के-अर्थ एल्गोरिथ्म - पैटर्न मान्यता पत्र के लिए चार आरंभीकरण विधियों की एक अनुभवजन्य तुलना। 20 (10), 1999,
  • [एक अच्छी विधि भी है, जो मैक्रो द्वारा अभी तक कार्यान्वित नहीं की गई है, ऐसे kअंक उत्पन्न करने के लिए जो यादृच्छिक वर्दी से हैं, लेकिन "यादृच्छिक से कम यादृच्छिक", कहीं यादृच्छिक और लालच के बीच; उस पद्धति के लिए संभावित सैद्धांतिक आधार देखें ]
  • एक और तरीका है वार्ड की विधि द्वारा पदानुक्रमिक क्लस्टरिंग करना। यदि नमूना बहुत बड़ा है, तो आप इसे वस्तुओं की सदस्यता पर कर सकते हैं। फिर इसके kद्वारा उत्पादित समूहों के साधन k- साधन प्रक्रिया के लिए प्रारंभिक बीज हैं। वार्ड अन्य पदानुक्रमिक क्लस्टरिंग विधियों पर बेहतर है क्योंकि यह k- साधनों के साथ सामान्य लक्ष्य उद्देश्य साझा करता है।

विधियाँ RGC, RP, SIMFP, KMPP यादृच्छिक संख्याओं पर निर्भर करती हैं और उनके परिणाम को रन से बदल सकती हैं।

विधि RUNFP डेटासेट में केस ऑर्डर के लिए संवेदनशील हो सकता है; लेकिन विधि जीआरपी नहीं है (ऐसे अवसरों के अलावा जब डेटा में कई समान मामले, संबंध हैं)। विधि GREP सभी kकेंद्रों को एकत्र करने में विफल हो सकती है, यदि kडेटा में मामलों की संख्या के सापेक्ष बड़ी संख्या है ( n), खासकर जब k>n/2। [मैक्रो सूचित करेगा यदि डेटा उस विधि को kकेंद्रों को इकट्ठा करने की अनुमति नहीं देता है ]। विधि GREP सबसे धीमा है, यह सभी मामलों के बीच दूरी के [मेरे कार्यान्वयन में] की गणना करता है, इसलिए यदि हजारों या लाखों मामलों में बहुत सारे हैं तो यह सूट नहीं करेगा। हालाँकि, आप इसे डेटा के यादृच्छिक सदस्यता पर कर सकते हैं।

मैं वर्तमान में चर्चा नहीं कर रहा हूं कि कौन सी विधि "बेहतर" है और किस परिस्थिति में है, क्योंकि मैंने अब तक प्रश्न का व्यापक अनुकरणीय जांच नहीं किया है। मेरी बहुत प्रारंभिक और सतही छापें रही हैं कि GREP विशेष रूप से योग्य है (लेकिन यह महंगा है), और अगर आप चाहते हैं कि वास्तव में सस्ती पद्धति अभी भी पर्याप्त प्रतिस्पर्धी है, तो बस यादृच्छिक k अंक, RP, एक सभ्य विकल्प है।


ps भी उत्तर आँकड़े
a/

मुझे आपके उत्तर को देखकर कुछ खुशी होगी जैसे - K- मीन्स को इनिशियलाइज़ करने के लिए नियतात्मक अभी तक प्रभावी तरीके।
रॉय

@ रोई, यदि आपके पास इसके बारे में कोई प्रश्न है तो प्रश्न क्यों नहीं पोस्ट करें?
ttnphns

क्या आपके पास साझा करने के कई तरीके हैं? मैंने कुछ "फाइंड फ़ार्स्टेस्ट सैंपल" ट्रिक्स बनाए हैं, लेकिन क्या कई अच्छे सवाल पूछने के लायक हैं?
रॉय

यदि आपके पास योग्य के रूप में आपके पास कुछ भी है, तो इसे एक प्रश्न के रूप में साझा करें यदि प्रश्न के बारे में कुछ योग्य पूछा जा सकता है।
ttnphns

5

पिछली बार मैंने इस पर एक व्यापक साहित्य समीक्षा की थी, जिसे लगभग 20 साल पहले स्वीकार किया गया था, दो मुख्य सिफारिशें थीं:

  1. प्रारंभिक केंद्रों को खोजने के लिए वार्ड की विधि (यह एक मानक श्रेणीबद्ध क्लस्टर विश्लेषण एल्गोरिदम है) का उपयोग करने के लिए।
  2. यादृच्छिक शुरुआत का उपयोग करें।

बड़े डेटा अनुप्रयोगों में, वार्ड की विधि इतनी अच्छी तरह से काम नहीं करती है, हालांकि इसे उप-नमूने पर लागू किया जा सकता है।

मैंने कुछ सिमुलेशन किए, जो मुझे प्रकाशन के लिए कभी नहीं मिले, और पाया कि:

मुख्य रूप से जो मैंने इससे लिया वह यह है कि एसपीएसएस एल्गोरिथ्म आश्चर्यजनक रूप से अच्छा है, लेकिन अगर किसी के पास संसाधन हैं, तो 1000+ यादृच्छिक प्रारंभ बिंदु जाने का रास्ता है।


अपने सिमुलेशन में क्या आपने उच्च आयामी डेटा के लिए व्यवहार में कोई बदलाव देखा है?
अरिन चौधरी

ऐसा नहीं कि मैं याद कर सकता हूं। हालाँकि, मेरे सिमुलेशन में मेरे विचार से लगभग 20 से अधिक चर नहीं होंगे। हालाँकि, उच्च आयामीता जितनी अधिक होती है, यादृच्छिक की संख्या उतनी ही अधिक होनी चाहिए, बाकी सभी समान होती है।
टिम

एक नोट: डिफ़ॉल्ट SPSS एल्गोरिथ्म (आपके लिंक को तोड़ दिया गया है) जिसे मैंने अपने उत्तर में RUNFP के रूप में कहा है।
ttnphns

4

Ttnphns नामकरण के साथ, मैंने RGC, RP और KMPP का परीक्षण किया:

  • 2 डी / 3 डी अंक
  • शाब्दिक दस्तावेजों से शब्दों का बैग
  • अनिवार्य रूप से दूरी के साथ घटता है ।L2

मैं आरजीसी की सिफारिश नहीं करता हूं क्योंकि परिणामी केंद्र एक दूसरे के बहुत करीब हैं: कई बिंदुओं का मतलब वैश्विक माध्य (बड़ी संख्या का कानून) के करीब है। यह अभिसरण को बहुत धीमा कर सकता है: क्लस्टर शुरू होने से पहले कुछ समय लगता है।

आरपी आम तौर पर अच्छा होता है और यह पहली आसान पसंद के रूप में सुझाएगा।

केएमपीपी बहुत लोकप्रिय है और छोटे आयाम में बहुत अच्छी तरह से काम करता है: आरपी की तुलना में यह स्थानीय न्यूनतम में समाप्त होने की संभावना को कम करता है।

हालाँकि जब मैं बड़े डेटासेट पर काम कर रहा था (1M अंक जो बड़े आयाम के साथ शाब्दिक दस्तावेजों से शब्दों का बैग है), आरपी ने KMPP को इस अर्थ में थोड़ा बाहर कर दिया कि यह थोड़े कम पुनरावृत्तियों के साथ समाप्त हो गया। मुझे इस पर आश्चर्य हुआ। बड़े डेटासेट / उच्च आयाम में, वैश्विक न्यूनतम पर अभिसरण असंभव है, आप गुणवत्ता को "स्थानीय न्यूनतम कितना अच्छा है" = "कितना छोटा एसओडी है" के रूप में मापते हैं। दोनों विधियों में समान गुण थे।

ध्यान दें कि यदि आप गुणवत्ता में सुधार के लिए प्रतिकृति का उपयोग करना चाहते हैं, तो यादृच्छिक विधि का उपयोग करना महत्वपूर्ण है।


धन्यवाद। मैं बड़े आयाम डेटा के साथ काम करूंगा इसलिए यह काफी उपयोगी है।
अरिन चौधरी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.