मुझे दूर जाने के बिना, बस अपने स्वयं के फ़ंक्शन (SPSS के लिए मैक्रो) से विकल्पों की एक सूची की प्रतिलिपि बनाने के!kmini
लिए, यहां "क्लस्टरिंग" संग्रह में मिला ।
प्रारंभिक क्लस्टर केंद्र बनाने या चयन करने की विधि। चुनें:
- आरजीसी - यादृच्छिक उपसमूह के केन्द्रक । इन समूहों की सदस्यता, समूहों द्वारा डेटा को अनियमित रूप से विभाजित किया जाता है
k
, और इन समूहों के केंद्रों को प्रारंभिक केंद्र के रूप में नियुक्त किया जाता है। इस प्रकार, केंद्रों की गणना, मौजूदा डेटासेट मामलों से नहीं की जाती है। यह विधि उन केंद्रों की पैदावार करती है जो एक दूसरे के करीब और डेटा के सामान्य केन्द्रक के पास स्थित होते हैं।
- आरपी - बेतरतीब ढंग से चयनित अंक ।
k
प्रारंभिक केंद्र होने के लिए डेटा के अलग-अलग मामलों को बेतरतीब ढंग से चुना जाता है।
- RUNFP -
सबसे दूर के बिंदु (चयन का चयन)। पहले
k
मामलों को केंद्र के रूप में लिया जाता है और फिर डेटासेट के बाकी मामलों के माध्यम से चलाने के दौरान केंद्रों के बीच उत्तरोत्तर प्रतिस्थापन किए जाते हैं; प्रतिस्थापन का उद्देश्य k
परिवर्तनशील स्थान में एक दूसरे से सबसे दूर के अंत बिंदुओं को प्राप्त करना है। डेटा क्लाउड में परिधीय पदों पर कब्जा करने वाले ये बिंदु (मामले) उत्पादित प्रारंभिक केंद्र हैं। (इस विधि का उपयोग SPSS k- साधन प्रक्रिया में डिफ़ॉल्ट के रूप में किया जाता है QUICK CLUSTER
। SPSS एल्गोरिदम में विवरण देखें। यहां भी देखें । )
- SIMFP - सबसे दूर के बिंदु (सरल चयन)। पहला केंद्र डेटासेट से एक यादृच्छिक मामले के रूप में चुना गया है। 2 केंद्र को उस केंद्र से अधिकतम दूरी के मामले के रूप में चुना जाता है। 3 केंद्र को उन दो (अधिकतम दो से) से दूर के मामले के रूप में चुना जाता है, - और इसी तरह।
- KMPP - यादृच्छिक दूर के अंक, या k- साधन ++। पहला केंद्र डेटासेट से एक यादृच्छिक मामले के रूप में चुना गया है। 2 वें केंद्र का चयन भी अनियमित रूप से किया जाता है, लेकिन किसी मामले के चयन की संभावना उस (1) केंद्र की दूरी (वर्ग euclidean) के समानुपाती होती है। 3 केंद्र का चयन यादृच्छिक रूप से उन दो केंद्रों के निकटतम मामले के लिए आनुपातिक चयन की संभावना के साथ किया जाता है, - और इसी तरह। (आर्थर, डी।, वासिल्वित्सकी, एस .. के-साधन ++: सावधान बीजों के फायदे। // असतत एल्गोरिदम पर 18 वीं वार्षिक एसीएम-एसआईएएम संगोष्ठी की कार्यवाही। 2007।, 1027-1035।)
- जीआरईपी - समूह प्रतिनिधि अंक । विधि विचार - केंद्र के रूप में इकट्ठा करने के लिए
k
अधिकांश प्रतिनिधि, "डिप्टी" मामले। 1 केंद्र को सामान्य डेटा सेनिकॉइड के निकटतम मामले के रूप में लिया जाता है। फिर बाकी केंद्रों को डेटा बिंदुओं से इस तरह से चुना जाता है कि प्रत्येक बिंदु को माना जाता है कि क्या यह करीब है (और कितना है, वर्गीय यूक्लिडियन दूरी के संदर्भ में) उत्तरार्द्ध के प्रत्येक एक से अधिक बिंदुओं के सेट तक। पहले से मौजूद केंद्रों में से किसी में है। यानी प्रत्येक बिंदु को परीक्षार्थी के रूप में जांचा जाता है ताकि अंकों के कुछ समूह का प्रतिनिधित्व किया जा सके, जो पहले से ही एकत्र किए गए केंद्रों द्वारा अच्छी तरह से प्रतिनिधित्व नहीं करता है। इस संबंध में सबसे अधिक प्रतिनिधि को अगले केंद्र के रूप में चुना गया है। (कॉफ़मैन, एल। रूसू, पीजे डेटा में समूह ढूँढना: क्लस्टर विश्लेषण के लिए एक परिचय।, 1990। यह भी देखें: पेना, जेएम एट अल। के-अर्थ एल्गोरिथ्म - पैटर्न मान्यता पत्र के लिए चार आरंभीकरण विधियों की एक अनुभवजन्य तुलना। 20 (10), 1999,
- [एक अच्छी विधि भी है, जो मैक्रो द्वारा अभी तक कार्यान्वित नहीं की गई है, ऐसे
k
अंक उत्पन्न करने के लिए जो यादृच्छिक वर्दी से हैं, लेकिन "यादृच्छिक से कम यादृच्छिक", कहीं यादृच्छिक और लालच के बीच; उस पद्धति के लिए संभावित सैद्धांतिक आधार देखें ]
- एक और तरीका है वार्ड की विधि द्वारा पदानुक्रमिक क्लस्टरिंग करना। यदि नमूना बहुत बड़ा है, तो आप इसे वस्तुओं की सदस्यता पर कर सकते हैं। फिर इसके
k
द्वारा उत्पादित समूहों के साधन k- साधन प्रक्रिया के लिए प्रारंभिक बीज हैं। वार्ड अन्य पदानुक्रमिक क्लस्टरिंग विधियों पर बेहतर है क्योंकि यह k- साधनों के साथ सामान्य लक्ष्य उद्देश्य साझा करता है।
विधियाँ RGC, RP, SIMFP, KMPP यादृच्छिक संख्याओं पर निर्भर करती हैं और उनके परिणाम को रन से बदल सकती हैं।
विधि RUNFP डेटासेट में केस ऑर्डर के लिए संवेदनशील हो सकता है; लेकिन विधि जीआरपी नहीं है (ऐसे अवसरों के अलावा जब डेटा में कई समान मामले, संबंध हैं)। विधि GREP सभी k
केंद्रों को एकत्र करने में विफल हो सकती है, यदि k
डेटा में मामलों की संख्या के सापेक्ष बड़ी संख्या है ( n
), खासकर जब k>n/2
। [मैक्रो सूचित करेगा यदि डेटा उस विधि को k
केंद्रों को इकट्ठा करने की अनुमति नहीं देता है ]। विधि GREP सबसे धीमा है, यह सभी मामलों के बीच दूरी के [मेरे कार्यान्वयन में] की गणना करता है, इसलिए यदि हजारों या लाखों मामलों में बहुत सारे हैं तो यह सूट नहीं करेगा। हालाँकि, आप इसे डेटा के यादृच्छिक सदस्यता पर कर सकते हैं।
मैं वर्तमान में चर्चा नहीं कर रहा हूं कि कौन सी विधि "बेहतर" है और किस परिस्थिति में है, क्योंकि मैंने अब तक प्रश्न का व्यापक अनुकरणीय जांच नहीं किया है। मेरी बहुत प्रारंभिक और सतही छापें रही हैं कि GREP विशेष रूप से योग्य है (लेकिन यह महंगा है), और अगर आप चाहते हैं कि वास्तव में सस्ती पद्धति अभी भी पर्याप्त प्रतिस्पर्धी है, तो बस यादृच्छिक k अंक, RP, एक सभ्य विकल्प है।