क्लस्टर विश्लेषण की मान्यताओं


16

अल्पविकसित प्रश्न के लिए क्षमा याचना, मैं विश्लेषण के इस रूप में नया हूं और सिद्धांतों की अब तक बहुत सीमित समझ है।

मैं सोच रहा था कि क्या क्लस्टर विश्लेषण के लिए बहुभिन्नरूपी / अनिवारीटेट परीक्षणों के लिए कई पैरामीट्रिक धारणाएं लागू होती हैं? क्लस्टर विश्लेषण के संबंध में मैंने जो जानकारी पढ़ी है उनमें से कई स्रोत किसी भी धारणा को निर्दिष्ट करने में विफल हैं।

मैं विशेष रूप से टिप्पणियों की स्वतंत्रता की धारणा में दिलचस्पी रखता हूं। मेरी समझ यह है कि इस धारणा का उल्लंघन (उदाहरण के लिए एनोवा और मावोवा में) गंभीर है क्योंकि यह त्रुटि के अनुमान को प्रभावित करता है। मेरे पढ़ने से अब तक, ऐसा लगता है कि क्लस्टर विश्लेषण काफी हद तक एक वर्णनात्मक तकनीक है (जिसमें केवल कुछ विशिष्ट मामलों में सांख्यिकीय निष्कर्ष शामिल हैं)। तदनुसार, क्या स्वतंत्रता और सामान्य रूप से वितरित डेटा जैसी धारणाएं आवश्यक हैं?

इस मुद्दे पर चर्चा करने वाले ग्रंथों की किसी भी सिफारिश की बहुत सराहना की जाएगी। बहुत धन्यवाद।

जवाबों:


7

खैर, क्लस्टरिंग तकनीक केवल दूरी-आधारित तरीकों तक सीमित नहीं हैं, जहां हम सांख्यिकीय इकाइयों के समूहों की तलाश करते हैं जो एक ज्यामितीय अर्थ में असामान्य रूप से एक-दूसरे के करीब हैं। घनत्व पर निर्भर तकनीकों की एक श्रृंखला भी होती है (क्लस्टर को सुविधा क्षेत्र में "क्षेत्र" के रूप में देखा जाता है) या संभाव्यता वितरण

बाद वाले मामले को मॉडल-आधारित क्लस्टरिंग के रूप में भी जाना जाता है ; मनोचिकित्सक फ़िनिट मिक्सचर मॉडल के इस विशिष्ट मामले को दर्शाने के लिए लेटेंट प्रोफाइल एनालिसिस शब्द का उपयोग करते हैं , जहाँ हम यह मानते हैं कि जनसंख्या अलग-अलग अप्राप्य समूहों या अव्यक्त वर्गों से बनी है, और यह कि सभी मैनिफ़ेस्ट चर का संयुक्त घनत्व इस वर्ग का मिश्रण है- विशिष्ट घनत्व। Mclust पैकेज या Mplus सॉफ़्टवेयर में अच्छा कार्यान्वयन उपलब्ध हैं । विभिन्न वर्ग-अपरिवर्तनीय सहसंयोजक मैट्रिस का उपयोग किया जा सकता है (वास्तव में, Mclust बीआईसी मानदंड का उपयोग करता है ताकि समूहों की संख्या को अलग करते हुए इष्टतम का चयन किया जा सके)।

मानक लेटेंट क्लास मॉडल यह भी धारणा बनाता है कि मनाया गया डेटा जी मल्टीवेरिएट मल्टीनोमियल डिस्ट्रीब्यूशन के मिश्रण से आता है। एक अच्छा अवलोकन मॉडल-आधारित क्लस्टर विश्लेषण में उपलब्ध है : एक रक्षा , गाइल्स सेलेक्स द्वारा।

इन तरीकों से वितरण संबंधी मान्यताओं पर भरोसा किया जाता है, यह क्लस्टर या कक्षाओं की संख्या के बारे में निर्णय लेने के लिए औपचारिक परीक्षणों या अच्छाई के लिए उपयुक्त सूचकांकों का उपयोग करने के लिए भी संभव है, जो दूरी आधारित क्लस्टर विश्लेषण में एक कठिन समस्या बनी हुई है, लेकिन निम्नलिखित लेख देखें इस मुद्दे पर चर्चा की:

  1. हैंडल, जे।, नोल्स, जे।, और केल, डीबी (2005)। जीनोमिक डेटा विश्लेषण के बाद कम्प्यूटेशनल क्लस्टर सत्यापन। जैव सूचना विज्ञान , 21 (15) , 3201-3212।
  2. हेनिग, सी। (2007) क्लस्टर-स्थिरता का क्लस्टर-वार मूल्यांकन। कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण , 52 , 258-271।
  3. हेनिग, सी। (2008) विघटन बिंदु और अलगाव मजबूती: सामान्य क्लस्टर विश्लेषण विधियों के लिए मजबूती मानदंड। बहुभिन्नरूपी विश्लेषण जर्नल , 99 , 1154-1176।

3

क्लस्टरिंग विधियों की एक बहुत विस्तृत विविधता है, जो प्रकृति द्वारा खोजपूर्ण हैं, और मुझे नहीं लगता है कि उनमें से कोई भी, चाहे वह पदानुक्रमित या विभाजन-आधारित हो, उस तरह की मान्यताओं पर निर्भर करता है जो किसी को गठबंधन का विश्लेषण करने के लिए मिलना है।

आपके प्रश्न का उत्तर देने के लिए स्टाटा में [एमवी] प्रलेखन पर एक नज़र डालते हुए, मैंने पृष्ठ 85 पर इस मनोरंजक उद्धरण को पाया:

हालांकि कुछ ने कहा है कि क्लस्टर विश्लेषण करने वाले लोग उतने ही हैं, जितने क्लस्टर विश्लेषण कर रहे हैं। यह घोर समझ है! जो लोग प्रदर्शन करते हैं, उनकी तुलना में क्लस्टर विश्लेषण करने के लिए असीम रूप से अधिक तरीके मौजूद हैं।

उस संदर्भ में, मुझे संदेह है कि क्लस्टरिंग विधि में आवेदन करने की कोई धारणा है। पाठ के बाकी हिस्सों को केवल एक सामान्य नियम के रूप में सेट किया गया है कि आपको "असमानता के उपाय" के कुछ रूप की आवश्यकता है, जिसे क्लस्टर बनाने के लिए मीट्रिक दूरी भी नहीं चाहिए।

हालांकि, एक अपवाद है, जो तब होता है जब आप एक पश्चात आकलन विश्लेषण के हिस्से के रूप में टिप्पणियों का क्लस्टरिंग कर रहे हैं। स्टैटा में, vceकमांड निम्नलिखित चेतावनी के साथ आता है, उसी स्रोत के पृष्ठ 86 पर:

यदि आप स्टैटा के बड़ी मात्रा में अनुमान कमांड से परिचित हैं, तो क्लस्टर आकलन (क्लस्टर कमांड) और vce (क्लस्टर क्लस्टवर) विकल्प के बीच अंतर करने के लिए सावधानी बरतें। क्लस्टर विश्लेषण डेटा में समूह पाता है। विभिन्न अनुमान आदेशों के साथ अनुमत vce (क्लस्टर क्लस्टर) विकल्प इंगित करता है कि अवलोकन विकल्प द्वारा परिभाषित समूहों में स्वतंत्र हैं, लेकिन उन समूहों के भीतर आवश्यक रूप से स्वतंत्र नहीं हैं। क्लस्टर कमांड द्वारा निर्मित एक समूहीकरण चर शायद ही कभी vce (क्लस्टर क्लस्टर) विकल्प के उपयोग के पीछे की धारणा को संतुष्ट करेगा।

उसके आधार पर, मैं यह मानूंगा कि उस विशेष मामले के बाहर स्वतंत्र टिप्पणियों की आवश्यकता नहीं है। सहज रूप से, मैं यह जोड़ना चाहूंगा कि क्लस्टर विश्लेषण का उपयोग उस उद्देश्य की खोज के सटीक उद्देश्य के लिए भी किया जा सकता है, जहां अवलोकन स्वतंत्र हैं या नहीं।

मैं यह उल्लेख करके समाप्त करूंगा कि स्टाटा के साथ सांख्यिकी के पृष्ठ 356 पर , लॉरेंस हैमिल्टन ने क्लस्टर विश्लेषण के "आवश्यक" पहलू के रूप में मानकीकृत चर का उल्लेख किया है, हालांकि वह इस मुद्दे पर अधिक गहराई में नहीं जाता है।


2

स्थानिक क्लस्टर विश्लेषण भौगोलिक रूप से संदर्भित टिप्पणियों का उपयोग करता है और क्लस्टर विश्लेषण का एक सबसेट है जो खोजपूर्ण विश्लेषण तक सीमित नहीं है।

उदाहरण 1

इसका उपयोग निष्पक्ष चुनाव जिलों को बनाने के लिए किया जा सकता है।

उदाहरण 2

क्लस्टरिंग की AMOEBA विधि में स्थानीय स्थानिक ऑटोक्रेलेशन उपायों का उपयोग किया जाता है। एल्डस्टेड और गेटिस एक स्थानिक भार मैट्रिक्स बनाने के लिए परिणामी समूहों का उपयोग करते हैं जो एक परिकल्पना का परीक्षण करने के लिए स्थानिक regressions में निर्दिष्ट किया जा सकता है।

एल्डस्टेड, जेरेड और आर्थर गेटिस (2006) "एएमओईबीए का उपयोग एक स्थानिक भार मैट्रिक्स बनाने और स्थानिक समूहों की पहचान करने के लिए देखें।" भौगोलिक विश्लेषण 38 (4) 327-343।

उदाहरण 3

यादृच्छिक रूप से बढ़ते क्षेत्रों के आधार पर क्लस्टर विश्लेषण को मापदंड का एक सेट दिया गया है जो कि संस्थागत क्षेत्रों जैसे कि स्कूल उपस्थिति क्षेत्रों या चुनाव जिलों के डिजाइन में अनुचितता को इंगित करने के लिए एक संभाव्य विधि के रूप में इस्तेमाल किया जा सकता है।


1

क्लस्टर विश्लेषण में प्रति से परिकल्पना परीक्षण शामिल नहीं है, लेकिन वास्तव में खोजपूर्ण विश्लेषण के लिए विभिन्न समानता एल्गोरिदम का एक संग्रह है। आप परिकल्पना परीक्षण को कुछ हद तक मजबूर कर सकते हैं लेकिन परिणाम अक्सर असंगत होते हैं, क्योंकि क्लस्टर परिवर्तन मापदंडों में बदलाव के लिए बहुत संवेदनशील होते हैं।

http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introclus_sect010.htm

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.