क्लस्टर विश्लेषण में चर को वज़न निर्दिष्ट करें


12

मैं अपने क्लस्टर विश्लेषण में चर को अलग-अलग भार आवंटित करना चाहता हूं, लेकिन मेरे कार्यक्रम (स्टाटा) को इसके लिए कोई विकल्प नहीं लगता है, इसलिए मुझे इसे मैन्युअल रूप से करने की आवश्यकता है।

4 चर ए, बी, सी, डी की कल्पना करें। उन चर के लिए वजन होना चाहिए

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

मैं सोच रहा हूँ कि क्या निम्नलिखित दो दृष्टिकोणों में से एक वास्तव में चाल चलेगा:

  1. पहले मैं सभी चर (जैसे उनकी श्रेणी के अनुसार) को मानकीकृत करता हूं। फिर मैंने प्रत्येक मानकीकृत चर को उनके वजन से गुणा किया। फिर क्लस्टर विश्लेषण करें।
  2. मैं सभी चर को अपने वजन से गुणा करता हूं और बाद में उन्हें मानकीकृत करता हूं। फिर क्लस्टर विश्लेषण करें।

या दोनों विचार पूर्ण बकवास हैं?

[संपादित करें] क्लस्टरिंग एल्गोरिदम (मैं 3 अलग-अलग कोशिश करता हूं) मैं उपयोग करने की इच्छा रखता हूं के-साधन, भारित-औसत लिंकेज और औसत-लिंकेज हैं। मैं गुच्छों की एक अच्छी संख्या निर्धारित करने के लिए भारित-औसत लिंकेज का उपयोग करने की योजना बना रहा हूं, जिसे मैं बाद में के-साधनों में प्लग करता हूं।


1
दोनों तरीके आम तौर पर सही नहीं हैं। चर का मान गुणा करना क्लस्टरिंग के लिए चर महत्व भार के बराबर नहीं है। यदि प्रोग्राम में वेटिंग का विकल्प नहीं है, तो आप डेटा के साथ कभी-कभी इसे अपनी इच्छानुसार कर सकते हैं - लेकिन यह आपके क्लस्टरिंग की सटीक प्रकृति पर निर्भर करता है। तो, अपने क्लस्टरिंग के विवरण (अपने प्रश्न में) का वर्णन करें: आप किस एल्गोरिथ्म और विधि का उपयोग करने जा रहे हैं।
ttnphns

2
ध्यान दें कि वजन चर का सबसे आसान और सार्वभौमिक तरीका (और वजन पूर्णांक हैं या पूर्णांक बनाया जा सकता है) बस चर वजन के समय का प्रसार करने के लिए होगा। आपके उदाहरण में, आप अपने क्लस्टरिंग में 50 As, 25 Bs, 10 Cs, 15 D ले सकते हैं।
tnnphns

8
या, विकल्प: यदि आप यूक्लिडियन माप के आधार पर क्लस्टरिंग का उपयोग करते हैं या आप k- साधनों का उपयोग करते हैं, तो प्रत्येक को उसके वजन के वर्गमूल से गुणा करें। यह गुणन, निश्चित रूप से, किसी भी पूर्व-प्रसंस्करण (जैसे मानकीकरण) के बाद किया जाना चाहिए, जिसे आप क्लस्टरिंग से पहले करना चाहते हैं।
tnnphns

जवाबों:


7

एक चर के लिए एक वजन असाइन करने का एक तरीका है इसके पैमाने को बदलना। ट्रिक आपके द्वारा उल्लिखित क्लस्टर एल्गोरिदम के लिए काम करता है, अर्थात। k- साधन, भारित-औसत लिंकेज और औसत-लिंकेज।

कॉफमैन, लियोनार्ड और पीटर जे। रूसुव। " डेटा में समूह खोजना: क्लस्टर विश्लेषण का परिचय ।" (2005) - पेज 11:

माप इकाइयों की पसंद चर के सापेक्ष भार को जन्म देती है। छोटी इकाइयों में एक चर को व्यक्त करने से उस चर के लिए एक बड़ी सीमा हो जाएगी, जिसके परिणामस्वरूप परिणामस्वरूप संरचना पर एक बड़ा प्रभाव पड़ेगा। दूसरी ओर, वस्तुनिष्ठता प्राप्त करने की आशा में, सभी चर को एक समान भार देने के लिए एक प्रयास को मानकीकृत करके। जैसे, इसका उपयोग किसी ऐसे चिकित्सक द्वारा किया जा सकता है, जिसके पास कोई पूर्व ज्ञान नहीं है। हालांकि, यह अच्छी तरह से हो सकता है कि कुछ चर किसी विशेष अनुप्रयोग में दूसरों की तुलना में आंतरिक रूप से अधिक महत्वपूर्ण हैं, और फिर भार का असाइनमेंट विषय-वस्तु ज्ञान (देखें, उदाहरण के लिए, अब्राहोविकेज़, 1985) पर आधारित होना चाहिए।

दूसरी ओर, ऐसी क्लस्टरिंग तकनीकों को विकसित करने का प्रयास किया गया है जो चर (फ़्रीडमैन और रुबिन, 1967) के पैमाने से स्वतंत्र हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं

इब्राहीमिकोज़, एम। (1985), गैर-संख्यात्मक के उपयोग के लिए असमानताओं को मापने के लिए एक पेंसिल जानकारी, साइकोमेट्रिक सोसायटी की चौथी यूरोपीय बैठक में प्रस्तुत किया गया पेपर और 2-5 जुलाई, कैम्ब्रिज (यूके)।

फ्रीडमैन, एचपी, और रुबिन, जे (1967), डेटा को समूहीकृत करने के कुछ अपरिवर्तनीय मानदंडों पर। जे । आमेर। सांख्यिकीविद। ASSOC6।, 2, 1159-1178

हार्डी, ए।, और रासन, जेपी (1982), उने नौवेल्ले डेस डेस प्रॉब्लम्स डे क्लासिफिकेशन ऑटोमैटिक, स्टेटिस्ट। गुदा। डोनियों, 7, 41-56।


1
आपका पहला संदर्भ किसी भी तरह से जुड़ा हुआ है: लियोनार्ड कॉफमैन और पीटर जे। रूसुव आपके द्वारा लिंक की गई पुस्तक के लेखक हैं।
निक कॉक्स

ओह, इसे इंगित करने के लिए धन्यवाद ... मैं लावोइसेयर द्वारा खराब हो गया, जिसने उनके पृष्ठ "Auteurs: SEWELL Grandville, ROUSSEEUW पीटर जे" पर एक गलती की , जिसने बदले में Gscholar को खराब कर दिया था जिसे मैं संदर्भ प्राप्त करने के लिए उपयोग कर रहा था।
फ्रेंक डेर्नोनकोर्ट

धन्यवाद @FranckDernoncourt! यदि मेरे प्रारंभिक प्रश्न में चर का पैमाना (और इस प्रकार रेंज) अपना भार निर्धारित नहीं करता है, तो 1.) किसी तरह सही समाधान होना चाहिए?
16

2
हां दृष्टिकोण 1 सही है, और उत्तर में उद्धृत पैराग्राफ में कौफमैन, लियोनार्ड, और पीटर जे। राउसीवु के साथ क्या कह रहा है, इसके अनुरूप है। दृष्टिकोण 2 बेकार हो जाएगा क्योंकि मानकीकरण वजन को हटा देता है :)
फ्रेंक डेर्नोनकोर्ट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.