क्या कम सिल्हूट चौड़ाई का मतलब है कि डेटा में अंतर्निहित संरचना नहीं है?


10

मैं अनुक्रम विश्लेषण के लिए नया हूं, और मैं सोच रहा था कि अगर आप ऑप्टिमल मैचिंग-आधारित असमानता वाले मैट्रिस के क्लस्टर विश्लेषण से औसत सिल्हूट चौड़ाई (एएसडब्ल्यू) कम (लगभग 25) हैं तो आप कैसे प्रतिक्रिया देंगे। क्या यह निष्कर्ष निकालना उचित होगा कि कोई अंतर्निहित संरचना है जो अनुक्रमों को क्लस्टर करने की अनुमति देगा? क्या आप क्लस्टर गुणवत्ता के अन्य उपायों के आधार पर कम ASW को अनदेखा कर सकते हैं (मैंने कुछ नीचे चिपकाया है)? या यह संभावना है कि अनुक्रम विश्लेषण या बाद के क्लस्टर विश्लेषण के दौरान किए गए विकल्प कम एएसडब्ल्यू संख्या के लिए जिम्मेदार हो सकते हैं?

किसी भी सुझाव की सराहना की जाएगी। धन्यवाद।

मामले में अधिक संदर्भ की आवश्यकता है:

मैं काम के घंटे बेमेल के 624 दृश्यों की जांच कर रहा हूं (यानी, एक व्यक्ति एक सप्ताह में काम करने के लिए घंटों की संख्या और एक घंटे में जितने घंटे वे वास्तविक काम करना चाहते हैं) के बीच बेमेल है। मेरे द्वारा जांच किए जा रहे सभी अनुक्रमों की लंबाई 10. है। मेरे अनुक्रम ऑब्जेक्ट में पांच राज्य हैं (M = अधिक घंटे चाहता है, S = समान घंटे चाहता है, F = कम घंटे चाहता है, श्रम बल से बाहर O = और U = बेरोजगार )।

मैंने एक व्यवस्थित लेखांकन नहीं किया है कि एएसडब्ल्यू परिणाम दृष्टिकोण के विभिन्न संयोजनों के साथ कैसे भिन्न होते हैं। फिर भी, मैंने कम और मध्यम इंडेल लागत (.1 और अधिकतम प्रतिस्थापन लागत का .6 की कोशिश की है - मैं उनके समय की तुलना में घटनाओं के क्रम के बारे में अधिक ध्यान देता हूं) और विभिन्न क्लस्टरिंग प्रक्रियाएं (वार्ड, औसत और पैम)। मेरा समग्र प्रभाव यह है कि ASW संख्या कम रहती है।

शायद कम ASW परिणाम समझ में आता है। मुझे उम्मीद है कि इन राज्यों में विभिन्न प्रकार के आदेश आएंगे, और राज्यों को दोहराया जा सकता है। डुप्लिकेट टिप्पणियों को हटाने से केवल 624 से 536 तक एन कम हो जाता है। आंकड़ों का अध्ययन करने से पता चलता है कि वास्तव में विविधता और अनुक्रमों का एक अच्छा हिस्सा है जो मैं बहुत अलग-अलग उदाहरणों पर विचार करूंगा, जो लोग पूरे समय एक ही घंटे चाहते थे, एक मैला विकसित किया, हल किया। एक बेमेल, और एक बेमेल होने के बीच आगे पीछे थरथराना। शायद स्पष्ट रूप से विभेदित समूहों की कमी दिलचस्प भिन्नता की कमी के रूप में एक ही बात नहीं है। फिर भी, कमजोर क्लस्टर परिणाम मुझे अनुक्रम छोड़ने के लिए एक अच्छा तरीका के बिना छोड़ देते हैं।

वार्ड की विधि से परिणाम 2 के प्रतिस्थापन लागत के 1 पर सेट होता है। ये आंकड़े 6 क्लस्टर समाधान का सुझाव देते हैं, यह अच्छा हो सकता है। ASW, हालांकि, कम से कम है - कम से कम उन समाधानों के लिए जिनके पास उचित संख्या में क्लस्टर हैं (2 या 3 बहुत कम)।

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

जवाबों:


11

ASW एक क्लस्टरिंग समाधान के सुसंगतता का एक माप है। एक उच्च एएसडब्ल्यू मूल्य का मतलब है कि क्लस्टर सजातीय हैं (सभी अवलोकन क्लस्टर केंद्र के करीब हैं), और यह कि वे अच्छी तरह से अलग हो गए हैं। कॉफमैन और रूसो (1990) के अनुसार, 0.25 से नीचे के मूल्य का अर्थ है कि डेटा संरचित नहीं है। 0.25 और 0.5 के बीच, डेटा संरचित हो सकता है, लेकिन यह एक आर्टिफ़िस भी हो सकता है। कृपया ध्यान रखें कि ये मान सांकेतिक हैं और इसका उपयोग निर्णय सीमा के रूप में नहीं किया जाना चाहिए। इन मूल्यों को सैद्धांतिक रूप से परिभाषित नहीं किया गया है (कुछ पी-मूल्य पर आधारित नहीं हैं) लेकिन लेखकों के अनुभव पर आधारित हैं। इसलिए, इन कम एएसडब्ल्यू मूल्यों के अनुसार, आपका डेटा काफी असंरचित प्रतीत होता है। यदि क्लस्टर विश्लेषण का उद्देश्य केवल वर्णनात्मक है, तो आप तर्क दे सकते हैं कि यह सबसे अधिक सलामी पैटर्न के कुछ (लेकिन केवल कुछ) का खुलासा करता है। तथापि,

आप "प्रति क्लस्टर" एएसडब्ल्यू मूल्यों पर एक नज़र डालने की कोशिश कर सकते हैं (यह फ़ंक्शन द्वारा दिया गया है wcClusterQuality)। हो सकता है कि आपके कुछ क्लस्टर अच्छी तरह से परिभाषित हों और कुछ "स्प्यूरियस" (एएसडब्ल्यू <0) हो सकते हैं, जिसके परिणामस्वरूप कम समग्र एएसडब्ल्यू मूल्य होता है।

आप बूटस्ट्रैप रणनीतियों का उपयोग करने की कोशिश कर सकते हैं, जो आपको एक बेहतर संकेत देना चाहिए। आर clusterbootमें, पैकेज में फ़ंक्शन का fpcउपयोग इस उद्देश्य के लिए किया जा सकता है (सहायता पृष्ठ पर देखें)। हालाँकि, यह वेटेड डेटा के साथ काम नहीं करता है। यदि आपका डेटा अनवीट किया गया है, तो मुझे लगता है कि यह कोशिश करने लायक है।

अंत में, आप अपने डेटा और अपने वर्गीकरण पर करीब से नज़र डालना चाहते हैं। हो सकता है, आपकी श्रेणियां बहुत अधिक अस्थिर हों या अच्छी तरह से परिभाषित न हों। हालाँकि, यहाँ ऐसा नहीं लगता है।

जैसा कि आपने कहा है, "स्पष्ट रूप से विभेदित समूहों की कमी दिलचस्प भिन्नता की कमी के समान नहीं है"। विसंगति विश्लेषण जैसे आपके अनुक्रमों की परिवर्तनशीलता का विश्लेषण करने के लिए अन्य तरीके हैं। ये विधियां आपको अनुक्रमों और व्याख्यात्मक कारकों के बीच के लिंक का अध्ययन करने की अनुमति देती हैं। उदाहरण के लिए, आप अनुक्रम प्रतिगमन ट्री (पैकेज TraMineR में फ़ंक्शन "seqtree") बनाने का प्रयास कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.