K- साधन क्लस्टर विश्लेषण के बाद एनोवा की उपयुक्तता


14

K- साधन विश्लेषण के बाद ANOVA तालिका के बाद की अधिसूचना इंगित करती है कि महत्व के स्तर को समान साधनों के परीक्षण के रूप में नहीं देखा जाना चाहिए, क्योंकि दूरी को अधिकतम करने के लिए यूक्लिडियन दूरी के आधार पर क्लस्टर समाधान निकाला गया है। मुझे यह दिखाने के लिए क्या परीक्षण करना चाहिए कि क्लस्टर के बीच क्लस्टरिंग चर के साधन अलग-अलग हैं या नहीं? मैंने k- साधन आउटपुट में यह चेतावनी ANOVA तालिका प्रदान की है, लेकिन कुछ संदर्भों में मैंने देखा कि पोस्ट-हॉक एनोवा परीक्षण चलाए जाते हैं। क्या मुझे के-मतलब एनोवा आउटपुट को नजरअंदाज करना चाहिए और एकतरफा एनोवा को पोस्ट-हॉक टेस्ट के साथ चलाना चाहिए और पारंपरिक तरीके से उनकी व्याख्या करनी चाहिए? या मैं केवल एफ मूल्य के परिमाण के बारे में बता सकता हूं और किन चर ने अंतर में अधिक योगदान दिया है? एक और भ्रम यह है कि क्लस्टरिंग चर सामान्य रूप से एनोवा की धारणा का उल्लंघन नहीं करते हैं, तब मैं क्रसकल-वालिस के गैर-पैरामीट्रिक परीक्षण का उपयोग कर सकता था, लेकिन इसमें समान वितरण के बारे में धारणा है। विशिष्ट चर के लिए अंतर-क्लस्टर वितरण समान नहीं लगते हैं, कुछ सकारात्मक रूप से तिरछे होते हैं, कुछ नकारात्मक रूप से होते हैं ... मेरे पास 1275 बड़े नमूने, 5 क्लस्टर, पीसीए स्कोर में मापा जाने वाले 10 क्लस्टर हैं।


आपको साधनों की समानता का परीक्षण करने की आवश्यकता क्यों है? क्या आप केवल यह परीक्षण नहीं कर सकते हैं कि आपका मॉडल किस प्रकार नमूने से काम करता है?
जेम्स

मैं यह निर्धारित करना चाहता था कि कौन से चर का अर्थ क्लस्टर के बीच भिन्न होता है, अर्थात क्लस्टर 1 में v1 का अर्थ क्लस्टर में v1 से भिन्न होता है, 2, 3, 4, 5. मैं निश्चित रूप से ग्राफ बनाकर देख सकता हूं, लेकिन यह करता है सांख्यिकीय अंतर के बारे में नहीं बताएं। सांख्यिकीय अंतर के लिए परीक्षण ने मुझे भ्रमित कर दिया, क्योंकि एनोवा के लिए मेरा डेटा सामान्य वितरण धारणा को पूरा नहीं करता था, लेकिन क्लस्टर समूहों के बीच क्रूसकल वालिस परीक्षण के समान आकार वितरण धारणा के लिए।
इगा

1
जैसा कि @James ने अपने जवाब में कहा, आप "स्नूपिंग" हैं। समूहों के बीच महत्व के लिए परीक्षण करने का एक कारण क्या हो सकता है जिसे आपने (आपके क्लस्टरिंग) अलग-अलग संभव के रूप में भिन्न करने के लिए चुना है? यहां आबादी से यादृच्छिक या आनुपातिक नमूने का कोई निशान नहीं है, जो कुछ बाहरी , बैकग्राउड विशेषताओं के आधार पर अलग हैं ।
ttnphns

उत्तर देने के लिए आपको धन्यवाद! मेरा भ्रम कुछ स्रोतों के रूप में दिखाई दिया, जो मैंने देखा कि सांख्यिकीय माध्य तुलना इस स्थिति में उचित नहीं है जैसा कि आपने भी बताया है, लेकिन उदाहरण के लिए 1 पुस्तक के अध्याय का एक उद्धरण इसके विपरीत इंगित करता है: "हम आमतौर पर एनोवा का उपयोग करते हुए प्रत्येक आयाम पर प्रत्येक क्लस्टर के साधनों की जांच करते हैं। यह आकलन करने के लिए कि हमारे क्लस्टर कितने अलग हैं। आदर्श रूप से, हम सभी के लिए, यदि सभी आयामों का विश्लेषण में उपयोग किया जाता है, तो अधिकांश के लिए अलग-अलग साधन प्राप्त करेंगे। प्रत्येक आयाम पर किए गए एफ मूल्यों का परिमाण इस बात का संकेत है कि संबंधित आयाम कितनी अच्छी तरह से भेदभाव करता है। क्लस्टर्स "
इंगा

1
क्लस्टर के लिए उपयोग की जाने वाली विशेषताओं द्वारा समूहों के बीच अंतर का आकलन करने का आपको अधिकार है - ताकि सबसे अधिक भेदभावपूर्ण लोगों का पता लगाया जा सके। ऐसा करते समय, आप सापेक्ष अंतर, एफ और यहां तक ​​कि पी-मूल्यों की गणना कर सकते हैं। प्रभाव के आकार के संकेतक के रूप में। सांख्यिकीय महत्व के संकेतक के रूप में नहीं (जो आबादी का उल्लेख करते हैं)।
ttnphns

जवाबों:


13

नहीं!

आपको क्लस्टर में बिंदुओं के बीच महत्वपूर्ण अंतर के लिए 1) 1) क्लस्टरिंग और 2) शिकार करने के लिए एक ही डेटा का उपयोग नहीं करना चाहिए । यहां तक ​​कि अगर डेटा में कोई वास्तविक संरचना नहीं है, तो क्लस्टरिंग एक साथ उन बिंदुओं को समूहित करके लगाएगा जो पास हैं। यह समूह-समूह विचरण को सिकोड़ता है और पूरे समूह के विचरण को बढ़ाता है, जो आपको झूठी सकारात्मकता की ओर अग्रसर करता है।

यह प्रभाव आश्चर्यजनक रूप से मजबूत है। यहां एक सिमुलेशन के परिणाम हैं जो एक मानक सामान्य वितरण से 1000 डेटा बिंदुओं को खींचता है। यदि हम एनोवा को चलाने से पहले यादृच्छिक पर पांच समूहों में से एक को अंक प्रदान करते हैं, तो हम पाते हैं कि पी-मान समान रूप से वितरित किए जाते हैं: 5% रन महत्वपूर्ण हैं (बिना सही किए गए) 0.05 स्तर, 0.01% पर 1% आदि दूसरे शब्दों में, कोई प्रभाव नहीं है। हालाँकि, यदि -means का उपयोग डेटा को 5 समूहों में विभाजित करने के लिए किया जाता है, तो हम लगभग हर बार एक महत्वपूर्ण प्रभाव पाते हैं, भले ही डेटा की वास्तविक संरचना न होk

सिमुलेशन परिणाम यादृच्छिक असाइनमेंट और अत्यधिक तिरछा (लगभग सभी 0.05 या उससे कम) क्लस्टरिंग के बाद पी मानों के वितरण के लिए समान वितरण दिखाते हैं

यहाँ एक एनोवा के बारे में कुछ खास नहीं है - आप गैर-पैरामीट्रिक परीक्षण, लॉजिस्टिक प्रतिगमन, कुछ भी का उपयोग करते हुए समान प्रभाव देखेंगे। सामान्य तौर पर, एक क्लस्टरिंग एल्गोरिथ्म के प्रदर्शन को मान्य करना मुश्किल है, खासकर यदि डेटा लेबल नहीं है। हालांकि, बाहरी डेटा स्रोतों का उपयोग किए बिना "आंतरिक सत्यापन", या क्लस्टर की गुणवत्ता को मापने के लिए कुछ दृष्टिकोण हैं। वे आम तौर पर समूहों की कॉम्पैक्टनेस और पृथक्करण पर ध्यान केंद्रित करते हैं। लुइ एट अल द्वारा यह समीक्षा । (2010) शुरू करने के लिए एक अच्छी जगह हो सकती है।


4

आपकी असली समस्या डेटा स्नूपिंग है। यदि आप इनपुट डेटा के आधार पर समूहों (समूहों) को दिए गए थे, तो आप एनोवा या केडब्ल्यू लागू नहीं कर सकते। गुच्छों की संख्या का अनुमान लगाने के लिए आप गैप स्टेटिस्टिक जैसी किसी चीज़ का उपयोग कर सकते हैं ।

दूसरी ओर, स्नूप किए गए पी-वैल्यू नीचे की ओर बायस्ड हैं, इसलिए यदि एनोवा या केडब्ल्यू का परीक्षा परिणाम महत्वहीन है, तो "सही" पी-वैल्यू और भी बड़ा है और आप क्लस्टर्स को मर्ज करने का निर्णय ले सकते हैं।


4

मुझे लगता है कि आप इस तरह के दृष्टिकोण को लागू कर सकते हैं (यानी आँकड़ों का उपयोग करके, जैसे कि एफ-आँकड़े या टी-आँकड़े या जो भी), यदि आप सामान्य अशक्त वितरण को टॉस करते हैं

आपको जो करने की आवश्यकता है उस स्थिति से अनुकरण करना है जिसमें आपका अशक्त सही है, पूरी प्रक्रिया (क्लस्टरिंग, आदि) लागू करें, और फिर प्रत्येक बार जो भी आँकड़ा गणना करें। कई सिमुलेशन पर लागू, आपको शून्य के तहत सांख्यिकीय के लिए एक वितरण मिलेगा जिसके खिलाफ आपके नमूना मूल्य की तुलना की जा सकती है। गणना में डेटा-स्नूपिंग को शामिल करके आप इसके प्रभाव का हिसाब लगाते हैं।

[वैकल्पिक रूप से एक शायद एक रेज़मैपलिंग-आधारित परीक्षण विकसित कर सकता है (चाहे क्रमपरिवर्तन / यादृच्छिकरण या बूटस्ट्रैपिंग के आधार पर)।]


2
ठीक है, यह गैप आँकड़ा के पीछे का विचार है।
जेम्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.