माध्य को खोजने से सेंट्रोइड कैसे अलग है?


26

पदानुक्रमित क्लस्टरिंग करते समय, कोई भी क्लस्टर के बीच की दूरी को मापने के लिए कई मैट्रिक्स का उपयोग कर सकता है। इस तरह के दो मैट्रिक्स समूहों में डेटा बिंदुओं के केंद्रक और साधनों की गणना करते हैं।

माध्य और केन्द्रक के बीच अंतर क्या है? क्या ये क्लस्टर में समान बिंदु नहीं हैं?

जवाबों:


38

जहां तक ​​मुझे पता है, एक क्लस्टर का "माध्य" और एकल क्लस्टर का सेंट्रोइड एक ही चीज है, हालांकि मल्टीवेरेट डेटा के साथ व्यवहार करते समय "सेंट्रोइड" शब्द "मीन" से थोड़ा अधिक सटीक हो सकता है।

केन्द्रक को खोजने के लिए, प्रत्येक आयाम के लिए अलग-अलग बिंदुओं की स्थिति के मध्य (अंकगणितीय) माध्य करता है। उदाहरण के लिए, यदि आपके पास बिंदु हैं:

  • (-1, 10, 3),
  • (0, 5, 2), और
  • (1, 20, 10),

तब केन्द्रक ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) पर स्थित होगा, जो सरल करता है (0, 11 2/3) 5)। (एनबी: केन्द्रक होना जरूरी नहीं है - और शायद ही कभी --- मूल डेटा बिंदुओं में से एक है)

सेंट्रोइड को कभी-कभी द्रव्यमान या बायर्सेंट का केंद्र भी कहा जाता है, इसकी भौतिक व्याख्या के आधार पर (यह बिंदुओं द्वारा परिभाषित वस्तु के द्रव्यमान का केंद्र है)। मतलब की तरह, केन्द्रक का स्थान अन्य बिंदुओं से योग-वर्ग दूरी को कम करता है।

एक संबंधित विचार मेडोइड है , जो डेटा बिंदु है जो अन्य सभी डेटा बिंदुओं से "कम से कम असमान" है। सेंट्रोइड के विपरीत, मेडॉइड को मूल बिंदुओं में से एक होना चाहिए। आपको ज्यामितीय मंझले में भी दिलचस्पी हो सकती है , जो औसत दर्जे का है, लेकिन बहुभिन्नरूपी आंकड़ों के लिए। ये दोनों सेंट्रोइड से अलग हैं।

हालाँकि, जब गाबे अपने जवाब में बताते हैं , "क्लॉरोइड की तुलना करते समय" मध्यम दूरी "और" औसत दूरी "के बीच अंतर होता है। क्लस्टर और बीच की केन्द्रक दूरी और बीच की दूरी है । औसत दूरी प्रत्येक क्लस्टर में अंक के बीच औसत दूरी जोड़ो में खोजने की जाती है। दूसरे शब्दों में, क्लस्टर में प्रत्येक बिंदु लिए , आप , , ...बी केन्द्रक ( एक ) केन्द्रक ( बी ) एक मैं एक जिले ( एक मैं , 1 ) जिले ( एक मैं , 2 ) जिले ( एक मैं , n )बीकेन्द्रक()केन्द्रक(बी)मैंजिले(मैं,1)जिले(मैं,2)जिले(मैं,n) और उन सभी को एक साथ औसत करें।


किन स्थितियों में केन्द्रक और मध्यक समरूप होते हैं? और यह भी कि केन्द्रक बिंदुओं के एक अच्छे प्रतिनिधि क्यों हैं?
रायकुमारदीपक

@dkr, आप इसे अधिक (और अधिक गहराई से) प्रतिक्रियाएं प्राप्त करने के लिए एक नए प्रश्न के रूप में पूछना चाह सकते हैं। उस ने कहा, यह अंतर दो चीजों को उबालता है: 1) न्यूनतम होने वाली चीज़ (सेंट्रोइड के लिए चुकता दूरी / एल 2 मानक, मेडीओड के लिए पूर्ण दूरी / एल 1 मानक) और 2) क्या आउटपुट किसी भी बिंदु (सेंट्रोइड) या हो सकता है डेटा सेट (मेडियोड) में होना चाहिए। आप ऐसे मामलों की कल्पना कर सकते हैं जहां वे समान होंगे, लेकिन सामान्य तौर पर, वे नहीं करेंगे। केन्द्रक समान कारणों से "अच्छा" होता है (बिंदुओं की सबसे छोटी राशि-वर्ग दूरी) और इसमें समान कमियां भी होती हैं (उदाहरण के लिए, आउटलेर के मुकाबले मजबूत नहीं)।
मैट क्रूस

4

उपरोक्त उत्तर गलत हो सकता है इस वीडियो को देखें: https://www.youtube.com/watch?v=VMyXc3SiEqs ऐसा लगता है कि औसत क्लस्टर 1 और क्लस्टर 2 के तत्वों के बीच की दूरी के सभी संयोजनों को जोड़ता है - यह n ^ है 2 दूरियों को एक साथ जोड़ा गया और फिर n ^ 2 से औसत से विभाजित किया गया।

सेंट्रोइड विधि पहले प्रत्येक क्लस्टर के औसत को अपने भीतर गणना करती है। फिर यह उन औसत बिंदुओं के बीच एक दूरी की गणना करता है।


1
हाय गैबी! मुझे लगता है कि आप वीडियो के इस भाग के बारे में बात कर रहे हैं ? जहां तक ​​मुझे पता है, एक ही क्लस्टर का केन्द्रक और माध्य एक ही बात है लेकिन, जैसा कि आपने बताया है, दो समूहों के बीच केन्द्रक दूरी और औसत दूरी अलग-अलग उपाय हैं। मैंने सोचा था कि ओपी पूर्व के बारे में पूछ रहा था, लेकिन मैंने अभी थोड़ा बाद के बारे में भी संपादित किया। उस (+1) को इंगित करने के लिए धन्यवाद और क्रॉस वेलिडेट में आपका स्वागत है!
मैट क्रूस

-1

सेंट्रोइड एक क्लस्टर में डेटा बिंदुओं का औसत है, सेंट्रोइड बिंदु को डेटा सेट में मौजूद होने की आवश्यकता नहीं है, जबकि मेडॉयड डेटा बिंदु है जो सेंट्रोइड के करीब है, मेडोइड को मूल डेटा में मौजूद होना चाहिए

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.