क्या एल्गोरिथ्म वार्ड। डिक्लाइन में () लागू होता है अगर यह वार्ड की कसौटी नहीं है?


16

विकल्प "वार्ड डी" (आर वर्जन में एकमात्र वार्ड विकल्प "वार्ड" के बराबर <= 3.0.3) का उपयोग वार्ड (1963) को लागू करने की कसौटी पर लागू नहीं होता है, जबकि विकल्प "वार्ड डी। 2" को लागू करता है जो मानदंड ( मुर्तग और लिजेंड्रे 2014)।

( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hustust.html )

जाहिरा तौर पर वार्ड। वार्ड की कसौटी को ठीक से लागू नहीं करता है। फिर भी यह अपने द्वारा उत्पादित क्लस्टरिंग के बारे में अच्छा काम करता है। यदि वार्ड की कसौटी न हो तो विधि = "वार्ड डी" क्या लागू होता है?

संदर्भ

मुर्तघ, एफ।, और लेजेंड्रे, पी। (2014)। वार्ड की श्रेणीबद्ध एग्लोमेरेटिव क्लस्टरिंग विधि: कौन सा एल्गोरिदम वार्ड की कसौटी को लागू करता है?। वर्गीकरण का जर्नल , 31 (3), 274-295।


क्या मुर्तग और लिजेंड्रे पेपर इस बारे में कुछ कहते हैं?
cbeleites

मुझे उस पेपर तक कोई पहुंच नहीं है
राफेल

पहली बात यह है कि मेरे लिए एक खोज यू मोंट्रियल में पांडुलिपि की पीडीएफ है !?
cbeleites मोनिका

तो पेपर क्या कहता है? मैं इसे नहीं ढूँढ सकता
राफेल

यही मैं तुमसे कहता हूं कि हमें बताओ।
केलीसाइट्स

जवाबों:


11

प्रासंगिक पांडुलिपि यहाँ है

वार्ड डी और वार्ड डी 2 के बीच अंतर दो क्लस्टरिंग मापदंड के बीच का अंतर है कि पांडुलिपि को वार्ड 1 और वार्ड 2 कहा जाता है।

यह मूल रूप से इस तथ्य पर उबलता है कि वार्ड एल्गोरिदम को सीधे वार्ड 2 (वार्ड डी 2) में सही ढंग से लागू किया गया है, लेकिन वार्ड 1 (वार्ड डी) का उपयोग भी किया जा सकता है, अगर यूक्लिडियन दूरी (से dist()) को इनपुट करने से पहले चुकता किया जाता है। hclust()विधि के रूप में वार्ड डी का उपयोग करना।

उदाहरण के लिए, SPSS भी वार्ड 1 को लागू करता है, लेकिन उपयोगकर्ताओं को चेतावनी देता है कि वार्ड की कसौटी को प्राप्त करने के लिए दूरियों को चुकाना चाहिए। इस तरह के अर्थों में वार्डबंदी को लागू नहीं किया जाता है, और फिर भी पिछड़े अनुकूलता के लिए इसे बनाए रखना एक अच्छा विचार हो सकता है।      


2
जिस पेपर से आप इसे Ward algorithm is directly correctly implemented in just Ward2जोड़ते हैं, वह इस प्रकार नहीं है , बल्कि यह है कि: (1) दोनों कार्यान्वयनों के साथ सही परिणाम प्राप्त करने के लिए, वार्ड 1 के साथ चुकता यूक्लिडियन दूरियों का उपयोग करें और वार्ड 2 के साथ यूक्लिडियन दूरी को निरस्त करें; (2) आगे अपने आउटपुट डेन्ड्रोग्राम्स को समरूप (समान) बनाने के लिए, वार्ड 1 के बाद फ्यूजन स्तर के लिए वर्गमूल लागू करें या वार्ड 2 के बाद स्क्वायर फ्यूजन स्तर, डेंड्रोग्राम के निर्माण से पहले।
ttnphns

आप निश्चित रूप से सही कह रहे हैं। स्पष्टीकरण के लिए धन्यवाद। "सीधे तौर पर लागू किए गए" से मेरा तात्पर्य यह है कि आगे कोई कदम नहीं, जैसे कि एक वर्गमूल को ऊंचाइयों पर ले जाना, वार्ड। 2 विधि के साथ सही परिणाम तक पहुंचने के लिए आवश्यक हैं।
जेटीटी

1
यहाँ पर छोटी बारी यह है कि वार्ड की विधि के साथ, यह परिभाषित नहीं है कि "सही" या सही संलयन स्तर की प्रस्तुति क्या है - चाहे उन्हें "निरर्थक" या "चुकता" प्लॉट किया जाना चाहिए। अनिर्णय का कारण यह है कि वार्ड में संलयन स्तर दूरी नहीं है , वे वृद्धिशील फैलाव हैं।
tnnphns

9

केवल के बीच का अंतर ward.Dऔर ward.D2इनपुट पैरामीटर है।

hclust(dist(x)^2,method="ward.D") ~ hclust(dist(x)^2,method="ward")

जो इसके बराबर हैं: hclust(dist(x),method="ward.D2")

आप पुनर्विक्रय पत्र पा सकते हैं: वार्ड की श्रेणीबद्ध क्लस्टरिंग विधि: क्लस्टरिंग मानदंड और एग्लोमेरेटिव एल्गोरिथम

Ward2 कसौटी मूल्यों "हैं दूरी के पैमाने पर जबकि" Ward1 कसौटी मूल्यों "हैं दूरी के पैमाने चुकता पर "।


मैं इस जवाब को पसंद करता हूं क्योंकि अन्य का मतलब है कि वार्ड। गलत है, ऐसा नहीं है। बिल्कुल अलग।
क्रिस

6

मैं उस शोध पत्र में आया था, जो "वार्ड 1 (वार्ड डी)) द्वारा अनुकूलित किए जा रहे उद्देश्य फ़ंक्शन से मेल खाता है: संयुक्त बीच-भीतर की गड़बड़ी के माध्यम से पदानुक्रमिक क्लस्टरिंग: विस्तारित वार्ड की न्यूनतम वारिस विधि । यह पता चला कि आर का "वार्ड 1 (वार्ड डी)) का कार्यान्वयन क्लस्टर समूहों के बीच ऊर्जा दूरी को कम करने के बराबर है।

2.1 क्लस्टर डिस्टेंस और ऑब्जेक्टिव फंक्शनe

चलो और बी = { 1 , ... , n 2 } के अरिक्त सबसेट हो आर डी । परिभाषित के बीच-भीतर, या -distance ( , बी ) , के बीच एक और बी के रूप में ( , बी ) = n 1 एन 2A={a1,,an1}B={b1,,bn2}Rdee(A,B)AB

e(A,B)=n1n2n1+n2(2n1n2i=1n1j=1n2aibj(1)1n12i=1n1j=1n1aiaj1n22i=1n2j=1n2bibj).

Are you sure that that is the correct interpretation of the contents of that paper? It seems to me that e(2) corresponds to ward.D2, but I don't think it is stated anywhere that e(1) corresponds to ward.D1. In fact, on page 161–162, it is stated that for 0<α<2, e(α) does not correspond to any power of Euclidean distance, assuming cluster size is greater than 1 . Interesting paper none the less.
Jonas Dahlbæk
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.