तकनीकी रूप से नाममात्र विशेषताओं पर व्यक्तियों के बीच एक डिस (समानता) उपाय की गणना करने के लिए, अधिकांश कार्यक्रम पहले प्रत्येक नाममात्र चर को डमी बाइनरी चर के एक सेट में फिर से विभाजित करते हैं और फिर बाइनरी चर के लिए कुछ उपाय की गणना करते हैं। यहाँ कुछ अक्सर उपयोग की जाने वाली द्विआधारी समानता और असमानता उपायों के सूत्र हैं ।
डमी चर (जिसे एक-गर्म भी कहा जाता है) क्या है? नीचे 5 व्यक्तियों, दो नाममात्र चर (3 श्रेणियों के साथ ए, 2 श्रेणियों के साथ बी) है। 3 डमीज ए के स्थान पर बनाई गईं, 2 डमियों ने बी की जगह बनाई।
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
("अनावश्यक" के रूप में एक डमी वैरिएबल को खत्म करने की कोई आवश्यकता नहीं है क्योंकि हम आम तौर पर इसे ममियों के साथ प्रतिगमन में करेंगे। यह क्लस्टरिंग में अभ्यास नहीं किया जाता है, विशेष परिस्थितियों में आप उस विकल्प पर विचार कर सकते हैं।)
एa + b + c
- एक - दोनों व्यक्तियों के लिए डमी 1 की संख्या
- बी - डमी की संख्या इसके लिए 1 और उसके लिए 0
- सी - डमी की संख्या इसके लिए 0 और उसके लिए 1
- d - डमी की संख्या 0 दोनों के लिए
खसीएए2 ए2 ए + बी + सीदूरी। देखो कि कितने पर्यायवाची हैं - आप अपने सॉफ़्टवेयर में कुछ पाने के लिए निश्चित हैं!
पासा समानता गुणांक की सहज वैधता इस तथ्य से आती है कि यह केवल सह-घटना अनुपात (या सापेक्ष समझौता ) है। ऊपर डेटा स्निपेट के लिए, नाममात्र कॉलम लें A
और 5x5
या तो 1
(दोनों व्यक्ति एक ही श्रेणी में गिर गए) या 0
(एक ही श्रेणी में नहीं ) के साथ वर्ग सममित मैट्रिक्स की गणना करें । इसी तरह मैट्रिक्स की गणना करें B
।
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
दो मैट्रिसेस की संगत प्रविष्टियाँ दर्ज करें और 2 से विभाजित करें (नाममात्र चर की संख्या) - यहाँ आप पासा गुणांक के मैट्रिक्स के साथ हैं। (इसलिए, वास्तव में आपको पासा की गणना करने के लिए डमीज़ बनाने की ज़रूरत नहीं है, मैट्रिक्स ऑपरेशन के साथ आप शायद इसे उसी तरह से तेज कर सकते हैं जिस तरह से वर्णित किया गया है।) नाममात्र attribures के संघ के लिए पासा से संबंधित विषय देखें ।
Albeit Dice का उपयोग करने के लिए सबसे स्पष्ट उपाय है, जब आप चाहते हैं कि (डिस) समानता के मामलों के बीच का कार्य जब विशेषताएँ स्पष्ट हो, तो अन्य बाइनरी उपायों का उपयोग किया जा सकता है - यदि उनके सूत्र को खोजने से आपके नाममात्र डेटा के बारे में विचार संतुष्ट होते हैं।
ए + डीए + बी + सी + डीघघबी + सीघघ2= पी ( 1 - एसम)पी
लेकिन ...
घ
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
चूंकि निकटता मैट्रिक्स के कई अनुप्रयोगों में, जैसे कि क्लस्टर विश्लेषण के कई तरीकों में, परिणाम परिवर्तन नहीं करेंगे या रैखिक के तहत सुचारू रूप से बदलेंगे (और कभी-कभी मोनोटोनिक के तहत भी) समानताओं के परिवर्तन, ऐसा प्रतीत होता है कि एक बड़ी संख्या में उचित हो सकता है द्विआधारी उपायों के अलावा पासा के समान या समान परिणाम प्राप्त करने के लिए। लेकिन आपको पहले इस बात पर विचार / तलाश करनी चाहिए कि विशिष्ट विधि (उदाहरण के लिए पदानुक्रमित क्लस्टरिंग में एक लिंकेज ) कैसे प्रोमिसिटी के दिए गए परिवर्तन पर प्रतिक्रिया करती है।
यदि आपकी नियोजित क्लस्टरिंग या एमडीएस विश्लेषण दूरी के मोनोटोनिक परिवर्तनों के प्रति संवेदनशील है, तो आप ऊपर दी गई तालिका में "मोनोटोनिक" के रूप में वर्णित उपायों का उपयोग करने से बेहतर बचना चाहते हैं (और इस प्रकार हाँ, डीकमी के साथ जैकार्ड समानता या निरर्थक यूक्लिडियन दूरी का उपयोग करना अच्छा नहीं है। , (पूर्व नाममात्र, गुण)।