विशेषताओं के नाममात्र होने पर व्यक्तियों के लिए इष्टतम दूरी क्या है?


12

मुझे नहीं पता कि नाममात्र (अनियंत्रित श्रेणीबद्ध) विशेषताओं के मामले में व्यक्तियों के बीच कौन सी दूरी का उपयोग किया जाता है। मैं कुछ पाठ्यपुस्तक पढ़ रहा था और वे सरल मिलान समारोह का सुझाव देते हैं लेकिन कुछ पुस्तकों का सुझाव है कि मुझे नाममात्र को द्विआधारी विशेषताओं में बदलना चाहिए और जैककार्ड गुणांक का उपयोग करना चाहिए । हालांकि, क्या होगा यदि नाममात्र विशेषता के मान 2 नहीं हैं? क्या होगा अगर उस विशेषता में तीन या चार मूल्य हैं?

नाममात्र विशेषताओं के लिए मुझे किस दूरी के समारोह का उपयोग करना चाहिए?


1
मुझे यह पोस्ट उपयोगी लगी, क्रैमर के वी और ची स्क्वेरेड स्टैटिस्टिस्टिक पर।
कार्तिक्स

जवाबों:


18

तकनीकी रूप से नाममात्र विशेषताओं पर व्यक्तियों के बीच एक डिस (समानता) उपाय की गणना करने के लिए, अधिकांश कार्यक्रम पहले प्रत्येक नाममात्र चर को डमी बाइनरी चर के एक सेट में फिर से विभाजित करते हैं और फिर बाइनरी चर के लिए कुछ उपाय की गणना करते हैं। यहाँ कुछ अक्सर उपयोग की जाने वाली द्विआधारी समानता और असमानता उपायों के सूत्र हैं ।

डमी चर (जिसे एक-गर्म भी कहा जाता है) क्या है? नीचे 5 व्यक्तियों, दो नाममात्र चर (3 श्रेणियों के साथ ए, 2 श्रेणियों के साथ बी) है। 3 डमीज ए के स्थान पर बनाई गईं, 2 डमियों ने बी की जगह बनाई।

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

("अनावश्यक" के रूप में एक डमी वैरिएबल को खत्म करने की कोई आवश्यकता नहीं है क्योंकि हम आम तौर पर इसे ममियों के साथ प्रतिगमन में करेंगे। यह क्लस्टरिंग में अभ्यास नहीं किया जाता है, विशेष परिस्थितियों में आप उस विकल्प पर विचार कर सकते हैं।)

++सी

  • एक - दोनों व्यक्तियों के लिए डमी 1 की संख्या
  • बी - डमी की संख्या इसके लिए 1 और उसके लिए 0
  • सी - डमी की संख्या इसके लिए 0 और उसके लिए 1
  • d - डमी की संख्या 0 दोनों के लिए

सी22++सीदूरी। देखो कि कितने पर्यायवाची हैं - आप अपने सॉफ़्टवेयर में कुछ पाने के लिए निश्चित हैं!

पासा समानता गुणांक की सहज वैधता इस तथ्य से आती है कि यह केवल सह-घटना अनुपात (या सापेक्ष समझौता ) है। ऊपर डेटा स्निपेट के लिए, नाममात्र कॉलम लें Aऔर 5x5या तो 1(दोनों व्यक्ति एक ही श्रेणी में गिर गए) या 0(एक ही श्रेणी में नहीं ) के साथ वर्ग सममित मैट्रिक्स की गणना करें । इसी तरह मैट्रिक्स की गणना करें B

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

दो मैट्रिसेस की संगत प्रविष्टियाँ दर्ज करें और 2 से विभाजित करें (नाममात्र चर की संख्या) - यहाँ आप पासा गुणांक के मैट्रिक्स के साथ हैं। (इसलिए, वास्तव में आपको पासा की गणना करने के लिए डमीज़ बनाने की ज़रूरत नहीं है, मैट्रिक्स ऑपरेशन के साथ आप शायद इसे उसी तरह से तेज कर सकते हैं जिस तरह से वर्णित किया गया है।) नाममात्र attribures के संघ के लिए पासा से संबंधित विषय देखें

Albeit Dice का उपयोग करने के लिए सबसे स्पष्ट उपाय है, जब आप चाहते हैं कि (डिस) समानता के मामलों के बीच का कार्य जब विशेषताएँ स्पष्ट हो, तो अन्य बाइनरी उपायों का उपयोग किया जा सकता है - यदि उनके सूत्र को खोजने से आपके नाममात्र डेटा के बारे में विचार संतुष्ट होते हैं।

+++सी++सी2=पी(1-एस)पी

लेकिन ...

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

चूंकि निकटता मैट्रिक्स के कई अनुप्रयोगों में, जैसे कि क्लस्टर विश्लेषण के कई तरीकों में, परिणाम परिवर्तन नहीं करेंगे या रैखिक के तहत सुचारू रूप से बदलेंगे (और कभी-कभी मोनोटोनिक के तहत भी) समानताओं के परिवर्तन, ऐसा प्रतीत होता है कि एक बड़ी संख्या में उचित हो सकता है द्विआधारी उपायों के अलावा पासा के समान या समान परिणाम प्राप्त करने के लिए। लेकिन आपको पहले इस बात पर विचार / तलाश करनी चाहिए कि विशिष्ट विधि (उदाहरण के लिए पदानुक्रमित क्लस्टरिंग में एक लिंकेज ) कैसे प्रोमिसिटी के दिए गए परिवर्तन पर प्रतिक्रिया करती है।

यदि आपकी नियोजित क्लस्टरिंग या एमडीएस विश्लेषण दूरी के मोनोटोनिक परिवर्तनों के प्रति संवेदनशील है, तो आप ऊपर दी गई तालिका में "मोनोटोनिक" के रूप में वर्णित उपायों का उपयोग करने से बेहतर बचना चाहते हैं (और इस प्रकार हाँ, डीकमी के साथ जैकार्ड समानता या निरर्थक यूक्लिडियन दूरी का उपयोग करना अच्छा नहीं है। , (पूर्व नाममात्र, गुण)।


हां, आप सही मान हैं .. इसलिए एक विशेषता के तीन संभावित मूल्य हैं
जेन डो

2
मान लें कि मेरे पास एक ही विशेषता के दो मूल्य हैं, "बॉल", "नाल", "पल्ल" और मैंने इसे 11 01 और 00 में बदल दिया। मैं 11 और 00 के बीच जैकार्ड दूरी को मापना चाहता हूं। इस मामले में, तब है दूरी 1? चूंकि a = 0 b = 2 c = 0 और d = 0? कृपया मुझे बताओ!
जेन डो

मुझे आपकी अंतिम टिप्पणी की बात याद आती है। कृपया स्पष्ट रूप से पूछें। या 5 लोगों और 2 नाममात्र विशेषताओं के साथ मेरे उपरोक्त उदाहरण डेटा का उपयोग करें और बताएं कि आप किस व्यक्ति के साथ मेरी तुलना करना चाहते हैं और किस डिस (समानता) को मापते हैं।
tnnphns
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.