बाइनरी डेटा के लिए समानता गुणांक: रसेल और राव पर जैकार्ड का चयन क्यों करें?


20

से सांख्यिकीय विज्ञान विश्वकोश मुझे लगता है कि यह देखते हुए समझ में दिचोतोमोउस (बाइनरी: 1 = वर्तमान; 0 = अनुपस्थित) विशेषताओं (चर), हम किसी भी दो वस्तुओं के लिए एक आपात तालिका फार्म कर सकते हैं मैं और जे एक नमूने की:पी

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

हम इन मूल्यों से किसी भी जोड़ी की वस्तुओं के बीच समानता गुणांक की गणना कर सकते हैं, विशेष रूप से जैकार्ड गुणांक और रसेल और राव गुणांक

++सी
++सी+=पी

जब गणना की जाती है तो ये गुणांक अलग-अलग मान देंगे, लेकिन मुझे कोई भी ऐसा संसाधन नहीं मिला, जो यह समझाता हो कि मुझे दूसरे को क्यों चुनना चाहिए। क्या यह केवल कुछ डेटासेट के लिए है, दोनों विशेषताओं की एक साथ अनुपस्थिति ( ) किसी भी जानकारी को व्यक्त नहीं करती है?

जवाबों:


14

ऐसे कई गुणांक मौजूद हैं (अधिकांश यहां व्यक्त किए गए हैं )। केवल सूत्रों में अंतर के परिणाम क्या हैं, इस पर ध्यान देने की कोशिश करें, खासकर जब आप गुणांक के एक मैट्रिक्स की गणना करते हैं ।

उदाहरण के लिए, कल्पना कीजिए कि ऑब्जेक्ट 1 और 2 समान हैं, जैसा कि ऑब्जेक्ट 3 और 4 हैं। लेकिन 1 और 2 की सूची में कई विशेषताएँ हैं जबकि 3 और 4 में केवल कुछ विशेषताएँ हैं। इस मामले में, रसेल-राव (विचाराधीन कुल विशेषताओं की सह-विशेषताओं का अनुपात) जोड़ी 1-2 के लिए उच्च और जोड़ी 3-4 के लिए कम होगा। लेकिन Jaccard (के अनुपात में विशेषताओं के संयुक्त संख्या के लिए सह-जिम्मेदार बताते हैं दोनों वस्तुओं है = संभावना है कि उसके बाद वे दोनों यह पूछना चाहते हैं तो या तो वस्तु एक विशेषता है) दोनों जोड़े 1-2 और 3-4 के लिए उच्च किया जाएगा।

"विशेषताओं द्वारा संतृप्ति" के आधार स्तर के लिए यह समायोजन बनाता Jaccard इतना लोकप्रिय और की तुलना में अधिक उपयोगी रसेल-राव , क्लस्टर विश्लेषण या बहुआयामी स्केलिंग में जैसे। आप एक अर्थ में, कुलज़िनेस्की -2 माप का चयन करके उपरोक्त समायोजन को परिष्कृत कर सकते हैं, जो अंकगणितीय माध्य संभावना है कि यदि किसी वस्तु में एक विशेषता है, तो दूसरी वस्तु में यह भी है:

(+++सी)/2
यहां दो वस्तुओं के लिए विशेषताओं का आधार (या क्षेत्र) जमा नहीं किया गया है, जैसा कि जैकार्ड में है, लेकिन दोनों वस्तुओं में से प्रत्येक के लिए खुद का है। नतीजतन, यदि वस्तुएं उनके पास मौजूद विशेषताओं की संख्या में बहुत भिन्न होती हैं, और इसके सभी गुण "अमीर" ऑब्जेक्ट को "अमीर" के साथ साझा करते हैं, तो कुलसचिनस्की उच्च होगा, जबकि जैककार्ड मध्यम होगा।

या आप ज्यामितीय माध्य संभावना की गणना करना पसंद कर सकते हैं कि यदि किसी वस्तु में एक विशेषता है, तो दूसरी वस्तु में वह भी है, जो ओचियाइ मापता है: क्योंकि उत्पाद केवल एक शब्द के बढ़ने पर राशि की तुलना में कमजोर हो जाता है, ओचियाई वास्तव में केवल तभी उच्च होगा जब दोनों अनुपात (संभावनाएं) उच्च हों, जिसका तात्पर्य यह है कि ओचियाई द्वारा समान माना जाने वाला ऑब्जेक्ट महान साझा करना चाहिए उनकी विशेषताओं के शेयर। संक्षेप में, Ochiai समानता प्रतिबंध यदि और असमान हैं। ओचिया वास्तव में कोसाइन समानता माप है (और रसेल-राव डॉट उत्पाद समानता है)।

++सी
सी

पुनश्च

क्या यह केवल कुछ डेटासेट के लिए है, दोनों विशेषताओं की एक साथ अनुपस्थिति (डी) किसी भी जानकारी को व्यक्त नहीं करती है?

समानता उपायों की बात करते हुए, किसी को द्विआधारी विशेषताओं (वर्तमान बनाम अनुपस्थित) के साथ नाममात्र द्विधातु गुण (जैसे महिला, पुरुष) को नहीं मिलाया जाना चाहिए । बाइनरी विशेषता सममित नहीं है (सामान्य रूप से), - यदि आप और मैं एक विशेषता साझा करते हैं, तो यह हमें समान कॉल करने का आधार है; यदि आप और मैं दोनों की विशेषता याद आती है, तो अध्ययन के संदर्भ के आधार पर, इसे समानता का प्रमाण माना जा सकता है या नहीं भी माना जा सकता है। इसलिए का अलग-अलग उपचार संभव है।

यह भी ध्यान दें कि यदि आप 1+ नाममात्र की विशेषताओं (द्विभाजन या बहुपद) के आधार पर वस्तुओं के बीच समानता की गणना करना चाहते हैं , तो प्रत्येक ऐसे चर को डमी बाइनरी चर के सेट में पुन: लिखें। फिर गणना करने के लिए अनुशंसित समानता उपाय पासा होगा ( जो , जब डमी चर के 1+ सेट के लिए गणना की जाती है, तो ओचियाई और कुलज़िस्की -2 के बराबर है)।


2
दो से अधिक श्रेणियों के साथ वर्गीकरण के लिए "डाइकोटोमस" के साथ सादृश्य द्वारा विभिन्न शब्दों का सुझाव दिया गया है। "पॉलीटोमस" भाषाई रूप से "पॉलीकोटोमस" के लिए बेहतर है, जो कि एक गलत अनुमान पर आधारित है कि "डाइकोटोमस" दो ग्रीक जड़ों, "दी" और "कोटोमस" में मिलता है। "मल्टीचोटोमस" यौगिक जो एक लैटिन रूट के उपयोग के साथ त्रुटि करते हैं। यद्यपि अलग-अलग लैटिन और ग्रीक जड़ों वाले शब्द भाषाविदों के तिरस्कार से बच गए हैं (उदाहरण के लिए "टेलीविज़न") मैं यहाँ "पॉलीटोमस" के उपयोग की सलाह देता हूं।
निक कॉक्स

इसे याद दिलाने के लिए धन्यवाद। मैं वास्तव में जानता था कि आप किस बारे में कह रहे हैं, और खुद को शुद्ध करने की कोशिश करें ... जब मैं जल्दी में नहीं हूं। मैं इसे संपादित करूँगा।
ttnphns

3

पारंपरिक सटीकता (यानी रसेल-राव) पर तनिमोटो गुणांक की उपयोगिता छवि विश्लेषण में स्पष्ट है, जब एक विभाजन की तुलना एक स्वर्ण-मानक से की जाती है। इन दो छवियों पर विचार करें:

यहां छवि विवरण दर्ज करें

इन छवियों में से प्रत्येक में जो बाइनरी 'मास्क' हैं, हमारे पास एक ही आकार की दो वस्तुएं हैं लेकिन थोड़े अलग स्थानों पर रखी गई हैं, और हम यह मूल्यांकन करना चाहते हैं कि इन वस्तुओं का आकार और स्थिति में उनके ओवरलैप का आकलन करके किस हद तक समान हैं। आमतौर पर एक (जैसे बैंगनी मुखौटा) एक विभाजन (एक कंप्यूटर एल्गोरिदम द्वारा निर्मित) है, उदाहरण के लिए यह एक चिकित्सा छवि से दिल का पता लगाने का एक प्रयास हो सकता है। अन्य, (उदाहरण के लिए हरा) स्वर्ण-मानक (अर्थात हृदय, जैसा कि विशेषज्ञ चिकित्सक द्वारा पहचाना जाता है)। जहां सफेद रंग होता है, वहां दो आकृतियां ओवरलैप होती हैं। ब्लैक पिक्सल पृष्ठभूमि हैं।

दो छवियां समान हैं (यानी विभाजन एल्गोरिथ्म के परिणाम, साथ ही सोने के मानक, दोनों छवियों में समान हैं), दूसरी छवि में बहुत अधिक पृष्ठभूमि "पैडिंग" को छोड़कर (जैसे यह दो प्रयोगों का प्रतिनिधित्व कर सकता है) दो अलग-अलग एक्स-रे मशीन, जहां 2 मशीन में अधिक शरीर के क्षेत्र को कवर करने वाली एक व्यापक किरण थी, लेकिन अन्यथा दिल का आकार दोनों छवि सेटों में समान है)।

स्पष्ट रूप से, चूंकि दोनों छवियों में विभाजन और स्वर्ण मानक समान हैं, अगर हम सोने के मानक के खिलाफ विभाजन की सटीकता का मूल्यांकन करते हैं, तो हम चाहेंगे कि हमारा मीट्रिक दोनों प्रयोगों में समान 'सटीकता' परिणाम का उत्पादन करे।

हालांकि, अगर हम रसेल-राव दृष्टिकोण का उपयोग करके विभाजन की गुणवत्ता का आकलन करने का प्रयास करते हैं, तो हमें सही छवि (100% के करीब) के लिए भ्रामक रूप से उच्च सटीकता मिलेगी, क्योंकि "पृष्ठभूमि पिक्सेल के रूप में सही ढंग से पहचाने जाने वाले पृष्ठभूमि पिक्सेल" की ओर योगदान करते हैं। सेट की कुल सटीकता, और पृष्ठभूमि पिक्सेल दूसरे सेट में पूरी तरह से प्रतिनिधित्व करते हैं। जिन वस्तुओं का ओवरलैप हम चिकित्सा विभाजन में मूल्यांकन करना चाहते हैं, वे अक्सर बड़े पैमाने पर पृष्ठभूमि में छोटे धब्बे होते हैं, इसलिए यह हमारे लिए बहुत उपयोगी नहीं है। इसके अलावा, अगर हम एक विभाजन एल्गोरिथ्म की सटीकता की तुलना दूसरे से करने की कोशिश कर रहे थे, तो यह समस्या पैदा करेगा और दोनों का मूल्यांकन अलग-अलग आकार की छवियों पर किया गया था! (या, समकक्ष, विभिन्न पैमानों पर)।एम्बेडिंग छवि के स्केलिंग / आकार को एक स्वर्ण-मानक के खिलाफ एक विभाजन के मूल्यांकन में अंतर नहीं करना चाहिए!

इसके विपरीत, tanimoto गुणांक पृष्ठभूमि पिक्सल के बारे में परवाह नहीं करता है, यह 'पैमाने' के लिए अपरिवर्तनीय बनाता है। जहाँ तक tanimoto गुणांक का संबंध है, इन दोनों सेटों की समानता समान होगी, जिससे यह एक विभाजन एल्गोरिथ्म की गुणवत्ता का मूल्यांकन करने के लिए हमारे लिए एक अधिक उपयोगी समानता मीट्रिक बन जाएगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.