ची-स्क्वायर दूरी का उपयोग करके दो हिस्टोग्राम की तुलना करना


18

मैं चेहरों की दो छवियों की तुलना करना चाहता हूं। मैंने उनके एलबीपी-हिस्टोग्राम की गणना की। तो अब मुझे इन दोनों हिस्टोग्रामों की तुलना करने और कुछ ऐसा प्राप्त करने की आवश्यकता है जो बताएगा कि ये हिस्टोग्राम कितने समान हैं (0 - 100%)।

इस कार्य को हल करने के कई तरीके हैं, लेकिन एलबीपी विधि के लेखक जोर देते हैं (स्थानीय बाइनरी पैटर्न के साथ फेस विवरण: एप्लीकेशन को फेस रिकॉग्निशन। 2004) जो हिस्टोग्राम चौराहे और लॉग-लाइबिलिटी स्टेटिस्टिक से बेहतर है।

लेखक ची-स्क्वायर दूरी का एक सूत्र भी दिखाते हैं:

i=1n(xiyi)2(xi+yi)

जहाँ एक संख्या में डिब्बे है, पहले बिन का एक मूल्य है , दूसरे बिन का मान है।nxiyi

कुछ शोधों में (उदाहरण के लिए द्विघात-ची हिस्टोग्राम दूरस्थ परिवार) मैंने देखा कि ची-स्क्वायर दूरी का सूत्र है:

12i=1n(xमैं-yमैं)2(एक्समैं+yमैं)

और वहाँ http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm मैं ची-स्क्वायर दूरी का वह सूत्र देख रहा हूं:

i=1n(xiyi)2yमैं

मैं इससे चिपक गया। मेरे पास कई प्रश्न हैं:

  1. मुझे किस अभिव्यक्ति का उपयोग करना चाहिए?
  2. मुझे अंतर के परिणाम की व्याख्या कैसे करनी चाहिए? मुझे पता है कि 0 के बराबर अंतर का मतलब है कि दोनों हिस्टोग्राम समान हैं, लेकिन मुझे कैसे पता चलेगा जब दोनों हिस्टोग्राम बिल्कुल अलग हैं? क्या मुझे इसके लिए ची-स्क्वायर टेबल का उपयोग करने की आवश्यकता है? या क्या मुझे दहलीज का उपयोग करने की आवश्यकता है? मूल रूप से मैं percents में अंतर को मैप करना चाहता हूं।
  3. ये तीनों भाव अलग-अलग क्यों हैं?

क्या yi x के समान ही नहीं है, बल्कि तुलनित्र वितरण में, दूसरे बिन के बजाय है?
रेनेबेट

जवाबों:


7

@ सिल्वरफ़िश ने पोलैटअल्मर द्वारा जवाब का विस्तार करने के लिए कहा, जो नहीं दिया गया था, इसलिए मैं यहां पर इसका विस्तार करने की कोशिश करूंगा।

नाम चिसकुरे दूरी क्यों? आकस्मिक तालिकाओं के लिए चिस्क्वारे परीक्षण इसलिए विचार इस फ़ॉर्म को रखने और इसे के रूप में उपयोग करने के लिए है दूरी माप। यह ओपी का तीसरा सूत्र देता है, जिसमें व्याख्या रूप में की जाती है और अपेक्षा के अनुसार होती है, जो कि पोलटअलेमर की टिप्पणी "इसे असतत संभावना वितरण में उपयोग किया जाता है", उदाहरण के लिए फिट परीक्षण की भलाई में। यह तीसरा रूप कोई दूरस्थ कार्य नहीं है, क्योंकि यह चर और में असममित है । हिस्टोग्राम तुलना के लिए, हम एक दूरी फ़ंक्शन चाहते हैं जो और में सममित है एक्समैंyमैंएक्सyएक्सy1

χ2=cells(OiEi)2Ei
xiyixyxy, और दो पहले रूप यह देते हैं। उनके बीच का अंतर केवल एक स्थिर कारक , जो तब तक महत्वहीन है जब तक कि आप सिर्फ एक रूप को लगातार चुनते हैं (हालांकि अतिरिक्त फैक्टर वाला संस्करण बेहतर है यदि आप असममित रूप से तुलना करना चाहते हैं)। चुकता यूक्लिडियन दूरी के साथ इन योगों में समानता पर ध्यान दें, यह संयोग नहीं है, chisquare दूरी भारित यूक्लिडियन दूरी का एक प्रकार है । इस कारण से, ओपी में सूत्र आमतौर पर दूरी प्राप्त करने के लिए एक रूट साइन के तहत रखे जाते हैं । निम्नलिखित में हम इसका अनुसरण करते हैं।1212

Chisquare दूरी का उपयोग पत्राचार विश्लेषण में भी किया जाता है। वहां इस्तेमाल किए गए फॉर्म के संबंध को देखने के लिए, पंक्तियों और कॉलम के साथ एक आकस्मिक तालिका की कोशिकाएं । पंक्ति योग को और कॉलम योगों । पंक्तियों के बीच की chisquare दूरी को केवल दो पंक्तियों (दो हिस्टोग्राम) के साथ मामले के लिए, यह ओपी के पहले सूत्र (मूल चिह्न को मापता है) को ठीक करता है। आर सी एक्स + j = Σ मैं एक्स मैं j एक्स मैं + = Σ जे एक्स मैं जे एल , कश्मीर χ 2 ( एल , कश्मीर ) = xijRCx+j=ixijxi+=jxijl,k

χ2(l,k)=j1x+j(xljxl+xkjxk+)2
EDIT

नीचे दी गई टिप्पणियों में सवाल का जवाब देना: चिस्करे की दूरी की लंबी चर्चा के साथ एक पुस्तक माइकल कॉनकेरे (चैपमैन एंड हॉल) द्वारा "कॉरस्पेन्डेंस एनालिसिस इन प्रैक्टिस (दूसरा संस्करण)" है। यह एक अच्छी तरह से स्थापित नाम है, जो आकस्मिक तालिकाओं के साथ प्रयोग करने के लिए इसकी समानता से लेकर चिसक्वेयर तक आता है। इसका क्या वितरण है? मैंने कभी भी इसका अध्ययन नहीं किया है, लेकिन शायद (कुछ शर्तों के तहत ...) इसमें कुछ चस्क्वार वितरण, लगभग होगा। सबूत जो आकस्मिक तालिकाओं के साथ किया जाता है के समान होना चाहिए, पत्राचार विश्लेषण के बारे में अधिकांश साहित्य वितरण सिद्धांत में नहीं जाता है। एक पेपर, जिसमें कुछ हो सकता है, शायद इस तरह का सिद्धांत प्रासंगिक है http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 । और देखेंइस साइट पर कुछ अन्य प्रासंगिक पोस्ट के लिए /stats//search?q=%22chisquare+distance%22


क्या मैं पूछ सकता हूं कि आपके अंतिम समीकरण को चिसक्वेयर डिस्टेंस क्यों कहा जाता है? क्या इसे इस तरह वितरित किया जाता है? क्या आप कृपया एक व्युत्पत्ति प्रदान कर सकते हैं, या एक को लिंक कर सकते हैं? मैं एक खोजने के लिए प्रतीत नहीं कर सकते।
LeastSquaresWonderer

1
ऊपर मेरे संपादन देखें।
kjetil b halvorsen

3

मुझे यह लिंक काफी उपयोगी लगा: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

मुझे यकीन नहीं है कि क्यों, लेकिन ओपनसीवी ची-स्क्वायर हिस्टोग्राम तुलना के लिए आपके द्वारा सूचीबद्ध 3 सूत्र का उपयोग करता है।

अर्थ के संदर्भ में, मुझे यकीन नहीं है कि कोई भी माप एल्गोरिथ्म आपको एक बंधी हुई सीमा देने जा रहा है, जैसे 0% से 100%। दूसरे शब्दों में, आप यह सुनिश्चित कर सकते हैं कि दो चित्र समान हों: 1.0 का सहसंबंध मान या 0.0 का ची-वर्ग मान; लेकिन यह तय करना कठिन है कि दो छवियां कितनी अलग हैं: पूरी तरह से सफेद छवि बनाम पूरी तरह से काली छवि की तुलना करने की कल्पना करें, संख्यात्मक मान इन्फिनिटी या शायद नॉट-ए-नंबर होगा।


2

वास्तव में आप अपने मामले के लिए जो भी सही मानते हैं उसका उपयोग कर सकते हैं। आखिरी वाला अलग है। इसका उपयोग असतत संभाव्यता वितरण में किया जाता है, क्योंकि यदि आप और स्वैप करते हैं तो अंतिम सममित होगा ।xy

अन्य दो का उपयोग हिस्टोग्राम समानता की गणना में किया जाता है।


1
आप इस उत्तर पर थोड़ा विस्तार करना चाहते हैं, यह समझाने के लिए कि अन्य दो का उपयोग हिस्टोग्राम समानता की गणना के लिए कैसे किया जा सकता है। ध्यान दें कि आप डॉलर के संकेतों का उपयोग करके अपने उत्तर में लेटेक्स में गणित टाइपसेटिंग जोड़ सकते हैं: उदाहरण के लिए$x$ उत्पादन करता है । x
सिल्वरफिश

2
आपको यह समझाने की आवश्यकता है कि और में तीसरा किस सममित है क्योंकि यह उस तरह नहीं दिखता है। xy
mdewey

0

ओपी ने अनुरोध किया, प्रतिशत में मूल्य (समीकरण 1 के लिए):

p=χS100N

pχNS

अनुरोध के अनुसार लागू:

इस समीकरण की गणना एक पूर्ण हिस्टोग्राम से अंतर का प्रतिशत हो सकता है। दोनों हिस्टोग्राम के लिए इसकी गणना करना और फिर एक को दूसरे से घटाना, एक प्रतिशत में अंतर हो सकता है।


2
मेरे पास यह देखने का एक कठिन समय है कि यह किसी भी प्रश्न का उत्तर कैसे है। क्या आप विस्तार से समझा सकते हैं?
द लैकोनिक

यह (प्रतिशत में, अनुरोध के अनुसार) एक पूर्ण हिस्टोग्राम से कितना अलग है। यदि आप दोनों हिस्टोग्राम से इस समीकरण की गणना करते हैं तो हम एक से दूसरे में अंतर को जान पाएंगे क्योंकि यह त्रिकोणासन के लिए उपयोग किया जाता है।
कार्लोस बारसेलोस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.