कुल्बैक-लीब्लर विचलन / दूरी की गणना कैसे करें?


10

मेरे पास तीन डेटा सेट X, Y और Z हैं। प्रत्येक डेटा सेट एक घटना की आवृत्ति को परिभाषित करता है। उदाहरण के लिए:

डेटा सेट X: E1: 4, E2: 0, E3: 10, E4: 5, E5: 0, E6: 0 और इसी तरह ..
डेटा सेट Y: E1: 2, E2: 3, E3: 7, E4: 6, E5: 0, E6: 0 और इसी तरह ..
डेटा सेट Z: E1: 0, E2: 4, E3: 8, E4: 4, E5: 1, E6: 0 और इसी तरह ।।

मुझे एक्स और वाई के बीच केएल-विचलन ढूंढना है; और X और Z के बीच। जैसा कि आप देख सकते हैं कि कुछ घटनाओं के लिए 0 और गैर-शून्य मान होंगे। कुछ घटनाओं के लिए सभी तीन डेटा सेट 0 हैं।

अगर कोई मुझे इसके लिए केएल विचलन खोजने में मदद कर सकता है तो मैं सराहना करूंगा। मैं बहुत अधिक सांख्यिकीविद नहीं हूं, इसलिए मेरे पास ज्यादा विचार नहीं है। जिन ट्यूटोरियल को मैं ऑनलाइन देख रहा था, वे मेरी समझ के लिए बहुत जटिल थे।

जवाबों:


11

आपके प्रश्न का उत्तर देने के लिए, हमें केएल विचलन की परिभाषा याद करनी चाहिए :

DKL(Y||X)=i=1Nln(YiXi)Yi

सबसे पहले आपको उस चीज से जाना होगा जो आपको प्रायिकता वितरण के लिए है। इसके लिए आपको अपने डेटा को सामान्य करना चाहिए, जैसे कि यह एक तक सीमित हो:

Xi:=Xii=1NXi ; ; Yi:=Yii=1NYiZi:=Zii=1NZi

फिर, असतत मूल्यों के लिए हमारे पास एक बहुत महत्वपूर्ण धारणा है जो केएल-विचलन का मूल्यांकन करने के लिए आवश्यक है और जिसका अक्सर उल्लंघन किया जाता है:

Xi=0 मतलब चाहिए ।Yi=0

मामले में जब और दोनों शून्य के बराबर होते हैं, तो को शून्य (सीमा मान के रूप में) मान लिया जाता है।XiYiln(Yi/Xi)Yi

आपके डेटासेट में इसका मतलब है कि आप पा सकते हैं , लेकिन उदाहरण के लिए (दूसरी प्रविष्टि के कारण) नहीं।DKL(X||Y)DKL(Y||X)

मैं व्यावहारिक दृष्टिकोण से क्या सलाह दे सकता है:

या तो अपनी घटनाओं को "बड़ा" बनाएं ताकि आपके पास कम शून्य हो

या अधिक डेटा प्राप्त करें, जैसे कि आप कम से कम एक प्रविष्टि के साथ दुर्लभ घटनाओं को भी कवर करेंगे।

यदि आप ऊपर दी गई किसी भी सलाह का उपयोग नहीं कर सकते हैं, तो आपको संभवतः वितरण के बीच एक और मीट्रिक खोजने की आवश्यकता होगी। उदाहरण के लिए,

पारस्परिक सूचना , जिसे । जहाँ दो घटनाओं की संयुक्त संभावना है।I(X,Y)=i=1Nj=1Np(Xi,Yj)ln(p(Xi,Yj)p(Xi)p(Yj))p(Xi,Yi)

आशा है कि यह मदद करेगा।


0

यहां छवि विवरण दर्ज करें

आप कुछ बहुत छोटे मान 0.00001 (कहना) पर \ epsilon सेट करना चाहते हैं और सभी संभावनाओं के लिए गैर-शून्य मानों के साथ आगे बढ़ सकते हैं और केएल स्कोर की गणना कर सकते हैं।

कृपया मुझे बताएं कि क्या यह काम करता है।


2
कृपया संलग्न छवि के लिए उपयुक्त उद्धरण जोड़ सकते हैं, अगर यह आपका नहीं है (अन्यथा, आप इसे टाइप करने के लिए का उपयोग कर सकते हैं ), और यह भी इंगित करें कि यह हाथ में विशिष्ट समस्या पर कैसे लागू होता है? (ओपी ने स्पष्ट रूप से कहा कि वह गणितीय आँकड़ों में पारंगत नहीं है।)LATEX
chl
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.