कुल्बैक-लीब्लर विचलन का विश्लेषण

18

आइए हम निम्नलिखित दो संभाव्यता वितरणों पर विचार करें

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

मैंने कुल्बैक-लीब्लर विचलन की गणना की है जो कि बराबर है , मैं सामान्य रूप से जानना चाहता हूं कि यह संख्या मुझे क्या दिखाती है? आम तौर पर, कुल्बैक-लिबलर विचलन मुझे दिखाता है कि दूसरे से एक संभावना वितरण कितनी दूर है, है ना? यह एंट्रॉपी शब्दावली के समान है, लेकिन संख्या के संदर्भ में, इसका क्या मतलब है? अगर मेरे पास 0.49 का परिणाम है, तो क्या मैं कह सकता हूं कि लगभग एक वितरण दूसरे से 50% तक दूर है? $0.492820258$

interpretation information-theory kullback-leibler

— दातो दातुशविली
स्रोत

यहां चर्चा देखें जो कुछ मदद हो सकती है।

— Glen_b -Reinstate मोनिका

क्या आपने विकिपीडिया लेख पढ़ा?

— नील जी

42

कुल्बैक-लीब्लर डाइवर्जेंस एक मीट्रिक उचित नहीं है, क्योंकि यह सममित और भी नहीं है, यह त्रिभुज असमानता को संतुष्ट नहीं करता है। तो दो वितरणों द्वारा निभाई गई "भूमिकाएं" अलग हैं, और अध्ययन के तहत वास्तविक दुनिया की घटना के अनुसार इन भूमिकाओं को वितरित करना महत्वपूर्ण है।

जब हम लिखते हैं (ओपी ने आधार -2 लघुगणक का उपयोग करके अभिव्यक्ति की गणना की है)

K (P | | Q) = \sum_{i} \log_{2} (p_{i} / q_{i}) p_{i}

$\mathbb K\left(P||Q\right) = \sum_{i}\log_2 (p_i/q_i)p_i$

हम वितरण को "लक्ष्य वितरण" मानते हैं (आमतौर पर इसे सही वितरण माना जाता है), जिसे हम वितरण का उपयोग करके अनुमानित करते हैं । $P$ $Q$

अभी,

\sum_{i} \log_{2} (p_{i} / q_{i}) p_{i} = \sum_{i} \log_{2} (p_{i}) p_{i} - \sum_{i} \log_{2} (q_{i}) p_{i} = - H (P) - E_{P} (\ln (Q))

$\sum_{i}\log_2 (p_i/q_i)p_i = \sum_{i}\log_2 (p_i)p_i-\sum_{i}\log_2 (q_i)p_i = -H(P) - E_P(\ln(Q))$

जहाँ वितरण की शैनन एन्ट्रापी है और को " और का क्रॉस-एन्ट्रापी" कहा जाता है - गैर-सममित। $H(P)$ $P$ $-E_P(\ln(Q))$ $P$ $Q$

लिख रहे हैं

K (P | | Q) = H (P, Q) - H (P)

$\mathbb K\left(P||Q\right) = H(P,Q) - H(P)$

$P$

तो, नहीं , केएल-विचलन को वितरण के बीच "दूरी के उपाय" के रूप में व्याख्या नहीं किया जाना बेहतर है , बल्कि सच्चे वितरण के बजाय वास्तविक वितरण के लिए एक सन्निकटन के उपयोग के कारण एन्ट्रापी वृद्धि के उपाय के रूप में ।

इसलिए हम सूचना सिद्धांत भूमि में हैं। इसे मास्टर्स (कवर एंड थॉमस) से सुनने के लिए "

$P$ $H(P)$ $Q$ $H(P) + \mathbb K (P||Q)$

वही बुद्धिमान लोग कहते हैं

... यह वितरण के बीच एक सच्ची दूरी नहीं है क्योंकि यह सममित नहीं है और त्रिकोण असमानता को संतुष्ट नहीं करता है। फिर भी, वितरण के बीच "दूरी" के रूप में सापेक्ष एन्ट्रॉपी के बारे में सोचना अक्सर उपयोगी होता है।

लेकिन यह बाद का दृष्टिकोण मुख्य रूप से उपयोगी होता है जब कोई अनुमान लगाने की प्रक्रिया का अनुकूलन करने के लिए केएल-विचलन को कम करने का प्रयास करता है । प्रति अंकों के अपने संख्यात्मक मूल्य की व्याख्या के लिए , यह उपयोगी नहीं है, और किसी को "एन्ट्रापी वृद्धि" दृष्टिकोण पसंद करना चाहिए।

प्रश्न के विशिष्ट वितरण के लिए (हमेशा आधार -2 लघुगणक का उपयोग करके)

K (P | | Q) = 0.49282, H (P) = 1.9486

$\mathbb K\left(P||Q\right) = 0.49282,\;\;\;\; H(P) = 1.9486$

$Q$ $P$

— एलेकोस पापाडोपोलोस
स्रोत

अत्यंत उपयोगी और सूचनात्मक उत्तर।

— MadHatter

1

KL Divergence, Q से प्रतीकों का उपयोग करके P से प्रतीक का प्रतिनिधित्व करने के लिए आवश्यक सूचना हानि को मापता है। यदि आपको 0.49 का मान मिला है, जिसका अर्थ है कि आप Q से दो समान प्रतीकों के साथ P से दो प्रतीकों को सांकेतिक शब्दों में बदलना कर सकते हैं, अतिरिक्त जानकारी का एक सा। ।

— हारून
स्रोत

1

$P$ $Q$ $P$

— नील जी
स्रोत