अभ्यास में कुल्लब-लिबलर विचलन की गणना करें?


15

मैं केएल 2 पी और क्यू के बीच असमानता के उपाय के रूप में कर रहा हूं ।पी क्यूp.m.f. PQ

=-Σपी(एक्समैं)एलएन(क्यू(एक्समैं))+Σपी(एक्समैं)एलएन(पी(एक्समैं))

DKL(P||Q)=i=1Nln(PiQi)Pi
=P(Xi)ln(Q(Xi))+P(Xi)ln(P(Xi))

यदि

P(Xi)=0
तो हम आसानी से गणना कर सकते हैं कि P ( X i ) l n ( P ( X i ) ) = 0
P(Xi)ln(Q(Xi))=0
P(Xi)ln(P(Xi))=0

लेकिन अगर

P(Xi)0
और
Q(Xi)=0
कैसे P (X_i) ln \ left (Q (X_i) \ सही) की गणना करें
P(Xi)ln(Q(Xi))

हर किसी को बचाने के लिए कुछ समय जो आपके पास था उसे आप पी (X_i) बदलना चाहते हैं ! = 0P(Xi)!=0 से P(Xi)0 " "ने" टोकन के साथ

इसके अलावा, क्या आपका मतलब है कि सभी ? इस मामले में केएल विचलन को परिभाषित नहीं किया गया है, क्योंकि एक प्रायिकता फ़ंक्शन नहीं है (जिन्हें समर्थन पर 1 से अधिक होना चाहिए)। Q(Xi)=0XiQ

@ मैथ्यू धन्यवाद, सही। मैंने गलती से अपनी कोडिंग की आदत का पालन किया।
smwikipedia

@ कुछ , सभी नहीं। मैं परिणामों के एक ही सेट पर और को आधार बनाने के लिए एक वर्कअराउंड पर विचार कर रहा हूं और एक छोटे छद्म गणना को जोड़ सकता हूं, 0.001 कहता हूं, नॉट-शो-अप परिणामों के लिए। यह शून्य-मूल्यवान संभावनाओं से बच सकता है। लेकिन अगर कोई साइड-इफेक्ट है तो मुझे यकीन नहीं है। Q(Xi)=0XiPQ
smwikipedia

जवाबों:


15

आप नहीं कर सकते और आप नहीं। कल्पना कीजिए कि आपके पास संभावना वितरण का एक यादृच्छिक चर है। लेकिन आपके मित्र बॉब का विचार है कि परिणाम वितरण की संभावना पी से आता है। उन्होंने एक इष्टतम एन्कोडिंग का निर्माण किया है, जो कि अपेक्षित बिट्स की संख्या को कम करता है जो आपको बताने के लिए उपयोग करने की आवश्यकता होगी। परिणाम। लेकिन, चूंकि उसने P से एन्कोडिंग का निर्माण किया था और Q से नहीं, इसलिए उसके कोड आवश्यक से अधिक लंबे होंगे। केएल-विचलन मापता है कि कोड कितने लंबे होंगे।

अब कहते हैं कि उसके पास एक सिक्का है और वह आपको प्राप्त परिणामों के अनुक्रम को बताना चाहता है। क्योंकि सिर और पूंछ समान रूप से संभावना है कि वह उन्हें दोनों 1-बिट कोड देता है। सिर के लिए 0, पूंछ के लिए 1। यदि उसे टेल टेल हेड टेल मिलती है, तो वह 1 1 0 1. भेज सकता है, यदि उसका सिक्का किनारे पर है, तो वह संभवतः आपको नहीं बता सकता है! कोई कोड वह नहीं भेजता है जो आप काम करेंगे। इस बिंदु पर केएल-विचलन टूट जाता है।

चूंकि केएल-विचलन टूट जाता है इसलिए आपको या तो दूसरे उपाय या अन्य संभावना वितरण का उपयोग करना होगा। आपको वास्तव में क्या करना चाहिए, इस पर निर्भर करता है कि आप क्या चाहते हैं। आप संभावना वितरण की तुलना क्यों कर रहे हैं? आपके संभावित वितरण कहाँ से आते हैं, क्या वे डेटा से अनुमानित हैं?

आप कहते हैं कि आपकी संभावना वितरण किसी भी तरह से प्राकृतिक भाषा के दस्तावेज़ों से आते हैं, और आप श्रेणियों के जोड़े की तुलना करना चाहते हैं।

सबसे पहले, मैं एक सममित संबंधितता माप की सलाह दूंगा। इस एप्लिकेशन के लिए यह ए की तरह लगता है जैसे बी के समान बी।

क्या आपने कॉस्मिक समानता माप की कोशिश की है? यह एनएलपी में काफी आम है।

यदि आप केएल के साथ रहना चाहते हैं, तो एक चीज जो आप कर सकते हैं, वह है कि दोनों दस्तावेज़ों से एक संभाव्यता फ़ंक्शन का अनुमान लगाया जाए और फिर देखें कि आपको दस्तावेज़ में औसतन कितने अतिरिक्त बिट्स की आवश्यकता होगी। वह (P || (P + Q) / 2 + Q || (P + Q) / 2) / 2 है


महान व्याख्या लेकिन थोड़ा भ्रमित: जिस तरह से आप पहले पैराग्राफ का वर्णन करते हैं, वह केएल (क्यू || पी) नहीं है?
जुर्गेन

8

व्यवहार में, मैं इस मुद्दे में भी भाग गया। इस स्थिति में, मैंने पाया है कि कुछ बहुत कम संख्या के लिए 0 का मान प्रतिस्थापित करना समस्या पैदा कर सकता है। आपके द्वारा उपयोग किए जाने वाले मूल्य के आधार पर, आप KL मान में "पूर्वाग्रह" का परिचय देंगे। यदि आप परिकल्पना परीक्षण के लिए केएल मान का उपयोग कर रहे हैं या कुछ अन्य उपयोग जिसमें दहलीज शामिल है, तो यह छोटा मान आपके परिणामों को पूर्वाग्रह कर सकता है। मैंने पाया है कि इससे निपटने का सबसे प्रभावी तरीका केवल केएल को एक सुसंगत परिकल्पना स्थान X_i पर गणना करना है, जहां BOTH P और Q गैर-शून्य हैं। अनिवार्य रूप से, यह केएल के डोमेन को एक ऐसे डोमेन तक सीमित करता है, जहां दोनों परिभाषित किए गए हैं और परिकल्पना परीक्षण करने के लिए केएल का उपयोग करते समय आपको परेशानी से बाहर रखता है।


धन्यवाद। यह एक दिलचस्प सुझाव है। मूल रूप से, यह परिणामों के समान सेट पर P और Q को आधार बनाने की कोशिश कर रहा है। मैं कोशिश करूंगा कि
smwikipedia

यदि मैं डेटा उपसेट पर KL की गणना करता हूं जहां P और Q दोनों गैर शून्य हैं, तो क्या मुझे उस उपसेट पर P और Q को फिर से सामान्य करने की आवश्यकता है? या सिर्फ मूल संभावना मूल्य का उपयोग करें? मुझे लगता है मुझे करना चाहिए। अन्यथा, पी और क्यू अभी भी एक ही आधार पर नहीं हैं।
smwikipedia

मैंने सिर्फ आपके सुझाव के साथ प्रयास किया। P 10K परिणामों से अधिक वितरित करता है, और Q 10K परिणामों से अधिक वितरित करता है। लेकिन P और Q में केवल 3K परिणाम आम हैं। यदि मैं केवल P और Q के बीच अंतर का अनुमान लगाने के लिए सामान्य 3K परिणामों का उपयोग करता हूं, तो मुझे नहीं लगता कि यह उचित है। क्योंकि हम कई चीजों को नजरअंदाज कर रहे हैं। और btw, इस दृष्टिकोण के साथ परिणाम एक छोटी संख्या (या छद्म गिनती) जोड़कर मुझे जो मिलता है उससे काफी अलग है।
smwikipedia

कुछ संदर्भ जोड़ें, मैं एक एनएलपी प्रयोग पर काम कर रहा हूं। मेरे पास दस्तावेजों की कई श्रेणियां हैं और मैं बताना चाहता हूं कि प्रत्येक जोड़ी एक-दूसरे से कितनी निकट की है।
smwikipedia

5

Qi=0iQiQiQP

समाधान अनुमानित वितरण में 0 या 1 संभावनाओं को कभी भी अनुमति नहीं है। यह आमतौर पर स्मूदिंग के कुछ रूप जैसे गुड-ट्यूरिंग स्मूदी, डिरिचलेट स्मूथिंग या लैप्लस स्मूथिंग द्वारा प्राप्त किया जाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.