Kullback-Leibler सूचना सिद्धांत के बिना विचलन


23

क्रॉस वैलिडेट के बहुत फंसने के बाद, मुझे अभी भी ऐसा नहीं लगता है कि मैं सूचना सिद्धांत के दायरे से बाहर केएल विचलन को समझने के करीब हूं। यह एक मैथ पृष्ठभूमि के साथ किसी के रूप में अजीब है, क्योंकि सूचना सिद्धांत की व्याख्या को समझना बहुत आसान है।

एक सूचना सिद्धांत पृष्ठभूमि से मेरी समझ को रेखांकित करने के लिए: यदि हमारे पास परिणामों की सीमित संख्या के साथ एक यादृच्छिक चर है, तो एक इष्टतम एन्कोडिंग मौजूद है जो हमें किसी अन्य व्यक्ति के साथ परिणाम को कम से कम औसत संदेश के साथ संवाद करने की अनुमति देता है (मुझे यह सबसे आसान लगता है बिट्स के संदर्भ में चित्र)। संदेश की अपेक्षित लंबाई जिसे संवाद करने के लिए परिणाम की आवश्यकता होगी यदि इष्टतम एन्कोडिंग का उपयोग किया जाता है। यदि आप एक उप इष्टतम एन्कोडिंग का उपयोग करने के लिए थे, तो केएल विचलन हमें औसत रूप से बताता है कि हमारा संदेश कितना लंबा होगा।

αpαlog2(pα)

मुझे यह स्पष्टीकरण पसंद है, क्योंकि यह काफी सहज ज्ञान युक्त केएल विचलन के विषमता से संबंधित है। अगर हमारे पास दो अलग-अलग सिस्टम हैं, यानी दो लोड किए गए सिक्के जो अलग-अलग लोड किए गए हैं, तो उनके पास अलग-अलग इष्टतम एनकोडिंग होंगे। मैं किसी भी तरह सहज रूप से महसूस नहीं करता कि दूसरे के लिए पहले सिस्टम के एन्कोडिंग का उपयोग करने के लिए पहले के लिए दूसरे सिस्टम के एन्कोडिंग का उपयोग करना "उतना ही बुरा है"। मैंने खुद को कैसे आश्वस्त किया, इस विचार प्रक्रिया से गुजरे बिना, मैं अब काफी खुश हूं कि आपको यह "अतिरिक्त अपेक्षित संदेश लंबाई" देता है, जब लिए की एन्कोडिंग का उपयोग किया जाता है ।

αpα(log2qαlog2pα)
qp

हालांकि, विकिपीडिया सहित केएल विचलन की अधिकांश परिभाषाएँ तब बयान करते हैं (इसे असतत शब्दों में रखते हैं ताकि इसकी तुलना सूचना सिद्धांत व्याख्या से की जा सके जो असतत शब्दों में बेहतर काम करती है क्योंकि बिट्स असतत हैं) यदि हमारे पास दो असततता है वितरण, तो केएल कुछ मीट्रिक प्रदान करता है "वे कितने अलग हैं"। मुझे अभी तक एक भी स्पष्टीकरण नहीं देखना है कि ये दोनों अवधारणाएं कैसे संबंधित हैं। मुझे लगता है कि उनकी पुस्तक को निष्कर्ष पर याद किया जा रहा है, डेव मैके ने डेटा कम्प्रेशन और अनुमान के बारे में मूल रूप से एक ही बात की है, और मुझे संदेह है कि मेरा प्रश्न वास्तव में इस से संबंधित है।

चाहे वह ऐसा हो या न हो, मेरे मन में जिस तरह का सवाल है, वह अनुमान की समस्याओं के आसपास है। (चीजों को असतत रखते हुए), अगर हमारे पास दो रेडियोधर्मी नमूने हैं, और हम जानते हैं कि उनमें से एक ज्ञात रेडियोधर्मिता के साथ एक निश्चित सामग्री है (यह संदिग्ध भौतिकी है लेकिन चलो ब्रह्मांड की तरह काम करने का दिखावा करते हैं) और इस प्रकार हम जानते हैं "सही वितरण" रेडियोधर्मी क्लिकों को हमें मापना चाहिए जिसे ज्ञात साथ काव्यमय होना चाहिए , क्या यह दोनों नमूनों के लिए एक अनुभवजन्य वितरण का निर्माण करने के लिए उचित है और ज्ञात वितरण के लिए उनके KL divergences की तुलना करें और कहें कि कम उस सामग्री के होने की अधिक संभावना है?λ

संदिग्ध भौतिकी से दूर जाना, अगर मुझे पता है कि दो नमूने एक ही वितरण से खींचे गए हैं, लेकिन मुझे पता है कि वे बेतरतीब ढंग से चयनित नहीं हैं, तो उनके KL divergences की तुलना ज्ञात से करेंगे, वैश्विक वितरण मुझे "कैसे पक्षपाती" नमूने के लिए एक एहसास देता है। , वैसे भी एक और अन्य के सापेक्ष?

और अंत में, यदि पिछले प्रश्नों का उत्तर हां है, तो क्यों? क्या सूचना सिद्धांत के बिना किसी (संभवत: दसवां) कनेक्शन किए बिना एक सांख्यिकीय दृष्टिकोण से इन बातों को समझना संभव है?


1
: मेरा उत्तर यहाँ देखें stats.stackexchange.com/questions/188903/... जो सूचना सिद्धांत का उल्लेख नहीं करता
Kjetil ख Halvorsen

1
क्या केएल विचलन शुद्ध रूप से एक सूचना सिद्धांत नहीं है? मुझे पता है कि यह एक बायेसियन के बीच आपसी जानकारी को पहले और बाद में या उस जैसे कुछ देता है, और मुझे याद है कि एक बार इसे फेनशेल ट्रांसफॉर्म / कंजुगेट्स (बड़े विचलन सिद्धांत) के संदर्भ में देख रहा था, लेकिन किसी भी मामले में मुझे लगा कि यह एक सूचना सिद्धांत अवधारणा है ।
Chill2Macht

जवाबों:


23

नमूने लेने: वहाँ Kullback-Leibler विचलन को एक विशुद्ध रूप से सांख्यिकीय दृष्टिकोण है एक अज्ञात वितरण से आईआईडी पी और वितरण के एक परिवार द्वारा संभावित फिट मानते हैं, एफ = { पी θX1,,Xnp इसी संभावना के रूप में परिभाषित किया गया है एल ( θ | एक्स 1 , ... , x n ) = n Π मैं = 1 पी θ ( एक्स मैं ) और उसके लघुगणक है ( θ | एक्स 1 , ... , एक्स n ) = n Σ मैं = 1 लॉग पी θ ( एक्स मैं )

F={pθ, θΘ}
L(θ|x1,,xn)=i=1npθ(xi)
(θ|x1,,xn)=i=1nlogpθ(xi)
इसलिए, जो बीच Kullback-Leibler विचलन का दिलचस्प हिस्सा है पी θ और पी एच ( पी θ | पी ) डीईएफ़ = लॉग { पी ( एक्स ) / पी θ ( एक्स ) }
1n(θ|x1,,xn)E[logpθ(X)]=logpθ(x)p(x)dx
pθp अन्य भाग लॉग { पी ( एक्स ) }
H(pθ|p)=deflog{p(x)/pθ(x)}p(x)dx
वहाँ जा रहा है [में कम से कम करने के लिए θ की] एच ( पी θ | पी ) शून्य के बराबर।
log{p(x)}p(x)dx
θH(pθ|p)

एक पुस्तक जो विचलन, सूचना सिद्धांत और सांख्यिकीय निष्कर्ष को जोड़ती है, वह है रीसैनन का इष्टतम अनुमान पैरामीटर , जिसकी मैंने यहां समीक्षा की ।


इस का एक संख्यात्मक उदाहरण देखने की कोई संभावना?
पॉल उस्ज़ाक

वैसे मेरा मतलब कुछ वास्तविक संख्याओं को देखकर है। सिद्धांत प्यारा है लेकिन दुनिया संख्याओं पर चलती है। केएल विचलन के कोई उदाहरण नहीं हैं जो वास्तविक संख्या का उपयोग करते हैं, इसलिए मैं इस निष्कर्ष पर पहुंचा हूं कि यह एक ऐसा सिद्धांत है जिसमें कोई संभावित अनुप्रयोग नहीं है। ओपी ने बिट्स और डेटा संपीड़न में संदेशों की लंबाई पर चर्चा की। मैं ऐसे किसी भी उदाहरण का जिक्र कर रहा था, जिसमें बहुत
सी कड़ियाँ थीं

2
@PaulUszak: अगर मैं आपको बताऊं कि N (0,1) और N (1,1) डिस्ट्रीब्यूशन के बीच कुल्लबैक-लीब्लर दूरी 1/2 है, तो यह कैसे मदद करता है?
शीआन

2
@ शीआन: उस संख्या 1/2 और इसी संभावना अनुपात परीक्षण की शक्ति के बीच कुछ संबंध होना चाहिए?
kjetil b halvorsen

7
+1 टिप्पणी धागा: मन इस बात पर अडिग है कि किसी भी अवधारणा को "बिट्स की संख्या" तक कम नहीं किया जा सकता है।
whuber

8

यहाँ कुल्बैक-लीब्लर विचलन की एक सांख्यिकीय व्याख्या है, शिथिल रूप से IJ गुड ( साक्ष्य का वजन: एक संक्षिप्त सर्वेक्षण , बायेसियन सांख्यिकी 2, 1985) से लिया गया है।

सबूत का वजन।

x1,x2,,xnf0H1H2f0H1={f1}H2={f2}f0f1f2

x=(x1,,xn)H1H2

W(x)=logf1(x)f2(x).
PH0H1W
logP(H0|x)P(H1|x)=W(x)+logP(H0)P(H1).
W(x1,,xn)=W(x1)++W(xn).
W(x)xH1H2

xW(x)W(x)>2

कुल्बैक-लीब्लर विचलन

f1f2xf1

KL(f1,f2)=Exf1W(x)=f1logf1f2.

xf1H1={f1}H2

Exf1W(x)0.

1

मुझे अभी तक एक भी स्पष्टीकरण नहीं देखना है कि ये दोनों अवधारणाएं कैसे संबंधित हैं।

मुझे सूचना सिद्धांत के बारे में ज्यादा जानकारी नहीं है, लेकिन यह है कि मैं इसके बारे में कैसे सोचता हूं: जब मैं एक सूचना सिद्धांत व्यक्ति को "संदेश की लंबाई" सुनता हूं, तो मेरा दिमाग कहता है "आश्चर्य।" आश्चर्य 1.) यादृच्छिक और 2.) व्यक्तिपरक है।

Xq(X)logq(X)

qXppEp[logp(X)]qpEp[logq(X)]

"वे कितने अलग हैं" के बारे में सोचने के बजाय "मैं गलत वितरण का उपयोग करने से अपेक्षित आश्चर्य में वृद्धि के बारे में सोचता हूं।" यह सब लघुगणक के गुणों से है।

Ep[log(p(X)q(X))]=Ep[logq(X)]Ep[logp(X)]0.

संपादित करें

log(q(x))q

Xqx0log(0)=10

log

q(x)>1

XqX(x)Y=aX+bqx((yb)/a)|1/a|XlogqX(X)logqY(Y)

(XEX)2

संपादित करें 2: ऐसा लगता है कि मैं केवल एक ही नहीं हूं जो इसे "आश्चर्य" के रूप में सोचता है। से यहाँ :

yθ-2लॉग{पी(y|θ)} (कुल्बैक और लिब्लर, 1951; बर्नहम और एंडरसन, 1998) और 'आश्चर्य' (अच्छा, 1956), लघुगणक दंड (बर्नार्डो, 1979) या अनिश्चितता के एक उपाय के रूप में व्याख्या की जा सकती है।


1
क्या आप इस बारे में विस्तार से बता सकते हैं log(q(x)) is a measure of "surprise"? This quantity alone seems meaningless, as it is not even invariant under linear transforms of the sample space (I assume q is a pdf).
Olivier

1
Let T be the transform T(X)=aX, a0. Since T is invertible, observing T(x) is, for me, the same as observing x: I can easily transform one into the other. Why should I be more surprised at observing T(x) than I am at observing x? (if logqT(X)(T(x))>logqX(x)) Invariance under invertible transforms is necessary to avoid this contradiction.
Olivier

@Olivier yes this was all covered in my edit already. I don't see a contradiction. Consider variance, where you take the expectation of the transformation (XE[X])2. You could regard this random quantity as "extremeness." But you don't see me complaining about the lack of invariance
Taylor
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.