कुलबबैक-लीब्लर दूरी का एक अनुकूलन?


28

इस तस्वीर को देखो: यहाँ छवि विवरण दर्ज करें

यदि हम लाल घनत्व से एक नमूना बनाते हैं तो कुछ मान 0.25 से कम होने की उम्मीद है जबकि नीले वितरण से इस तरह का नमूना उत्पन्न करना असंभव है। परिणामस्वरूप, लाल घनत्व से नीला घनत्व तक कुल्बैक-लीब्लर की दूरी अनंत है। हालांकि, दो घटता कुछ "प्राकृतिक अर्थ" में अलग नहीं हैं।

यहाँ मेरा सवाल है: क्या यह कुल्बैक-लीब्लर दूरी का एक अनुकूलन है जो इन सभी घटता के बीच एक सीमित दूरी की अनुमति देगा?


1
किस "प्राकृतिक अर्थ" में ये वक्र "भिन्न नहीं" हैं? यह सांख्यिकीय निकटता किसी भी सांख्यिकीय संपत्ति से कैसे संबंधित है? (मैं कई जवाब के बारे में सोच सकते हैं, लेकिन सोच रहा हूँ क्या आपके मन में है।)
whuber

1
खैर ... वे इस अर्थ में एक दूसरे के बहुत करीब हैं कि दोनों सकारात्मक मूल्यों पर परिभाषित हैं; वे दोनों बढ़ते हैं और फिर घटते हैं; दोनों में वास्तव में समान अपेक्षा है; और कुल्बैक लीबलर की दूरी "छोटी" है यदि हम एक्स-अक्ष के एक हिस्से तक सीमित हैं ... लेकिन इन सहज ज्ञान युक्त धारणाओं को किसी भी सांख्यिकीय संपत्ति से जोड़ने के लिए, मुझे इन विशेषताओं के लिए कुछ कठोर परिभाषा की आवश्यकता होगी ...
ओकराम

जवाबों:


18

आप Devroye, Gyorfi और Lugosi के अध्याय 3 को देख सकते हैं, पैटर्न की पहचान , स्प्रिंगर, 1996 का एक संभाव्य सिद्धांत , विशेष रूप से, -divergences पर अनुभाग देखें।f

-Divergences को Kullback के सामान्यीकरण के रूप में देखा जा सकता है - Leibler (या, वैकल्पिक रूप से, KL को f -Divergence केविशेष मामले के रूप में देखा जा सकता है)।ff

सामान्य रूप है

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

जहां एक उपाय है कि के साथ जुड़े उपायों हावी है पी और क्यू और ( ) एक उत्तल समारोह संतोषजनक है ( 1 ) = 0 । (यदि पी ( एक्स ) और क्यू ( एक्स ) लेबेस्ग माप के संबंध में घनत्व हैं, तो बस λ ( डी एक्स ) के लिए अंकन डी x स्थानापन्न करें और आप जाने के लिए अच्छे हैं।)λpqf()f(1)=0p(x)q(x)dxλ(dx)

हम ले कर KL को ठीक करते हैं । हम नर्क का अंतर f ( x ) = ( 1 - inger ) के माध्यम से प्राप्त कर सकते हैंf(x)=xlogxऔर हमेंf(x)= 1 लेनेसेकुल-भिन्नतायाL1दूरीमिलती हैf(x)=(1x)2L1। बाद वाला देता हैf(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

ध्यान दें कि यह अंतिम कम से कम आपको एक परिमित उत्तर देता है।

डेन्सिटी एस्टीमेशन: द व्यूL1 नामक एक और छोटी पुस्तक में , देवरोई अपने कई अच्छे इनविजिंस गुणों (दूसरों के बीच) के कारण इस बाद की दूरी के उपयोग के लिए दृढ़ता से तर्क देता है। यह बाद की पुस्तक शायद पूर्व की तुलना में पकड़ पाने के लिए थोड़ा कठिन है और जैसा कि शीर्षक से पता चलता है, थोड़ा और अधिक विशिष्ट है।


परिशिष्ट : इस प्रश्न के माध्यम से , मुझे पता चला कि ऐसा प्रतीत होता है कि माप @Didier का प्रस्ताव है (स्थिर तक) जेन्सन-शैनन डाइवर्जेंस के रूप में जाना जाता है। इस प्रश्न में प्रदान की जवाब देने के लिए लिंक का पालन करें, तो आप देखेंगे कि यह पता चला है कि इस मात्रा के वर्ग जड़ वास्तव में एक मीट्रिक है और पहले से साहित्य में मान्यता दी गई थी एक का एक विशेष मामला होने के लिए -divergence । मुझे यह दिलचस्प लगा कि इस प्रश्न की चर्चा के माध्यम से हमें सामूहिक रूप से "प्रबलित" पहिया (बल्कि जल्दी से) लगता है। @ डिडिएर की प्रतिक्रिया के नीचे टिप्पणी में मैंने जो व्याख्या दी, वह पहले भी मान्यता प्राप्त थी। चारों ओर, वास्तव में स्वच्छ की तरह।f


1
बहुत अच्छा! मैं "पैटर्न की पहचान का एक संभावित सिद्धांत" खोजने और इसके अध्याय 3 को समझने की कोशिश करने जा रहा हूं!
ऑसम

1
अच्छा जवाब, ध्यान दें कि सबसे अधिक बार को एक और तरीका परिभाषित किया गया है जो इसे आधा एल 1 दूरी बनाता है । DTVL1
रॉबिन जिरार्ड

1
@robin, आपकी टिप्पणी के लिए धन्यवाद। हां, मुझे इसका एहसास है। मैं सिर्फ एक गन्दा बाहरी स्थिर प्रदर्शनी में बचने की कोशिश कर रहा था। लेकिन, सख्ती से बोलना, आप सही हैं। मैंने उसी के अनुसार इसे अपडेट किया है।
कार्डिनल

3
आपकी जानकारी, मैं अब तक आँकड़ों पर चला गया सबसे उपयोगी जानकारी है। इसके लिए मेरा हार्दिक धन्यवाद। मैं यहां आपके द्वारा दिए गए संदर्भ को पुन: प्रस्तुत करता हूं: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/… एंड्रेस एंड शिंडेलिन, संभावना वितरण के लिए एक नया मीट्रिक, IEEE ट्रांस। जानकारी पर। तेरा। , वॉल्यूम। ४ ९, सं। 3, जुलाई 2003, पीपी। 1858-1860।
क्या

1
@ डीडियर, ठीक है, यह किसी भी अन्य चीज़ की तुलना में अधिक खुश दुर्घटना थी। कोई भी अन्य प्रश्न का जवाब नहीं दे रहा था, इसलिए मैंने यह पता लगाने की कोशिश की कि जेन्सन-शैनन डायवर्जेंस पहले स्थान पर क्या था। एक बार जब मुझे परिभाषा मिली, तो मुझे अपने परिशिष्ट के माध्यम से दो प्रश्नों को जोड़ना उचित लगा। मुझे खुशी है कि आपने इसे उपयोगी पाया। सादर।
कार्डिनल

19

Kullback-Leibler विचलन के पी के संबंध में प्रश्न अनंत है जब पी के संबंध में पूरी तरह से लगातार नहीं है क्यू , है कि, जब वहाँ एक औसत दर्जे का सेट मौजूद है एक ऐसी है कि क्यू ( ) = 0 और पी ( ) 0 । इसके अलावा केएल विचलन अर्थ में, सममित नहीं है कि सामान्य रूप में κ ( पी | क्यू ) κ ( क्यू |κ(P|Q)PQPQAQ(A)=0P(A)0 । याद रखें कि κ ( पी | क्यू ) = पी लॉग ( पीκ(PQ)κ(QP) इन दोनों कमियों में से एक रास्ता, अभी भी केएल विचलन के आधार पर, मिडपॉइंटआर=1को पेश करना है

κ(PQ)=Plog(PQ).
इस प्रकारRएक प्रायिकता मापक है, औरPऔरQहमेशाR केसंबंध में पूरी तरह से निरंतर हैं। इसलिए एक के बीच एक "दूरी" पर विचार कर सकतेपीऔरक्यू, अभी भी केएल विचलन लेकिन प्रयोग पर आधारितअनुसंधान, के रूप में परिभाषित η(पी,क्यू)=κ(पी|आर)+κ(क्यू|आर) तबη(पी
R=12(P+Q).
RPQRPQR
η(P,Q)=κ(PR)+κ(QR).
गैर नकारात्मक और हर के लिए परिमित है पी और क्यू , η अर्थों में सममित है कि η ( पी , क्यू ) = η ( क्यू , पी ) हर के लिए पी और क्यू , और η ( पी , क्यू ) = 0 iff पी = क्यूη(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q

एक बराबर तैयार है

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

परिशिष्ट 1 के मध्य की शुरूआत और क्यू अर्थ में मनमाने ढंग से नहीं है कि η ( पी , क्यू ) = मिनट [ κ ( पी | ) + κ ( क्यू | ) ] , जहां कम से कम के समूह के ऊपर है प्रायिकता के उपाय।PQ

η(P,Q)=min[κ(P)+κ(Q)],

परिशिष्ट 2 @cardinal टिप्पणी कि भी एक है -divergence, उत्तल समारोह के लिए ( एक्स ) = एक्स लॉग ( एक्स ) - ( 1 + x ) लॉग ( 1 + x ) + ( 1 + x ) लॉग ( 2 ) ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@ मर्को, @ डिडिएर पियाउ, यह ध्यान दिया जा सकता है कि @ डिडिएर का सुझाव डाइवरेजेशन का एक और विशेष मामला है जहां f ( x ) = x लॉग x - ( 1 + x ) लॉग ( 1 + x)ff(x)=xlogx(1+x)log(1+x2)
कार्डिनल

1
η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)

3
क्या यह सिर्फ जेनसेन-शैनन विचलन नहीं है?
मेमोरियल जूल


"जहां न्यूनतम संभावना उपायों के सेट पर है।" जेन्सेन-शैनन विचलन का यह लक्षण वर्णन मुझे पसंद है। क्या कहीं इसका प्रमाण है?
user76284

10

PQPQ

इसे केएल दूरी के "अनुकूलन" के रूप में चिह्नित करना कठिन है, लेकिन यह "प्राकृतिक" और परिमित होने की अन्य आवश्यकताओं को पूरा करता है।

R+[0,C]C


1
Kolmogorov दूरी के बारे में आपके सुझाव के लिए धन्यवाद। क्या आप मोनोटोनिक परिवर्तन के बारे में अपनी टिप्पणी थोड़ा स्पष्ट कर सकते हैं? Thx
ओकराम

1
arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0

1
हाँ, यही मेरा मतलब है :-) मुझे यकीन नहीं था कि क्या परिवर्तन लागू करना है। अब, यह स्पष्ट है, thx
ओकराम

1
arctanπ/2arctanπ/2+
क्या

@ डिडिएर हाँ, रूपांतरित केएल डाइवर्जेंस (जब सममिति, जैसा कि आप वर्णन करते हैं) त्रिकोण की असमानता को संतुष्ट नहीं कर सकते हैं और इसलिए यह दूरी नहीं होगी, लेकिन यह अभी भी एक टोपोलॉजी को परिभाषित करेगा (जो संभवतः मेट्रिजेबल होगा)। आप इस तरह से कम या कुछ भी नहीं देंगे। मैं इनमें से किसी को भी करने के गुण के बारे में अज्ञेय बना हुआ हूं: ऐसा लगता है कि यह पहली जगह केएल विचलन के अनंत मूल्यों से जुड़ी कठिनाइयों पर पैप करने का एक तरीका है।
whuber

2

PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

आंतरिक विसंगति (या बायेसियन संदर्भ मानदंड) की खोज आपको इस उपाय पर कुछ लेख देगी।

आपके मामले में, आप केएल-विचलन को ले जाएंगे जो परिमित है।

केएल का एक और वैकल्पिक उपाय हेलिंगर दूरी है

Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

P00limz0zlog(z)=0PQQ


1
PQPQ

1
हां ... मुझे डर है कि आंतरिक विसंगति आवश्यकता को पूरा नहीं करती है। लेकिन सुझाव के लिए धन्यवाद। किसी भी अन्य सुझाव की सराहना की जाएगी।
ओकराम

1
यह आवश्यकता को पूरा करता है, यदि आप नीले घनत्व के समर्थन को प्रतिबंधित करते हैं, जहां यह कड़ाई से सकारात्मक समर्थन है, जैसा कि आपके पास लाल एक (> 0) के लिए है
प्रायिकतालोगिक

3
PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP

2
P+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.