संभावना वितरण एक समान होने पर एन्ट्रॉपी को अधिकतम क्यों किया जाता है?


32

मुझे पता है कि एन्ट्रापी एक प्रक्रिया / चर की यादृच्छिकता का माप है और इसे निम्नानुसार परिभाषित किया जा सकता है। रैंडम वेरिएबल सेट : - । मैकाय द्वारा एंट्रॉपी एंड इंफॉर्मेशन थ्योरी की पुस्तक में, वह Ch2 में यह कथन प्रदान करता हैXAH(X)=xiAp(xi)log(p(xi))

यदि पी एकरूप है तो एन्ट्रापी को अधिकतम किया जाता है।

सहज रूप से, मैं इसे समझने में सक्षम हूं, जैसे अगर सेट में सभी डेटा पॉइंट समान संभावना ( सेट की कार्डिनैलिटी) के साथ उठाए जाते हैं , तो यादृच्छिकता या एन्ट्रापी बढ़ जाती है। लेकिन अगर हम जानते हैं कि सेट में कुछ बिंदु दूसरों की तुलना में अधिक संभावना के साथ होने वाले हैं (सामान्य वितरण के मामले में, जहां डेटा बिंदुओं की अधिकतम एकाग्रता औसत और छोटे मानक विचलन क्षेत्र के आसपास होती है, तो यादृच्छिकता या एन्ट्रापी में कमी होनी चाहिए।A1/mmAA

लेकिन क्या इसके लिए कोई गणितीय प्रमाण है? लिए समीकरण की तरह मैं इसे संबंध में अंतर करता हूं और इसे 0 या कुछ इस तरह सेट करता हूं ।H(X)p(x)

एक तरफ ध्यान दें, क्या सूचना सिद्धांत और रसायन विज्ञान (ऊष्मप्रवैगिकी) में एन्ट्रापी गणना के बीच एन्ट्रापी के बीच कोई संबंध है?


2
इस सवाल का जवाब है (पास करने में ) ysts.stackexchange.com/a/49174/919 पर
व्हिबर

मैं क्रिस्टोफर बिशप की किताब में दिए गए एक अन्य बयान से काफी भ्रमित हो रहा हूं, जिसमें कहा गया है कि "एक एकल वास्तविक चर के लिए, जो एन्ट्रापी को अधिकतम करता है वह वितरण गॉसियन है।" इसमें यह भी कहा गया है कि "किसी दिए गए सहसंयोजक के लिए अधिक से अधिक इम्युन एन्ट्रापी के साथ बहुभिन्नरूपी वितरण, एक गाऊसी है"। यह कथन कैसे मान्य है? वर्दी वितरण की एन्ट्रापी हमेशा अधिकतम नहीं होती है?
user76170

6
अधिकतमकरण को हमेशा संभव समाधान पर बाधाओं के अधीन किया जाता है। जब बाधाएं होती हैं कि सभी संभावनाएं पूर्वनिर्धारित सीमाओं से परे गायब हो जानी चाहिए, तो अधिकतम एन्ट्रापी समाधान एक समान है। जब बाधाओं के बजाय उम्मीद और विचरण को पूर्वनिर्धारित मूल्यों के बराबर होना चाहिए, तो एमई समाधान गाऊसी है। आपके द्वारा उद्धृत बयान विशेष संदर्भों के भीतर किए गए होंगे जहां इन बाधाओं को कहा गया था या कम से कम अंतर्निहित रूप से समझा गया था।
whuber

2
मुझे शायद यह भी उल्लेख करना चाहिए कि शब्द "एन्ट्रॉपी" का मतलब है कि गॉसियन सेटिंग में कुछ अलग है जो कि यहां मूल प्रश्न में है, इसके लिए हम निरंतर वितरण के एन्ट्रॉपी पर चर्चा कर रहे हैं । यह "अंतर एन्ट्रापी" असतत वितरण के एन्ट्रापी की तुलना में एक अलग जानवर है। मुख्य अंतर यह है कि चर के परिवर्तन के तहत अंतर एन्ट्रापी अपरिवर्तनीय नहीं है।
whuber

तो इसका मतलब है कि अधिकतमकरण हमेशा बाधाओं के संबंध में है? अगर कोई अड़चन न हो तो क्या होगा? मेरा मतलब है, इस तरह से एक सवाल नहीं हो सकता? किस संभावना वितरण में अधिकतम एन्ट्रापी है?
user76170

जवाबों:


25

स्वाभाविक रूप से, पर प्रायिकता घनत्व कार्य करता है , {x1,x2,..,.xn}अधिकतम एन्ट्रापी के साथ x n } वह निकलता है जो के ज्ञान की कम से कम मात्रा से मेल खाता है , x n }{x1,x2,..,.xn} , दूसरे शब्दों में समान वितरण।

अब, अधिक औपचारिक प्रमाण के लिए निम्नलिखित पर विचार करें:

पर एक प्रायिकता घनत्व फ़ंक्शन , x n }{x1,x2,..,.xn} नॉनगेटिव रियल नंबर का एक सेट है , पी एनp1,...,pn कि 1. Entropy को जोड़ने की एक सतत समारोह है n -tuples (p1,...,pn) , और इन बिंदुओं में से एक कॉम्पैक्ट सबसेट में झूठ Rn , तो एक है n-टुपल जहां एन्ट्रापी को अधिकतम किया जाता है। हम इस पर होता है दिखाना चाहते हैं और कहीं नहीं।(1/n,...,1/n)

मान लीजिए सभी समान नहीं हैं, तो p 1 < p 2 कहें । (जाहिर है n 1 ।) हम उच्च एन्ट्रापी के साथ एक नया प्रायिकता घनत्व मिल जाएगा। यह तो इस प्रकार के बाद से एन्ट्रापी कुछ पर बड़ा किया गया है, एन , -tuple कि एन्ट्रापी विशिष्ट पर बड़ा किया गया है n के साथ -tuple पी मैं = 1 / n सभी के लिए मैंpjp1<p2n1nnपीमैं=1/nमैं

के बाद से छोटे सकारात्मक के लिए, ε हम पी 1 + ε < पी 2 - ε । की एन्ट्रापी { पी 1 + ε , पी 2 - ε , पी 3 , , p n } { p 1 , p 2 , p 3 , की एन्ट्रापी माइनस , पीपी1<पी2εपी1+ε<पी2-ε{p1+ε,p2ε,p3,...,pn} बराबर{p1,p2,p3,...,pn}

प्रमाण पूरा करने के लिए, हम इस छोटे से पर्याप्त के लिए सकारात्मक है दिखाना चाहते हैंε। के रूप में उपरोक्त समीकरण पुनर्लेखन -पी1लॉग(1+ε

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

कि याद करते हुए छोटे के लिए एक्स , उपरोक्त समीकरण है - ε - ε लॉग पी 1 + ε + ε लॉग पी 2 + हे ( ε 2 ) = ε लॉग ( पी 2 / पी 1 ) + हे ( ε 2 ) जो सकारात्मक जब हैlog(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
के बाद से छोटे पर्याप्त है पी 1 < पी 2εp1<p2

एक कम कठोर प्रमाण निम्नलिखित है:

पहले निम्नांकित पर विचार करें:

चलो और क्यू ( एक्स ) को एक अंतराल पर निरंतर प्रायिकता घनत्व कार्यों हो मैं वास्तविक संख्या में, साथ पी 0 और क्ष > 0 पर मैं । हम - मैं पी लोग इन पी डी एक्स - मैं पी लॉग क्ष एक्स अगर दोनों अभिन्न मौजूद हैं। इसके अलावा, समानता है अगर और केवल अगर p ( x ) = q (p(x)q(x)Ip0q>0I

IplogpdxIplogqdx
सभी x के लिएp(x)=q(x)x

अब, को किसी भी प्रायिकता घनत्व फ़ंक्शन { x 1 , पर दें , x n } , p i = p ( x i ) के साथ । दे क्ष मैं = 1 / n सभी के लिए मैं , - एन Σ मैं = 1 पी मैं लोग इन क्ष मैं = n Σ मैं = 1 पी मैं लॉग इन करें n =p{एक्स1,,एक्सn}पीमैं=पी(एक्समैं)क्षमैं=1/nमैं जो कि q की एन्ट्रॉपी है। इसलिए हमारे लेम्मा कहते हैं( पी ) ( क्ष ) , समानता यदि और केवल यदि साथ पी एक समान है।

-Σमैं=1nपीमैंलॉगक्षमैं=Σमैं=1nपीमैंलॉगn=लॉगn
क्ष(पी)(क्ष)पी

इसके अलावा, विकिपीडिया की इस पर एक संक्षिप्त चर्चा है: विकी


11
मैं एक प्राथमिक (पथरी-मुक्त) प्रमाण प्रस्तुत करने के प्रयास की प्रशंसा करता हूं। एक कठोर एक पंक्ति का प्रदर्शन माध्यम से उपलब्ध है भारित AM-जीएम असमानता है कि ध्यान देने योग्य बात से = Π ( 1exp(एच)समानता रखने के साथ iff सभी1/piबराबर हैं, QED। Π(1पीमैं)पीमैंΣपीमैं1पीमैं=n1/पीमैं
whuber

मुझे समझ नहीं आता कैसे के बराबर हो सकता है लोग इन एनlognlogn
user1603472

4
@ user1603472 आप मतलब है ? इसकी वजह से n Σ मैं = 1 पी मैं लॉग इन करें n = लॉग ऑन एन एन Σ मैं = 1 पी मैं = लॉग n × 1Σमैं=1nपीमैंलॉगn=लॉगnΣमैं=1nपीमैंलॉगn=लॉगnΣमैं=1nपीमैं=लॉगn×1
HBeel

@ रोलैंड मैंने राशि के बाहर खींचा क्योंकि यह i पर निर्भर नहीं है । तब योग 1 के बराबर होता है क्योंकि p 1 , , p n प्रायिकता द्रव्यमान फलन के घनत्व होते हैं। लॉगnमैं1पी1,...,पीn
HBeel

अधिक विवरण के साथ एक ही स्पष्टीकरण यहां पाया जा सकता है: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
रोलैंड

14

भौतिकी और सूचना सिद्धांत में एन्ट्रापी असंबंधित नहीं हैं। वे नाम से अधिक भिन्न हैं, फिर भी उनके बीच स्पष्ट रूप से एक कड़ी है। एंट्रोपी मीट्रिक का उद्देश्य सूचना की मात्रा को मापना है। ग्राफ के साथ मेरा जवाब देखें कि एक समान आकार में एक समान वितरण से एंट्रॉपी कैसे बदलती है।

एक समान वितरण के लिए एन्ट्रॉपी को अधिकतम करने का कारण यह है कि यह ऐसा डिजाइन किया गया था! हां, हम जानकारी की कमी के लिए एक उपाय का निर्माण कर रहे हैं, इसलिए हम कम से कम सूचनात्मक वितरण के लिए इसके उच्चतम मूल्य को असाइन करना चाहते हैं।

उदाहरण। मैंने आपसे पूछा " यार, मेरी कार कहाँ है ?" आपका जवाब "यह संयुक्त राज्य अमेरिका में अटलांटिक और प्रशांत महासागरों के बीच कहीं है।" यह समान वितरण का एक उदाहरण है। मेरी कार अमरीका में कहीं भी हो सकती है। मुझे इस उत्तर से ज्यादा जानकारी नहीं मिली।

हालाँकि, अगर आपने मुझे बताया कि "मैंने आपकी कार को एक घंटे पहले वाशिंगटन, डीसी से रूट 66 पर देखा था" - यह अब एक समान वितरण नहीं है। लॉस एंजिल्स के आसपास कहीं भी, कार की डीसी से 60 मील की दूरी पर होने की अधिक संभावना है। यहाँ स्पष्ट रूप से अधिक जानकारी है।

इसलिए, हमारे उपाय में पहले उत्तर के लिए उच्च एन्ट्रापी और दूसरे के लिए कम एक होना चाहिए। वर्दी कम से कम जानकारीपूर्ण वितरण होनी चाहिए, यह मूल रूप से "मुझे कोई पता नहीं है" उत्तर है।


7

गणितीय तर्क अवतल कार्यों के लिए जेनसन असमानता पर आधारित है। वह है, अगर(एक्स) एक अवतल कार्य है [,] तथा y1,...yn में बिंदु हैं [,], फिर: n(y1+...ynn)(y1)+...+(yn)

अवतल फ़ंक्शन के लिए इसे लागू करें (एक्स)=-एक्सलॉग(एक्स) और जेन्सन असमानता के लिए yमैं=पी(एक्समैं)और आपके पास सबूत है। ध्यान दें किपी(एक्समैं) असतत संभाव्यता वितरण को परिभाषित करें, इसलिए उनका योग 1. वह है जो आपको मिलता है एलजी(n)Σमैं=1n-पी(एक्समैं)एलजी(पी(एक्समैं)), समान वितरण के लिए समानता के साथ।


1
मुझे वास्तव में जेन्सन की असमानता का प्रमाण एएम-जीएम एक की तुलना में बहुत गहरा सबूत है।
केसबश

4

एक तरफ ध्यान दें, क्या सूचना सिद्धांत और रसायन विज्ञान (ऊष्मप्रवैगिकी) में एन्ट्रापी गणना के बीच एन्ट्रापी के बीच कोई संबंध है?

हाँ वहाँ है! आप जेन्स और कई अन्य लोगों के काम को देख सकते हैं (जैसे कि यहां और यहां , उदाहरण के लिए)।

लेकिन मुख्य विचार यह है कि सांख्यिकीय यांत्रिकी (और विज्ञान के अन्य क्षेत्रों में भी) को हम दुनिया के बारे में अनुमान के रूप में देखा जा सकता है

एक और पढ़ने के रूप में मैं इस विषय पर एरियल कैटिचा की पुस्तक की सिफारिश करूंगा


1

एक सहज व्याख्या:

यदि हम एक यादृच्छिक चर की एक घटना में अधिक संभावना द्रव्यमान डालते हैं, तो हमें कुछ अन्य घटनाओं से दूर ले जाना होगा। एक में कम सूचना सामग्री और अधिक वजन होगा, अन्य में अधिक जानकारी सामग्री और कम वजन होगा। इसलिए, अपेक्षित सूचना सामग्री एंट्रोपी नीचे चली जाएगी क्योंकि कम सूचना सामग्री वाली घटना अधिक भारित होगी।

एक चरम मामले के रूप में एक घटना की कल्पना लगभग एक की संभावना हो रही है, इसलिए अन्य घटनाओं में लगभग शून्य की संयुक्त संभावना होगी और एन्ट्रापी बहुत कम होगी।


0

मुख्य विचार: प्रत्येक का आंशिक व्युत्पन्न लेना पीमैं, उन सभी को शून्य पर सेट करें, रैखिक समीकरणों की प्रणाली को हल करें।

का एक परिमित संख्या लें पीमैं कहा पे मैं=1,,nएक उदाहरण के लिए। निरूपितक्ष=1-Σमैं=0n-1पीमैं

एच=-Σमैं=0n-1पीमैंलॉगपीमैं-(1-क्ष)लॉगक्षएच*ln2=-Σमैं=0n-1पीमैंlnपीमैं-(1-क्ष)lnक्ष
एचपीमैं=lnक्षपीमैं=0
फिर क्ष=पीमैं हर एक के लिए मैं, अर्थात, पी1=पी2==पीn


मुझे खुशी है कि आपने बताया कि यह "मुख्य विचार" है, क्योंकि यह केवल विश्लेषण का एक हिस्सा है। दूसरा हिस्सा - जो सहज नहीं हो सकता है और वास्तव में थोड़ा पेचीदा है - यह सत्यापित करना है कि एक या एक से अधिक के रूप में एन्ट्रापी के व्यवहार का अध्ययन करके एक वैश्विक न्यूनतम हैपीमैं सिकुड़ता शून्य।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.