सहज रूप से, क्रॉस एन्ट्रापी दो प्रायिकता वितरण की दूरी का एक उपाय क्यों है?


11

दो असतत वितरण और , क्रॉस एन्ट्रॉपी को परिभाषित किया गया हैपीक्ष

एच(पी,क्ष)=-Σएक्सपी(एक्स)लॉगक्ष(एक्स)

मुझे आश्चर्य है कि यह दो प्रायिकता वितरण के बीच दूरी का एक सहज उपाय क्यों होगा?

मुझे लगता है कि के एन्ट्रापी है , की जो उपायों "आश्चर्य" । वह माप है जो आंशिक रूप से द्वारा को प्रतिस्थापित करता है । मुझे अभी भी परिभाषा के पीछे का सहज अर्थ समझ में नहीं आ रहा है।एच(पी,पी)पीपीएच(पी,क्ष)पीक्ष


1
मैं आपको मीट्रिक (और दूरी) की गणितीय परिभाषा देखने की सलाह देता हूं। आम तौर पर, उन गुणों का अनुसरण करना एक न्यूनतम बात है जिसे एक समारोह का पालन करना चाहिए क्योंकि यह एक दूरी है। आशा है ये मदद करेगा। हालाँकि यह । वास्तव में, केएल विचलन का एक हिस्सा है, क्योंकि इसके एक समारोह के बाद से, मैं इसे पी और q आवर्धन पी द्वारा ऑफसेट ऑफसेट के प्रकार की मान लेंगे। हालांकि, यह सिर्फ एक अनुमान है। इसके अलावा, विचलन एक मीट्रिक / दूरी नहीं है इसलिए मुझे आश्चर्य होगा कि क्रॉस एंट्रॉपी है। एच(पी,क्ष)=एच(पी)+डीएल(पी||क्ष)
चार्ली पार्कर

तब Kullback_leibler विचलन को समझना क्रॉस एन्ट्रापी को समझने में मदद करता है: आंकड़े.stackexchange.com/questions/188903/…
kjetil b halvorsen

1
यहाँ एक शानदार वीडियो स्पष्ट और सरल तरीके से KL Divergence समझा रहा है: youtube.com/watch?v=ErfnhcEV1O8
कैथरीन चेन

देखें कि क्या यह "क्रॉस एन्ट्रॉपी के पीछे अंतर्ज्ञान" में मदद करता है: medium.com/@siddharth.4oct/…
सिद्धार्थ रॉय

जवाबों:


6

क्रॉस एन्ट्रापी को न्यूनतम करना अक्सर जेनरिक मॉडल में एक सीखने के उद्देश्य के रूप में उपयोग किया जाता है जहां पी सच वितरण है और क्यू सीखा वितरण है।

P और q का क्रॉस एन्ट्रापी, p और q के बीच KL प्लस के k के विचलन p के एन्ट्रापी के बराबर है।

एच(पी,क्ष)=एच(पी)+डीएल(पी||क्ष)

आप को एक स्थिर मान सकते हैं क्योंकि पी सीधे प्रशिक्षण डेटा से आता है और मॉडल द्वारा सीखा नहीं जाता है। तो, केवल KL विचलन शब्द ही महत्वपूर्ण है। केएल विचलन के लिए प्रेरणा वितरण के बीच की दूरी के रूप में प्रेरणा यह है कि यह आपको बताता है कि सन्निकटन क्यू के बजाय वितरण पी का उपयोग करके सूचना के कितने बिट प्राप्त किए जाते हैं।एच(पी)पी

ध्यान दें कि केएल विचलन उचित दूरी की मीट्रिक नहीं है। एक बात के लिए, यह पी और क्यू में सममित नहीं है। यदि आपको संभाव्यता वितरण के लिए दूरी मीट्रिक की आवश्यकता है तो आपको कुछ और उपयोग करना होगा। लेकिन, यदि आप अनौपचारिक रूप से "दूरी" शब्द का उपयोग कर रहे हैं तो आप केएल विचलन का उपयोग कर सकते हैं।


1
आप पी को एक स्थिर क्यों मान सकते हैं? आप क्या सीख रहे हैं"? क्यू? मूल प्रश्न ने सीखने के बारे में कुछ नहीं कहा, इसलिए मैं बेहतर तरीके से समझने का इच्छुक हूँ कि आपका क्या मतलब है
चार्ली पार्कर

2
इसे और अधिक स्पष्ट करने के लिए इसे संपादित किया। p वह वितरण है जो प्रशिक्षण डेटा से आता है और q मॉडल द्वारा सीखा जाता है।
हारून
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.