क्रॉस वैलिडेट के बहुत फंसने के बाद, मुझे अभी भी ऐसा नहीं लगता है कि मैं सूचना सिद्धांत के दायरे से बाहर केएल विचलन को समझने के करीब हूं। यह एक मैथ पृष्ठभूमि के साथ किसी के रूप में अजीब है, क्योंकि सूचना सिद्धांत की व्याख्या को समझना बहुत आसान है।
एक सूचना सिद्धांत पृष्ठभूमि से मेरी समझ को रेखांकित करने के लिए: यदि हमारे पास परिणामों की सीमित संख्या के साथ एक यादृच्छिक चर है, तो एक इष्टतम एन्कोडिंग मौजूद है जो हमें किसी अन्य व्यक्ति के साथ परिणाम को कम से कम औसत संदेश के साथ संवाद करने की अनुमति देता है (मुझे यह सबसे आसान लगता है बिट्स के संदर्भ में चित्र)। संदेश की अपेक्षित लंबाई जिसे संवाद करने के लिए परिणाम की आवश्यकता होगी यदि इष्टतम एन्कोडिंग का उपयोग किया जाता है। यदि आप एक उप इष्टतम एन्कोडिंग का उपयोग करने के लिए थे, तो केएल विचलन हमें औसत रूप से बताता है कि हमारा संदेश कितना लंबा होगा।
मुझे यह स्पष्टीकरण पसंद है, क्योंकि यह काफी सहज ज्ञान युक्त केएल विचलन के विषमता से संबंधित है। अगर हमारे पास दो अलग-अलग सिस्टम हैं, यानी दो लोड किए गए सिक्के जो अलग-अलग लोड किए गए हैं, तो उनके पास अलग-अलग इष्टतम एनकोडिंग होंगे। मैं किसी भी तरह सहज रूप से महसूस नहीं करता कि दूसरे के लिए पहले सिस्टम के एन्कोडिंग का उपयोग करने के लिए पहले के लिए दूसरे सिस्टम के एन्कोडिंग का उपयोग करना "उतना ही बुरा है"। मैंने खुद को कैसे आश्वस्त किया, इस विचार प्रक्रिया से गुजरे बिना, मैं अब काफी खुश हूं कि आपको यह "अतिरिक्त अपेक्षित संदेश लंबाई" देता है, जब लिए की एन्कोडिंग का उपयोग किया जाता है ।
हालांकि, विकिपीडिया सहित केएल विचलन की अधिकांश परिभाषाएँ तब बयान करते हैं (इसे असतत शब्दों में रखते हैं ताकि इसकी तुलना सूचना सिद्धांत व्याख्या से की जा सके जो असतत शब्दों में बेहतर काम करती है क्योंकि बिट्स असतत हैं) यदि हमारे पास दो असततता है वितरण, तो केएल कुछ मीट्रिक प्रदान करता है "वे कितने अलग हैं"। मुझे अभी तक एक भी स्पष्टीकरण नहीं देखना है कि ये दोनों अवधारणाएं कैसे संबंधित हैं। मुझे लगता है कि उनकी पुस्तक को निष्कर्ष पर याद किया जा रहा है, डेव मैके ने डेटा कम्प्रेशन और अनुमान के बारे में मूल रूप से एक ही बात की है, और मुझे संदेह है कि मेरा प्रश्न वास्तव में इस से संबंधित है।
चाहे वह ऐसा हो या न हो, मेरे मन में जिस तरह का सवाल है, वह अनुमान की समस्याओं के आसपास है। (चीजों को असतत रखते हुए), अगर हमारे पास दो रेडियोधर्मी नमूने हैं, और हम जानते हैं कि उनमें से एक ज्ञात रेडियोधर्मिता के साथ एक निश्चित सामग्री है (यह संदिग्ध भौतिकी है लेकिन चलो ब्रह्मांड की तरह काम करने का दिखावा करते हैं) और इस प्रकार हम जानते हैं "सही वितरण" रेडियोधर्मी क्लिकों को हमें मापना चाहिए जिसे ज्ञात साथ काव्यमय होना चाहिए , क्या यह दोनों नमूनों के लिए एक अनुभवजन्य वितरण का निर्माण करने के लिए उचित है और ज्ञात वितरण के लिए उनके KL divergences की तुलना करें और कहें कि कम उस सामग्री के होने की अधिक संभावना है?
संदिग्ध भौतिकी से दूर जाना, अगर मुझे पता है कि दो नमूने एक ही वितरण से खींचे गए हैं, लेकिन मुझे पता है कि वे बेतरतीब ढंग से चयनित नहीं हैं, तो उनके KL divergences की तुलना ज्ञात से करेंगे, वैश्विक वितरण मुझे "कैसे पक्षपाती" नमूने के लिए एक एहसास देता है। , वैसे भी एक और अन्य के सापेक्ष?
और अंत में, यदि पिछले प्रश्नों का उत्तर हां है, तो क्यों? क्या सूचना सिद्धांत के बिना किसी (संभवत: दसवां) कनेक्शन किए बिना एक सांख्यिकीय दृष्टिकोण से इन बातों को समझना संभव है?