केएल विचलन के बारे में प्रश्न?


14

मैं केएल विचलन के साथ दो वितरणों की तुलना कर रहा हूं जो मुझे एक गैर-मानकीकृत संख्या देता है जो कि इस माप के बारे में मैंने जो पढ़ा है, उसके अनुसार एक हाइपोथीसिस को दूसरे में बदलने के लिए आवश्यक जानकारी की मात्रा है। मेरे दो सवाल हैं:

क) क्या केएल विचलन की मात्रा निर्धारित करने का एक तरीका है ताकि इसकी अधिक सार्थक व्याख्या हो, जैसे कि एक प्रभाव आकार या आर ^ 2? मानकीकरण का कोई रूप?

बी) आर में, जब KLdiv (फ्लेक्समिक्स पैकेज) का उपयोग करके कोई 'esp' मान (मानक esp = 1e-4) सेट कर सकता है, जो संख्यात्मक स्थिरता प्रदान करने के लिए सभी बिंदुओं को कुछ मानक से छोटे सेट करता है। मैं अलग-अलग जासूसी मूल्यों के साथ खेल रहा हूं और अपने डेटा सेट के लिए, मैं जितनी तेजी से केएल विचलन बढ़ा रहा हूं, उतनी ही छोटी संख्या मुझे मिल रही है। क्या हो रहा है? मैं उम्मीद करूंगा कि जितने छोटे एस्प, उतना ही विश्वसनीय परिणाम होना चाहिए क्योंकि वे अधिक 'वास्तविक मूल्यों' को सांख्यिकीय का हिस्सा बनाते हैं। नहीं? मुझे एस्प को बदलना होगा क्योंकि यह आँकड़ों की गणना नहीं करता है लेकिन परिणाम तालिका में एनए के रूप में दिखाता है ...

जवाबों:


10

मान लीजिए कि आपको p या q द्वारा उत्पन्न n IID नमूने दिए गए हैं। आप पहचानना चाहते हैं कि किस वितरण ने उन्हें उत्पन्न किया। शून्य परिकल्पना के रूप में लें कि वे क्यू द्वारा उत्पन्न किए गए थे। टाइप I त्रुटि की संभावना को इंगित करते हैं, गलती से अशक्त परिकल्पना को खारिज करते हैं, और बी टाइप II त्रुटि की संभावना को इंगित करते हैं।

फिर बड़े एन के लिए, टाइप I त्रुटि की संभावना कम से कम है

exp(nKL(p,q))

दूसरे शब्दों में, "इष्टतम" निर्णय प्रक्रिया के लिए, टाइप I की संभावना प्रत्येक डेटापॉइंट के साथ EXP (KL (p, q)) के एक कारक द्वारा सबसे अधिक होती है। प्रकार द्वितीय त्रुटि के पहलू से गिर जाता है ज्यादा से ज्यादा।exp(KL(q,p))

मनमानी एन के लिए, ए और बी निम्नानुसार हैं

blogb1a+(1b)log1banKL(p,q)

तथा

aloga1b+(1a)log1abnKL(q,p)

यदि हम b और KL के संदर्भ में निम्न बाउंड के रूप में बाउंड को व्यक्त करते हैं और b से 0 में कमी करते हैं, तो परिणाम छोटे n के लिए भी "exp (-n KL (q, p))" से जुड़ा हुआ प्रतीत होता है

यहाँ पृष्ठ 10 पर और अधिक विवरण , और कुल्लबैक के "सूचना सिद्धांत और सांख्यिकी" (1978) के पृष्ठ 74-77।

एक साइड नोट के रूप में, इस व्याख्या का उपयोग फिशर सूचना मीट्रिक को प्रेरित करने के लिए किया जा सकता है , क्योंकि वितरण पी के किसी भी जोड़े के लिए, एक दूसरे से फिशर की दूरी पर q (q) एक दूसरे से (छोटी k) आपको उन्हें बताने के लिए समान टिप्पणियों की आवश्यकता होती है


1
+1 मुझे यह व्याख्या पसंद है! क्या आप "ई के नीचे p" को स्पष्ट कर सकते हैं? आप छोटा ई क्यों लेते हैं? आप कहते हैं "विपरीत गलती करने की संभावना है" यह एक ऊपरी बाध्य या सटीक संभावना है? अगर मुझे याद है, इस प्रकार का दृष्टिकोण चेरनॉफ के कारण है, तो क्या आपके पास संदर्भ हैं (मुझे लगता है कि आपका पहला संदर्भ बिंदु को स्पष्ट नहीं कर रहा है :))?
रॉबिन जिरार्ड

1
मैं छोटा ई क्यों लेता हूं ... हम्म ... यही कि बालासुब्रमण्यन का पेपर हुआ, लेकिन अब, कुल्बैक वापस जा रहा है, ऐसा लगता है कि किसी भी ई के लिए उसकी बाध्यता है, और वह परिमित एन के लिए बाध्य भी करता है, मुझे जवाब अपडेट करने दें
यारोस्लाव बुलटोव

ठीक है, हमें छोटे ई की जरूरत नहीं है (जिसे अब बी कहा जाता है, टाइप II त्रुटि) जो धारण करने के लिए छोटा हो, लेकिन b = 0 वह मान है जिसके लिए सरलीकृत (exp -n KL (p, q)) बाध्य है ऊपर और अधिक जटिल बाध्यता से मेल खाता है। उत्सुकता से पर्याप्त, टाइप I त्रुटि के लिए निम्न बाउंड 0 प्रकार II त्रुटि दी गई है <1, मुझे आश्चर्य है कि अगर <1 प्रकार II त्रुटि दर वास्तव में प्राप्त करने योग्य है
यारोस्लाव बुलटोव

1
वास्तव में इसके लिए संदर्भ समझने में बहुत आसान है कवर की "सूचना सिद्धांत के तत्व", पृष्ठ 309, 12.8 "स्टीन का लेम्मा"
यारोस्लाव बुलटोव

8

केएल का एक गहरा अर्थ है जब आप फिशर मेट्रिक टेंसर के भीतर कई गुना अधिक दांतों के एक सेट की कल्पना करते हैं , यह दो "करीब" वितरणों के बीच जियोडेसिक दूरी देता है। औपचारिक रूप से:

ds2=2KL(p(x,θ),p(x,θ+dθ))

निम्नलिखित लाइनें इस विवरण के साथ समझाने के लिए हैं कि इस लास गणितीय सूत्रों का क्या मतलब है।

फिशर मीट्रिक की परिभाषा।

D=(f(x,θ))RnxRpF=(Fij)

Fij=E[d(logf(x,θ))/dθid(logf(x,θ))/dθj]

DF(θ)

आप कह सकते हैं ... ठीक है गणितीय अमूर्त लेकिन केएल कहाँ है?

p=1F11

ds2p(x,θ)p(x,θ+dθ)

ds2=Fijdθidθj

और यह कुल्बैक लीब्लर डाइवर्जेशन से दोगुना माना जाता है:

ds2=2KL(p(x,θ),p(x,θ+dθ))

यदि आप इस बारे में अधिक जानना चाहते हैं कि मैं अमारी से पेपर पढ़ने का सुझाव देता हूं http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/11345779 (मुझे लगता है कि अमारी के बारे में एक किताब भी है सांख्यिकी में रीमैनियन ज्यामिति लेकिन मुझे नाम याद नहीं है)


कृपया अपने LaTeX के आसपास $ जोड़ें। अब इसे ठीक किया जाना चाहिए। Meta.math.stackexchange.com/questions/2/…
Rob

1
चूंकि मैं गणितज्ञ नहीं हूं और न ही एक सांख्यिकीविद्, इसलिए मैं यह सुनिश्चित करना चाहूंगा कि आप जो कह रहे थे उसे सुनिश्चित करने के लिए मैं गलत नहीं समझ रहा था। तो, आप कह रहे हैं कि ds ^ 2 (KL से दोगुना) का सामान्य वितरण के लिए R ^ 2 (प्रतिगमन मॉडल में) के समान अर्थ होगा। और यह कि यह वास्तव में ज्यामितीय रूप से दूरी निर्धारित करने के लिए इस्तेमाल किया जा सकता है? क्या ds ^ 2 का कोई नाम है तो मैं इस बारे में और अधिक पढ़ सकता हूं। क्या कोई कागज है जो सीधे इस मीट्रिक का वर्णन करता है और एप्लिकेशन और उदाहरण दिखाता है?
एम्पलफर्थ

मुझे लगता है कि आप इस बिंदु को समझने से बहुत दूर हैं, और मुझे यकीन नहीं है कि आपको अब आगे जाने की कोशिश करनी चाहिए। यदि आप प्रेरित हैं, तो आप ब्रैडली एफ्रोन I से पेपर पढ़ सकते हैं या अमारी प्रोजेक्टेयूक्लाइड.ऑर्ग से यह पेपर पढ़ सकते हैं ।
रॉबिन जिरार्ड

1
इस बल्कि केएल ही की तुलना में केएल की दिशात्मक व्युत्पन्न का एक लक्षण वर्णन हो रहा है, और यह क्योंकि व्युत्पन्न, KL-विचलन कई गुना की ज्यामिति पर निर्भर नहीं करता विपरीत इससे बाहर केएल विचलन प्राप्त करना संभव प्रतीत नहीं होता है
यारोस्लाव बुलटोव

7

वितरण p (।) और q (।) के बीच केएल (p, q) विचलन में एक सहज ज्ञान युक्त सूचना सिद्धांत है जो आपको उपयोगी लग सकता है।

मान लें कि हम कुछ संभाव्यता वितरण p (।) द्वारा उत्पन्न डेटा x का निरीक्षण करते हैं। P (।) द्वारा उत्पन्न डेटा को बताने के लिए आवश्यक बिट्स में औसत कोडेलम पर एक नीच पी के एन्ट्रॉप (?) द्वारा दिया गया है।

अब, चूँकि हम p (।) को नहीं जानते हैं, इसलिए हम डेटा को एनकोड करने (या वर्णन, स्थिति) के लिए एक और वितरण कहते हैं, q (।)। P (।) द्वारा उत्पन्न डेटा का औसत कोडेलोमीटर और q (।) का उपयोग करके एन्कोड किया गया आवश्यक होगा यदि कोडिंग के लिए सही वितरण p (।) का उपयोग किया गया था। केएल डाइवर्जेंस हमें इस वैकल्पिक कोड की अक्षमताओं के बारे में बताता है। दूसरे शब्दों में, p (।) और q (।) के बीच केएल विचलन कोडिंग वितरण q (।) का उपयोग करके p (।) द्वारा उत्पन्न डेटा को एन्कोड करने के लिए आवश्यक अतिरिक्त बिट्स की औसत संख्या है । KL विचलन गैर-ऋणात्मक है और शून्य के बराबर है यदि वास्तविक डेटा जनरेट करने के लिए वितरण का उपयोग डेटा को एनकोड करने के लिए किया जाता है।


2

आपके प्रश्न के भाग (b) के लिए, आप इस समस्या में भाग रहे होंगे कि आपके वितरण में एक क्षेत्र में घनत्व है जहाँ दूसरा नहीं करता है।

D(PQ)=pilnpiqi

ipi>0qi=0qi=0qi

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.