परिकल्पना परीक्षण और कुल भिन्नता बनाम कुल्बैक-लिबलर विचलन


10

अपने शोध में मैंने निम्नलिखित सामान्य समस्या में भाग लिया है: मेरे पास दो वितरण और एक ही डोमेन पर हैं, और उन वितरणों से नमूनों की एक बड़ी (लेकिन परिमित) संख्या है। नमूने स्वतंत्र रूप से और जानबूझकर इन दो वितरणों में से एक से वितरित किए जाते हैं (हालांकि वितरण संबंधित हो सकते हैं: उदाहरण के लिए, और कुछ अन्य वितरण का मिश्रण हो सकता है ।) शून्य परिकल्पना यह है कि नमूने से आते हैं , वैकल्पिक परिकल्पना है। नमूने से आते हैं ।क्यू क्यू पी पी क्यूPQQPPQ

मैं वितरण और जानते हुए, नमूने के परीक्षण में टाइप I और टाइप II त्रुटियों को चिह्नित करने की कोशिश कर रहा हूं । विशेष रूप से, मुझे और के ज्ञान के अलावा, एक और दी गई एक त्रुटि को बांधने में दिलचस्पी है ।क्यू पी क्यूPQPQ

मैंने गणित पर एक प्रश्न पूछा है। और बीच कुल भिन्नता के संबंध के बारे में परिकल्पना परीक्षण के लिए, और मुझे उत्तर मिला कि मैंने स्वीकार कर लिया है। यह उत्तर समझ में आता है, लेकिन मैं अभी भी अपने मन को कुल भिन्नता दूरी और परिकल्पना परीक्षण के संबंध के पीछे गहरे अर्थ में लपेट नहीं पा रहा हूं क्योंकि यह मेरी समस्या से संबंधित है। इस प्रकार, मैंने इस मंच की ओर मुड़ने का फैसला किया।क्यूPQ

मेरा पहला प्रश्न है: क्या कुल भिन्नता टाइप I और टाइप II त्रुटियों की संभावनाओं के योग पर आधारित है जो किसी एक परिकल्पना परीक्षण विधि से स्वतंत्र है? संक्षेप में, जब तक कि एक गैर-शून्य संभावना है कि नमूना वितरण में से किसी एक के द्वारा उत्पन्न किया जा सकता है, तो त्रुटियों में से कम से कम एक की संभावना गैर-शून्य होनी चाहिए। मूल रूप से, आप इस संभावना से बच नहीं सकते हैं कि आपका परिकल्पना परीक्षक एक गलती करेगा, चाहे आप कितना भी सिग्नल प्रोसेसिंग करें। और कुल भिन्नता सटीक संभावना को बांधती है। क्या मेरी समझ सही है?

टाइप I और II त्रुटियों के बीच एक और संबंध भी है और अंतर्निहित संभावना वितरण और : KL विचलन । इस प्रकार, मेरा दूसरा प्रश्न यह है: क्या केएल-डाइवर्जेंस केवल एक विशिष्ट परिकल्पना परीक्षण पद्धति पर लागू होता है (यह लॉग-लाइबिलिटी अनुपात विधि के आसपास बहुत ऊपर आता है) या क्या यह आमतौर पर सभी परिकल्पना परीक्षण विधियों में लागू हो सकता है? यदि यह सभी परिकल्पना परीक्षण विधियों पर लागू होता है, तो ऐसा क्यों लगता है कि यह कुल भिन्नता से बहुत भिन्न है? क्या यह अलग तरह से व्यवहार करता है?क्यूPQ

और मेरा अंतर्निहित प्रश्न यह है: क्या परिस्थितियों का एक निर्धारित सेट है जब मुझे या तो बाध्य होना चाहिए, या क्या यह विशुद्ध रूप से सुविधा की बात है? जब परिणाम एक बाध्य पकड़ दूसरे का उपयोग करके प्राप्त किया जाना चाहिए?

अगर ये सवाल तुच्छ हैं, तो मैं माफी चाहता हूं। मैं एक कंप्यूटर वैज्ञानिक हूं (इसलिए यह मेरे लिए एक फैंसी पैटर्न मिलान समस्या की तरह लगता है :)।) मैं सूचना सिद्धांत को यथोचित रूप से जानता हूं, और संभावना सिद्धांत में स्नातक पृष्ठभूमि भी है। हालाँकि, मैं अभी इस सभी परिकल्पना परीक्षण सामग्री को सीखना शुरू कर रहा हूं। जरूरत पड़ने पर मैं अपने सवालों को स्पष्ट करने की पूरी कोशिश करूंगा।

जवाबों:


8

साहित्य: आपकी ज़रूरत के अधिकांश उत्तर निश्चित रूप से लेहमैन और रोमानो की पुस्तक में हैं । इंगस्टर और सुसलीना की पुस्तक अधिक उन्नत विषयों का व्यवहार करती है और आपको अतिरिक्त उत्तर दे सकती है।

उत्तर: हालांकि, चीजें बहुत सरल हैं: (या ) का उपयोग करने के लिए "सही" दूरी है। यह औपचारिक संगणना के लिए सुविधाजनक नहीं है (विशेषकर उत्पाद उपायों के साथ, अर्थात जब आपके पास आकार का iid नमूना है ) और अन्य दूरियाँ (जो कि ऊपरी सीमा हैं ) का उपयोग किया जा सकता है। मैं आपको इसका विवरण दूं। टी वी एन एल 1L1TVnL1

विकास: आइए हम निरूपित करते हैं

  • अल्फा 0 पी 0 पी 1g1(α0,P1,P0) टाइप I त्रुटि के साथ न्यूनतम प्रकार II त्रुटि और के लिएα0P0P1
  • टी ( 1 - टी ) पी 0 पी 1g2(t,P1,P0) और के साथ न्यूनतम संभव टाइप I + टाइप II त्रुटियों का और शून्य।t(1t)P0P1

ये न्यूनतम त्रुटियां हैं जिनका आपको विश्लेषण करने की आवश्यकता है। समानताएँ (निचली सीमाएँ नहीं) प्रमेय द्वारा 1 नीचे दी गई हैं ( दूरी के संदर्भ में (या यदि आप जो टीवी दूरी))। दूरी और अन्य दूरियों के बीच असमानताएं Theorem 2 (ध्यान दें कि त्रुटियों को कम करने के लिए आपको या ऊपरी सीमा की आवश्यकता होती है ) द्वारा दिया गया है। एल 1 एल 1 टी वीL1L1L1TV

जो तब उपयोग करने के लिए बाध्य है, सुविधा की बात है क्योंकि अक्सर हेलिंगर या कुल्बैक या ch तुलना में अधिक कठिन होता है । इस तरह के अंतर का मुख्य उदाहरण तब दिखाई देता है जब और उत्पाद उपाय होते हैं जो उस स्थिति में उत्पन्न होते हैं जब आप आकार iid नमूने के साथ बनाम का परीक्षण करना चाहते हैं । इस स्थिति में और अन्य लोग ( और लिए समान से आसानी से प्राप्त कर लेकिन आप साथ ऐसा नहीं कर सकते ...χ 2 पी 1 पी 0 पी मैं = पी n मैं मैं = 0 , 1 पी 1 पी 0 एन एच ( पी 1 , पी 0 ) ( पी 1 , पी 0 ) कश्मीर एल χ 2 एल 1L1χ2P1P0Pi=pin i=0,1p1p0nh(P1,P0)h(p1,p0)KLχ2L1

परिभाषा: दो उपायों और बीच आत्मीयता को रूप में परिभाषित किया गया है ।A1(ν1,ν0)ν1ν2

A1(ν1,ν0)=min(dν1,dν0)

प्रमेय 1 If(आधा टीवी डिस्ट), फिर |ν1ν0|1=|dν1dν0|

  • 2A1(ν1,ν0)=(ν1+ν0)|ν1ν0|1
  • g1(α0,P1,P0)=supt[0,1/α0](A1(P1,tP0)tα0)
  • g2(t,P1,P0)=A1(tP0,(1t)P1)

मैंने यहां प्रमाण लिखा ।

प्रमेय 2 के लिए और प्रायिकता वितरण: पी 0 1P1P0

12|P1P0|1h(P1,P0)K(P1,P0)χ2(P1,P0)

ये सीमाएं कई जाने-माने सांख्यिकीविदों (LeCam, Pinsker, ...) के कारण हैं। द हेलिंजर डिस्टेंस, केएल डाइवर्जेंस और ची-स्क्वायर डाइवर्जेंस है। वे सभी यहाँ परिभाषित हैं । और इन सीमाओं के प्रमाण दिए गए हैं (आगे की बातें त्सेबाकोव की पुस्तक में पाई जा सकती हैं )। कुछ ऐसा भी है जो द्वारा लगभग निचले है ...hKχ2L1


1
जवाब के लिए धन्यवाद, मैं अब इसे पचाने की कोशिश कर रहा हूं। मेरी समस्या में मैंने टाइप I त्रुटि की अनुमति दी है। मेरे पास दो वितरण और । मुझे पता है कि उनके बीच टीवी (साथ ही केएल)। तो, आप जो कह रहे हैं कि टीवी, केएल की तुलना में टाइप II त्रुटि पर एक कमतर बाउंड बाध्य करता है, जिसका अर्थ है कि मुझे अपने विश्लेषण के लिए टीवी का उपयोग करना चाहिए अगर मैं यथासंभव कम बाउंड के तंग करना चाहता हूं? P0P1
एमबीएम

और लेहमैन और रोमानो पुस्तक सुझाव के लिए धन्यवाद, यह बहुत मददगार लगता है और मेरे सिर पर बहुत अधिक नहीं है। इसके अलावा, मेरा पुस्तकालय एक प्रति का मालिक है! :)
एमबीएम

@Bullmoose Theorem 1 जो यहां कहता है, वह यह है कि टीवी (या L1) से समानता से संबंधित है जो g_2 या g_1 के साथ समानता से संबंधित है (त्रुटियों का न्यूनतम योग या नियंत्रित प्रकार I के साथ II त्रुटि)। यहां कोई असमानता नहीं हैं। असमानताएं तब आती हैं जब आपको L1 से कुल्बैक जाने की आवश्यकता होती है। A1
रॉबिन जिरार्ड

दुर्भाग्य से, मेरे पास केवल माप सिद्धांत में न्यूनतम पृष्ठभूमि है। मुझे लगता है कि मैं समझ गया हूं कि और क्या हैं, लेकिन मैं पर स्पष्ट नहीं । कहते हैं कि मेरे पास दो गौसियन वितरण हैं। उनके बीच का टीवी (या L1) लेकिन क्या होगा ? परिभाषा से, यह जैसा दिखता है ...g1g2A11- 1
12π|exp(x2/2σ12)σ1exp(x2/2σ22)σ2|dx
A1
12πmin(exp(x2/2σ12)σ1,exp(x2/2σ22)σ2)dx
MBM

... लेकिन यह कैसे प्रमेय में पहली गोली से नक्शे में करता है? (ν1+ν2)
एमबीएम

1

आपके पहले प्रश्न का उत्तर: हां, एक शून्य से कुल भिन्नता टाइप I + प्रकार II त्रुटि दर के योग पर एक कम बाध्य है। यह निचली सीमा आपके द्वारा चुनी गई परिकल्पना परीक्षण एल्गोरिथ्म पर कोई फर्क नहीं पड़ता।

औचित्य: आपको Math.SE पर जो उत्तर मिला, वह इस तथ्य का मानक प्रमाण देता है। एक परिकल्पना परीक्षण को ठीक करें। Let है जिस पर इस परीक्षण शून्य परिकल्पना (जैसे एक सेट हमेशा मौजूद होना चाहिए) को अस्वीकार कर देंगे परिणामों के सेट को निरूपित। इसके बाद गणित में गणित की गणना करें।A

(कड़ाई से बोलते हुए, तर्क की यह पंक्ति मानती है कि आपकी परिकल्पना परीक्षण एक नियतकालिक प्रक्रिया है। लेकिन भले ही आप यादृच्छिक प्रक्रियाओं पर विचार करें, यह दिखाना संभव है कि वही बाध्य अभी भी लागू होता है।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.