बायेसियन वितरण की तुलना कैसे करते हैं?


25

इसलिए, मुझे लगता है कि मेरे पास लगातार संभावना और सांख्यिकीय विश्लेषण (और कितनी बुरी तरह इसका इस्तेमाल किया जा सकता है) की बुनियादी बातों का एक सभ्य समझ है। एक निरंतर दुनिया में, यह इस तरह के प्रश्न को पूछने के लिए समझ में आता है जैसे "क्या यह वितरण उस वितरण से अलग है", क्योंकि वितरण को वास्तविक, उद्देश्य और अपरिवर्तनशील माना जाता है (किसी दिए गए स्थिति के लिए, कम से कम), और इसलिए हम समझ सकते हैं कितनी संभावना है कि यह एक नमूना दूसरे नमूने के आकार के वितरण से तैयार किया गया है।

बायेसियन विश्व दृश्य में, हम केवल अपने पिछले अनुभवों को देखते हुए, जो हम देखने की उम्मीद करते हैं, उसके बारे में परवाह करते हैं (मैं इस हिस्से पर अभी भी थोड़ा अस्पष्ट हूं, लेकिन मैं बायेसियन अपडेट की अवधारणा को समझता हूं)। यदि ऐसा है, तो एक बायेसियन कैसे कह सकता है "डेटा का यह सेट डेटा के उस सेट से अलग है"?

इस सवाल के प्रयोजनों के लिए, मैं सांख्यिकीय महत्व के बारे में परवाह नहीं है, या इसी तरह, बस अंतर निर्धारित करने के लिए कैसे। मुझे पैरामीट्रिक और गैर-पैरामीट्रिक वितरण में समान रूप से दिलचस्पी है।


क्या आप स्पष्ट कर सकते हैं कि आपके द्वारा "डेटा का यह सेट डेटा के सेट से अलग है?" जैसे, क्या आप दो या दो से अधिक समूहों की तुलना करने की बात कर रहे हैं, जैसे कि महिलाओं की आय बनाम पुरुषों की आय? या शायद कैसे एक बायेसियन लिंग के ज्ञान के बिना आय के दो नमूनों की तुलना करता है?
रामसिंह

2
@ JohnA.Ramey: क्या अंतर है? एक बार यह सभी संख्याओं के बाद, "नर" और "मादा" सिर्फ नमूने के लिए लेबल नहीं हैं?
n

जवाबों:


13

अपने कथन को फ़्रीक्वेंटिस्ट के रूप में सोचें और इसे पहले अधिक विशिष्ट बनाएं। एक फ़्रीक्वेंटिस्ट यह नहीं कह सकता था कि "डेटा सेट ए डेटा सेट बी से अलग है", बिना किसी और स्पष्टीकरण के।

सबसे पहले, आपको यह बताना होगा कि "अलग" से आपका क्या मतलब है। शायद आपका मतलब है "अलग मतलब मूल्य हैं"। तो फिर, आपका मतलब हो सकता है "अलग-अलग संस्करण हैं"। या शायद कुछ और?

फिर, आपको यह बताना होगा कि आप किस प्रकार के परीक्षण का उपयोग करेंगे, जो इस बात पर निर्भर करता है कि आपके डेटा के बारे में मान्य धारणाएं क्या हैं। क्या आप मानते हैं कि डेटा सेट दोनों सामान्य रूप से कुछ साधनों के बारे में वितरित किए जाते हैं? या आप मानते हैं कि वे दोनों बीटा-वितरित हैं? या कुछ और?

अब आप देख सकते हैं कि दूसरा निर्णय बेयसियन सांख्यिकी में पादरियों की तरह है? यह सिर्फ "मेरा अतीत का अनुभव" नहीं है, बल्कि यह है कि मैं जो मानता हूं, और जो मुझे विश्वास है कि मेरे साथी विश्वास करेंगे, मेरे डेटा के लिए उचित धारणाएं हैं। (और बायेसियन एकसमान पादरियों का उपयोग कर सकते हैं, जो फ़्रीक्वेंटिस्ट गणना की ओर चीजों को आगे बढ़ाते हैं।)

संपादित करें: आपकी टिप्पणी के जवाब में: अगला चरण मेरे द्वारा बताए गए पहले निर्णय में निहित है। यदि आप यह तय करना चाहते हैं कि क्या दो समूहों के साधन अलग-अलग हैं, तो आप दो समूहों के साधनों के अंतर के वितरण पर गौर करेंगे कि क्या यह वितरण आत्मविश्वास के कुछ स्तर पर है या नहीं। बिल्कुल शून्य के कितने करीब आप शून्य के रूप में गिनती करते हैं और आपके द्वारा उपयोग किए जाने वाले वितरण के बिलकुल (हिस्से में) भाग आपके द्वारा निर्धारित किए जाते हैं और आपके आत्मविश्वास के स्तर को निर्धारित करते हैं।

क्रुश्के के एक पेपर में इन विचारों की चर्चा पाई जा सकती है , जिन्होंने एक बहुत ही पठनीय पुस्तक डूइंग बायेसियन डेटा एनालिसिस भी लिखी है , जो 307-309, "क्या विभिन्न समूह समान हैं?" के पेज पर एक उदाहरण दिया गया है। (दूसरा संस्करण: पृष्ठ 468-472।) उनके पास इस विषय पर एक ब्लॉग पोस्टिंग भी है , जिसमें कुछ प्रश्नोत्तर हैं।

अन्य संस्करण: बायेसियन प्रक्रिया का आपका वर्णन भी काफी सही नहीं है। बायेसियन केवल इस बात की परवाह करते हैं कि डेटा हमें क्या बताता है, इस प्रकाश में कि हम डेटा से स्वतंत्र क्या जानते थे। (जैसा कि क्रस्चके बताते हैं, डेटा से पहले जरूरी नहीं होता है। यही वाक्यांश वाक्यांश का अर्थ है, लेकिन यह वास्तव में सिर्फ कुछ आंकड़ों को छोड़कर हमारा ज्ञान है।) जो हम डेटा के एक विशेष सेट से स्वतंत्र रूप से जानते थे वह अस्पष्ट या विशिष्ट हो सकता है। और आम सहमति के आधार पर हो सकता है, अंतर्निहित डेटा उत्पादन प्रक्रिया का एक मॉडल, या सिर्फ दूसरे (आवश्यक नहीं पूर्व) प्रयोग के परिणाम हो सकते हैं।


हां, ठीक है, आव्रजन एक वितरण मान लेते हैं, और यह व्यक्तिपरक है। लेकिन फिर वे सिर्फ त्रुटि के साथ प्रत्येक नमूने के मापदंडों को माप सकते हैं, और कह सकते हैं "ठीक है, ये प्रत्येक नमूने की सही आबादी के पैरामीटर हैं, और अब क्या संभावना है कि अंतर केवल नमूना त्रुटि के कारण है"। मेरा प्रश्न आपके उत्तर के बाद के कदम के बारे में है - बेयसियन नमूनों के बीच अंतर कैसे करते हैं (मान लें कि नमूने एक ही प्रकार के वितरण, पैरामीट्रिक या नहीं से हैं)।
n

@ naught101: कृपया मेरा संपादन देखें।
वेन

@ आपके द्वारा जोड़ा गया पेपर उत्कृष्ट है। साझा करने के लिए धन्यवाद
Cam.Davidson.Pilon

@ naught101: मैंने ब्लॉग लिंक अपडेट किया है। वह स्पष्ट रूप से लेख के पुराने संस्करणों और प्रत्येक लिंक को नए सिरे से रखता है, और जो मैं पहली बार जुड़ा हुआ हूं वह तीन संस्करण पुराना है।
वेन

यह काफी शांत तरीका है, और यह वास्तव में स्पष्ट करता है कि कैसे बायेसियन इंजेक्शन काम कर सकता है (वितरण मापदंडों को अनिश्चितता के स्रोत के रूप में मानकर)। अफ़सोस कि यह इतना कम्प्यूटेशनल रूप से गहन है। इसके अलावा, 95% CI का उपयोग बहुत अधिक लगता है जैसे महत्व स्तर सेट करना, लेकिन मैं यह नहीं देख सकता कि क्या पी-वैल्यू के एक रिपोर्ट करने योग्य समकक्ष प्राप्त करने का एक वास्तविक तरीका है (शायद मूल्यों की संभावनाओं का योग अधिक चरम ० मतलब से ०, मतलब में अंतर के लिए?)।
n

14

यह पेपर रुचि का हो सकता है: http://arxiv.org/pdf/0906.4032v1.pdf

यह दो नमूना समस्या के लिए कुछ लगातारवादी और बेयसियन दृष्टिकोण का एक अच्छा सारांश देता है, और पैरामीट्रिक और गैर-समरूप दोनों मामलों पर चर्चा करता है।

यह एक सरल उदाहरण देने के लिए अन्य उत्तरों में कुछ जोड़ सकता है। आप दो डेटा सेट है कहो और वाई जहां प्रत्येक एक्स मैं और प्रत्येक y j या तो एक है 0 या 1 । तुम्हें पता है, दोनों ही मामलों में एक आईआईडी Bernoulli मॉडल मान इसलिए प्रत्येक एक्स मैं ~ बी आर एन ( पी ) और प्रत्येक y मैं ~ बी आर एन ( क्ष ) । लगातार और बेयसियन सेटिंग्स दोनों में आपकी परिकल्पना परीक्षण परिदृश्य हो सकता है:एक्सyएक्समैंyj01एक्समैं~बीआरn(पी)yमैं~बीआरn(क्ष)

एच0:पी=क्ष

जरूरी नहीं के बराबर।एच1:पी,क्ष

प्रत्येक मामले में डेटा के लिए संभावनाएं हैं:

के तहत : एल 0 ( पी ) = ( एक्स , वाई , पी ) = Π मैं पी मैं ( 1 - पी ) 1 - मैं Π जे पी जे ( 1 - पी ) 1 - jएच0एल0(पी)=(एक्स,y;पी)=Πमैंपीमैं(1-पी)1-मैंΠjपीj(1-पी)1-j

के तहत : एल 1 ( पी , क्यू ) = ( एक्स , वाई , पी , क्यू ) = Π मैं पी मैं ( 1 - पी ) 1 - मैं Π जे क्ष j ( 1 - क्ष ) 1 - jएच1एल1(पी,क्ष)=(एक्स,y;पी,क्ष)=Πमैंपीमैं(1-पी)1-मैंΠjक्षj(1-क्ष)1-j

( एच 0 के तहत के बाद से )। समस्या के बारे में एक निरंतर दृष्टिकोण एक संभावना अनुपात परीक्षण करने के लिए हो सकता है, जिससे आप सांख्यिकीय की गणना करते हैं:एच0क्ष=पी

डब्ल्यू=-2लॉग{एल0(पीमीटरएक्स)एल1(पीमीटरएक्स,क्षमीटरएक्स)},

पीमीटरएक्स,क्षमीटरएक्सपीक्षपीमीटरएक्सपीमीटरएक्सडब्ल्यूχ12एच0

पी~π0एच0पी,क्ष~π1एच1

बीएफ=(एक्स,y|एच0)(एक्स,y|एच1)=01एल0(पी)π0(पी)पी0101एल1(पी,क्ष)π1(पी,क्ष)पीक्ष

एच0एच1एच0एच1 पी(एच0)=पी(एच1)=1/2

पी(एच0|एक्स,y)पी(एच1|एक्स,y)=बीएफ×पी(एच0)पी(एच1)=बीएफ×1/21/2=बीएफ

>1एच0एच1एच0

एच1

आशा है कि पहले से ही पोस्ट किए गए अन्य उत्तरों के साथ मदद करता है।


0

आंकड़ों को देखते हुए, हम कितनी दृढ़ता से मानते हैं कि 2 समूह एक ही आबादी (एच 1: वे एक ही आबादी बनाम एच_0 से नहीं आते हैं: वे एक ही आबादी से आते हैं)। इसे बायेसियन टी-टेस्ट के साथ किया जा सकता है।

जटिलता का उपयोग यह जानने के लिए किया जाता है कि एक परिकल्पना के साथ पूर्व कितना अतिव्यापी है। फिट का उपयोग यह पता लगाने के लिए किया जाता है कि एक परिकल्पना के साथ पोस्टीरियर कितना अतिव्यापी है। संयुक्त आप परिकल्पनाओं की तुलना कर सकते हैं और एक ही आबादी से आने या न होने पर अपने पीछे के विश्वास को व्यक्त कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.