एक मरने के कितने पक्ष होते हैं? जेएजीएस में बायेसियन का अनुमान


9

मुसीबत

मैं एक अज्ञात संख्या में पक्षों के साथ मरने के लिए एक प्रणाली अनुरूप पर कुछ निष्कर्ष निकालना चाहूंगा। डाई को कई बार रोल किया जाता है, जिसके बाद मैं मरने वाले पक्षों की संख्या के अनुरूप एक पैरामीटर पर एक प्रायिकता वितरण का अनुमान लगाना चाहूंगा, times।

सहज बोध

यदि 40 रोल्स के बाद आपने 10 रेड्स, 10 ब्लूज़, 10 ग्रीन्स और 10 येलो के अवलोकन किए हैं, तो ऐसा लगता है कि, 4 पर चरम पर होना चाहिए, और प्रत्येक पक्ष को रोल करने के पक्षपात 1/4 पर केंद्रित वितरण हैं।

θ एक तुच्छ निचली सीमा होती है, जो डेटा में देखे गए विभिन्न पक्षों की संख्या होती है।

ऊपरी बाउंड अभी भी अज्ञात है। पाँचवाँ पक्ष हो सकता है, जिसमें शायद कम पक्षपात होगा। जितना अधिक डेटा आप पांचवीं श्रेणी का अभाव देखते हैं,। = 4 की उत्तरवर्ती संभावना उतनी ही अधिक होगी।

पहुंच

मैंने इसी तरह की समस्याओं (R और rjags के माध्यम से) के लिए JAGS का उपयोग किया है जो यहां उचित लगता है।

डेटा के संबंध obs <- c(10, 10, 10, 10)में, ऊपर के उदाहरण में टिप्पणियों के अनुरूप होने की अनुमति देता है।

मुझे लगता है कि टिप्पणियों को एक बहुराष्ट्रीय वितरण के साथ मॉडल किया जाना चाहिए obs ~ dmulti(p, n), जहां p ~ ddirch(alpha)और n <- length(obs)

ied द्वारा निहित श्रेणियों की संख्या से जुड़ा हुआ है alpha, इसलिए मैं alphaविभिन्न संभावित श्रेणियों की श्रेणियों को शामिल कैसे कर सकता हूं ?

वैकल्पिक?

मैं बायेसियन विश्लेषणों के लिए बहुत नया हूं ताकि गलत पेड़ पूरी तरह से भौंकने लगें, क्या ऐसे वैकल्पिक मॉडल हैं जो इस समस्या के लिए अलग-अलग अंतर्दृष्टि प्रदान कर सकते हैं?

बहुत धन्यवाद! डेविड

जवाबों:


6

इस दिलचस्प समस्या को 'प्रजाति-नमूनाकरण' कहा जाता है, जिसने वर्षों से बहुत अधिक ध्यान आकर्षित किया है, और कई अन्य अनुमान समस्याओं (जैसे निशान-पुनरावृत्ति) को शामिल किया है। यह कहने के लिए पर्याप्त है, JAGS इस मामले में आपकी मदद नहीं करेगा - JAGS पुनरावृत्तियों में एक चर आयाम के साथ मार्कोव श्रृंखला को संभाल नहीं सकता है। ऐसी समस्याओं के लिए डिज़ाइन की गई MCMC योजना में पुनरावृत्ति होना चाहिए, जैसे कि प्रतिवर्ती कूद MCMC।

यहां एक दृष्टिकोण है जो आपके द्वारा वर्णित विशिष्ट मॉडल के लिए उपयुक्त है, जिसे मैंने पहली बार जेफ मिलर ( अनुमानित ) के काम में सामना किया था ।

भाग I (मूल प्रश्न)

एक धारणा जो मैं बनाऊंगा वह यह है कि एक दी गई श्रेणी का अवलोकन एक निम्न श्रेणी की श्रेणियों के अस्तित्व को दर्शाता है। यही है, साइड 9 पर एक डाई रोल का अवलोकन करने से पक्षों का अस्तित्व 1-8 हो जाता है। यह इस तरह से नहीं होता है - श्रेणियां मनमानी हो सकती हैं - लेकिन मैं अपने उदाहरण में ऐसा मानूंगा। इसका मतलब यह है कि अन्य प्रजातियों-अनुमान समस्याओं के विपरीत, 0 मान अवलोकनीय हैं।

मान लें कि हमारे पास एक बहुराष्ट्रीय नमूना है,

Y={y1,y2,,ym,ym+1,,yn}M({p1,p2,,pm,pm+1,,pn})

जहाँ अधिकतम श्रेणी में है, श्रेणियों की (अज्ञात) संख्या है, और सभी बराबर 0. पैरामीटर परिमित है, और हमें इसकी आवश्यकता है इसके लिए एक पूर्व। किसी भी असतत, पर समर्थन से पहले उचित काम करेगा; उदाहरण के लिए शून्य-छंटित पॉइसन लें:mn{ym+1,,yn}n[1,)

nP(λ),n>0

बहुराष्ट्रीय संभावनाओं के लिए एक सुविधाजनक पूर्व डिरिचलेट है,

पी={पी1,...,पीn}~डी({α1,...,αn})

और सरल रूप से मानने के लिए ।α1=α2==αn=α~

समस्या को और अधिक सुगम बनाने के लिए, हम वजन को कम कर देते हैं:

पी(Y|α~,n)=पीपी(Y|पी,n)पी(पी|α~,n)पी

जो इस मामले में अच्छी तरह से अध्ययन किए गए डिरिक्लेट-मल्टीनोमियल वितरण का नेतृत्व करता है । लक्ष्य तब सशर्त का अनुमान लगाने के लिए है,

पी(n|Y,α~,λ)=पी(Y|n,α~)पी(n|λ)पी(Y|α~,λ)

जहाँ मैं स्पष्ट रूप से मान रहा हूँ और हाइपरपरमेटर्स निश्चित हैं। यह देखना आसान है कि:α~λ

पी(Y|α~,λ)=Σn=1पी(Y|n,α~)पी(n|λ)

जहाँ जहाँ । इस अनंत श्रृंखला को शीघ्रता से परिवर्तित करना चाहिए (जब तक कि पूँछ पर पूँछ बहुत भारी न हो जाए), और ऐसा लगभग आसान है। कटे हुए पोइसन के लिए, इसका रूप है:पी(Y|n,α~)=0n<

पी(Y|α~,λ)=1(λ-1)Σn=Γ(nα~)Πमैं=1nΓ(yमैं+α~)Γ(nα~+Σमैं=1nyमैं)Γ(α~)nλnn!

के लिए अग्रणी:

पी(n|Y,α~,λ)=Γ(nα~)Πमैं=1nΓ(yमैं+α~)Γ(nα~+Σमैं=1nyमैं)Γ(α~)nλnn!(Σजे=Γ(जेα~)Πमैं=1जेΓ(yमैं+α~)Γ(जेα~+Σमैं=1जेyमैं)Γ(α~)जेλजेजे!)-1

जिसका समर्थन । इस मामले में MCMC की कोई आवश्यकता नहीं है क्योंकि बेयर्स नियम के हर में अनंत श्रृंखला बहुत अधिक प्रयास के बिना अनुमानित की जा सकती है।[,)

यहाँ आर में एक मैला उदाहरण है:

logPosteriorN <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        posterior <- lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { posterior <- posterior + (j-m)*lgamma(alpha) } 
        else if( j < m ) { posterior = -Inf }
        prior + posterior
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

## with even representation of sides
Y <- c(10, 10, 10, 10)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

## with uneven representation of sides
Y <- c(1, 2, 1, 0, 0, 2, 1, 0, 1)
post <- logPosteriorN(30, Y, 10, 1.2)
plot(1:30, exp(post), pch=19, type="b")

आपका अंतर्ज्ञान सही है: श्रेणियों में विरल नमूने से श्रेणियों की कुल संख्या के बारे में अधिक अनिश्चितता हो जाती है। यदि आप एक अज्ञात पैरामीटर के रूप में का इलाज करना चाहते हैं, तो आपको MCMC और और वैकल्पिक अद्यतनों का उपयोग करने की आवश्यकता होगी ।α~nα~

बेशक, यह अनुमान के लिए एक दृष्टिकोण है। आप थोड़ी खोज के साथ आसानी से दूसरों को (बायेसियन और गैर-बायेसियन स्वादों के) पाएंगे।

भाग II (टिप्पणी का जवाब)

Y={y1,...,y,y+1,...,yn} संबंधित संभावनाओं साथ आंशिक रूप से मनाया जाने वाला बहुपद वेक्टर है : Ω={ω1,...,ω,ω+1,...,ωn}

पीआर(Y|Ω,n)=Γ(Σमैं=1nyमैं+1)Πमैं=1nΓ(yमैं+1)Πमैं=1nωमैंyमैं

जहां , और लेकिन अन्यथा सूचक इसके विपरीत हैं। पहले की तरह, समस्या श्रेणियों की सही संख्या का अनुमान लगाने के लिए है , और हम पर एक पूर्व के साथ शुरू इस तरह के एक शून्य छोटा कर दिया प्वासों के रूप में: yएनy1...y>0y+1...yn=0nn

पीआर(n|λ)=λn(exp{λ}-1)n!, nजेड+

साथ ही पहले की तरह, हम बहुराष्ट्रीय संभावनाओं _ को एक सममित हाइपरपेरेटरी साथ वितरित के रूप में मानते हैं , अर्थात दिए गए , Ωα~n

पीआर(Ω|α~,n)=Γ(nα~)Γ(α~)nΠमैं=1nωमैंα~-1

संभावनाओं के सदिश पर एकीकरण (हाशिए पर) बहुराष्ट्रीय Dirichlet देता है:

पीआर(Y|α~,n)=पीआर(Y|Ω,n)पीआर(Ω|α~,n)=Γ(nα~)Γ(Σमैं=1nyमैं+nα~)Γ(α~)nΠमैं=1nΓ(yमैं+α~)

यहां हम ऊपर दिए गए भाग I में मॉडल से हटते हैं। भाग में, वहाँ श्रेणियों के लिए एक अंतर्निहित आदेश था: उदाहरण के लिए, एक में पक्षीय मरने, श्रेणियों (पक्षों) एक अंतर्निहित आदेश और किसी भी वर्ग का अवलोकन किया है का तात्पर्य कम श्रेणियों का अस्तित्व । भाग II में, हमारे पास एक आंशिक रूप से मनाया गया बहुराष्ट्रीय यादृच्छिक वेक्टर है जिसका कोई निहित आदेश नहीं है। दूसरे शब्दों में, डेटा प्रेक्षित श्रेणियों में डेटा बिंदुओं के अनियंत्रित विभाजन का प्रतिनिधित्व करता है । मैं अव्यवस्थित विभाजन को निरूपित करता हूँ कि से परिणाम द्वारा संवर्धित , अप्रत्यक्ष श्रेणियों के रूप में ।nमैं{1...n}जे<मैंnYn-पी[Y]

श्रेणियों की एक वास्तविक संख्या पर अनियंत्रित विभाजन सशर्त की संभावना , श्रेणियों के क्रमपरिवर्तन की संख्या पर विचार करके पाया जा सकता है जिसके परिणामस्वरूप समान विभाजन होते हैं: n

पीआर(पी[Y]|α~,n)=n!(n-)!पीआर(Y|α~,n)

और इसे देने के लिए पर एकीकृत किया जा सकता है : n

पीआर(पी[Y]|α~,λ)=Σजे=पीआर(पी[Y]|α~,n)पीआर(n|λ)

पश्च को पुनः प्राप्त करने के लिए बेय्स नियम का उपयोग करना:

पीआर(n|पी[Y],α~,λ)=पीआर(पी[Y]|n,α~)पीआर(n|λ)पीआर(पी[Y]|α~,λ)

बस उपरोक्त परिभाषाओं से प्लग इन करें। फिर से, भाजक एक अनंत श्रृंखला है जो जल्दी से परिवर्तित हो जाएगा: इस सरल मॉडल में, एमसीएमसी को पर्याप्त सन्निकटन देने की कोई आवश्यकता नहीं है।

भाग I से R कोड को संशोधित करके:

logPosteriorN_2 <- function(max, Y, lambda, alpha){
    m <- length(Y)
    sumy <- sum(Y)
    pp <- sapply(1:max, function(j){
        prior <- log(lambda)*j - log(exp(lambda)-1) - lgamma(j+1)
        likelihood <- lchoose(j, m) + lgamma(m + 1) + lgamma(alpha*j) + sum(lgamma(Y + alpha)) - j*lgamma(alpha) - lgamma(sumy + j*alpha)
        if( j > m ) { likelihood <- likelihood + (j-m)*lgamma(alpha) } 
        else if( j < m ) { likelihood = -Inf }
        prior + likelihood
        })
    evidence <- log(sum(exp(pp))) # there's no check that this converges
    pp - evidence
}

Y_1 <- rep(10, 15)
pos_1 <- logPosteriorN_2(50, Y_1, 6, 1)
plot(1:50, exp(pos_1))

आपके बहुत पूर्ण उत्तर के लिए बहुत धन्यवाद। (मेरी बहुत धीमी प्रतिक्रिया के लिए क्षमा करें)। मैं इस प्रकार के प्रश्न पर वापस आया हूं और अभी भी मैथ्स के माध्यम से अपना काम कर रहा हूं। मेरे सिस्टम में श्रेणियां क्रमबद्ध नहीं हैं, इसलिए यह धारणा कि एक दी गई श्रेणी का अवलोकन एक कम रैंक की श्रेणियों के अस्तित्व को अवैध मानता है।
दविपति

@davipatti ने दूसरे भाग में उत्तर दिया।
नैट पोप
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.