शून्य फुले हुए पॉइसन मॉडल के एक अव्यक्त चर सूत्रीकरण के लिए MLE की गणना करने के लिए आप EM एल्गोरिथ्म का उपयोग कैसे करते हैं?


10

शून्य फुलाया प्वासों प्रतिगमन मॉडल एक नमूने के लिए परिभाषित किया गया है द्वारा Y मैं = { 0 संभावना के साथ पी मैं + ( 1 - पी मैं ) - λ मैं कश्मीर के साथ संभाव्यता ( 1 - पी मैं ) e - λ i λ k i / k ! और यह मान लिया गया है कि पैरामीटर λ =(y1,,yn)

Yi={0with probability pi+(1pi)eλikwith probability (1pi)eλiλik/k!
और p = ( p 1 , , p n ) संतुष्ट करेंλ=(λ1,,λn)p=(p1,,pn)

log(λ)=Bβlogit(p)=log(p/(1p))=Gγ.

शून्य फुलाया प्वासों प्रतिगमन मॉडल के लिए इसी लॉग संभावना है

L(γ,β;y)=yi=0log(eGiγ+exp(eBiβ))+yi>0(yiBiβeBiβ)i=1nlog(1+eGiγ)yi>0log(yi!)

यहाँ, और G डिज़ाइन मैट्रिसेस हैं। ये मैट्रिसेस एक ही हो सकते हैं, जो कि दो उत्पन्न करने वाली प्रक्रियाओं के लिए उपयोग की जाने वाली इच्छाओं के आधार पर होता है। हालाँकि, उनके पास समान पंक्तियाँ हैं।BG

Zi=1YiZi=0Yi

L(γ,β;y,z)=i=1nlog(f(zi|γ))+i=1nlog(f(yi|zi,β))

=i=1nzi(Giγlog(1+eGiγ))+i=1n(1zi)log(1+eGiγ)+i=1n(1zi)[yiBiβeBiβlog(yi!)]
zi=0zi=1

Zi=0Zi=1


f

f

जवाबों:


11

आपको जो कठिनाई हो रही है उसका मूल वाक्य में निहित है:

फिर EM एल्गोरिथ्म का उपयोग करते हुए, हम दूसरे लॉग-लाइक को अधिकतम कर सकते हैं।

zi

kthzi(k1)th

λp

# Generate data
# Lambda = 1,  p(zero) = 0.1
x <- rpois(10000,1)
x[1:1000] <- 0

# Sufficient statistic for the ZIP
sum.x <- sum(x)

# (Poor) starting values for parameter estimates
phat <- 0.5
lhat <- 2.0

zhat <- rep(0,length(x))
for (i in 1:100) {
  # zhat[x>0] <- 0 always, so no need to make the assignment at every iteration
  zhat[x==0] <- phat/(phat +  (1-phat)*exp(-lhat))

  lhat <- sum.x/sum(1-zhat) # in effect, removing E(# zeroes due to z=1)
  phat <- mean(zhat)   

  cat("Iteration: ",i, "  lhat: ",lhat, "  phat: ", phat,"\n")
}

Iteration:  1   lhat:  1.443948   phat:  0.3792712 
Iteration:  2   lhat:  1.300164   phat:  0.3106252 
Iteration:  3   lhat:  1.225007   phat:  0.268331 
...
Iteration:  99   lhat:  0.9883329   phat:  0.09311933 
Iteration:  100   lhat:  0.9883194   phat:  0.09310694 

1-zhatβλi

(Ezilogpi+(1Ezi)log(1pi))

GpiEzi=pi/(pi+(1pi)exp(λi))

यदि आप वास्तविक डेटा के लिए ऐसा करना चाहते हैं, जैसा कि एल्गोरिथ्म को समझने के विपरीत, आर पैकेज पहले से मौजूद हैं; यहाँ एक उदाहरण http://www.ats.ucla.edu/stat/r/dae/zipoisson.htmpscl पुस्तकालय का उपयोग कर रहा है।

संपादित करें: मुझे इस बात पर जोर देना चाहिए कि हम जो कर रहे हैं वह पूर्ण-डेटा लॉग संभावना के अपेक्षित मूल्य को अधिकतम कर रहा है, लापता डेटा / अव्यक्त चर के अपेक्षित मानों के साथ पूर्ण-डेटा लॉग संभावना को अधिकतम नहीं करता। जैसा कि होता है, यदि ऐसा होता है। पूर्ण-डेटा लॉग संभावना गुम डेटा में रैखिक है, जैसा कि यहां है, दो दृष्टिकोण समान हैं, लेकिन अन्यथा, वे नहीं हैं।


@ चुटकुले, आपको इस जानकारी को अपने पूरक उत्तर के रूप में जोड़ना चाहिए, किसी मौजूदा उत्तर को नहीं बदलना चाहिए। यह संपादन स्वीकृत नहीं होना चाहिए था।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.