प्रोफ़ाइल संभावना और विश्वास अंतराल के बीच क्या संबंध है?


18

इस चार्ट को बनाने के लिए मैंने माध्य = 0 और sd = 1 के साथ एक सामान्य वितरण से विभिन्न आकार के यादृच्छिक नमूने उत्पन्न किए। विश्वास अंतराल तब t.test () फ़ंक्शन के साथ .001 से .999 (लाल रेखा) तक के अल्फा कटऑफ का उपयोग करके गणना की गई थी, प्रोफ़ाइल संभावना की गणना उस कोड का उपयोग करके की गई थी, जिसके नीचे मुझे लाइन में लगाए गए व्याख्यान नोटों में मिला (मैं कर सकता हूं) t पल में लिंक ढूंढें। इसे संपादित करें ), यह नीली रेखाओं द्वारा दिखाया गया है। ग्रीन लाइनें आर घनत्व () फ़ंक्शन का उपयोग करके सामान्यीकृत घनत्व दिखाती हैं और डेटा को प्रत्येक चार्ट के निचले भाग में बॉक्सप्लेट्स द्वारा दिखाया जाता है। दाईं ओर 95% विश्वास अंतराल (लाल) और 1/20 वीं अधिकतम संभावना अंतराल (नीला) का एक कमला भूखंड है।

प्रोफ़ाइल संभावना के लिए उपयोग किया जाने वाला R कोड:

  #mn=mean(dat)
  muVals <- seq(low,high, length = 1000)
  likVals <- sapply(muVals,
                    function(mu){
                      (sum((dat - mu)^2) /
                         sum((dat - mn)^2)) ^ (-n/2)
                    }
  )

यहाँ छवि विवरण दर्ज करें

मेरा विशिष्ट प्रश्न यह है कि इन दो प्रकार के अंतरालों के बीच एक ज्ञात संबंध है और क्यों n = 3 को छोड़कर सभी मामलों के लिए विश्वास अंतराल अधिक रूढ़िवादी प्रतीत होता है। इस बारे में टिप्पणियाँ / उत्तर कि क्या मेरी गणना वैध है (और ऐसा करने का एक बेहतर तरीका) और इन दो प्रकार के अंतरालों के बीच सामान्य संबंध भी वांछित हैं।

आर कोड:

samp.size=c(3,4,5,10,20,1000)
cnt2<-1
ints=matrix(nrow=length(samp.size),ncol=4)
layout(matrix(c(1,2,7,3,4,7,5,6,7),nrow=3,ncol=3, byrow=T))
par(mar=c(5.1,4.1,4.1,4.1))
for(j in samp.size){


  #set.seed(200)
  dat<-rnorm(j,0,1)
  vals<-seq(.001,.999, by=.001)
  cis<-matrix(nrow=length(vals),ncol=3)
  cnt<-1
  for(ci in vals){
    x<-t.test(dat,conf.level=ci)$conf.int[1:2]
    cis[cnt,]<-cbind(ci,x[1],x[2])
    cnt<-cnt+1
  }


  mn=mean(dat)
  n=length(dat)
  high<-max(c(dat,cis[970,3]), na.rm=T)
  low<-min(c(dat,cis[970,2]), na.rm=T)
  #high<-max(abs(c(dat,cis[970,2],cis[970,3])), na.rm=T)
  #low<--high


  muVals <- seq(low,high, length = 1000)
  likVals <- sapply(muVals,
                    function(mu){
                      (sum((dat - mu)^2) /
                         sum((dat - mn)^2)) ^ (-n/2)
                    }
  )


  plot(muVals, likVals, type = "l", lwd=3, col="Blue", xlim=c(low,high),
       ylim=c(-.1,1), ylab="Likelihood/Alpha", xlab="Values",
       main=c(paste("n=",n), 
              "True Mean=0 True sd=1", 
              paste("Sample Mean=", round(mn,2), "Sample sd=", round(sd(dat),2)))
  )
  axis(side=4,at=seq(0,1,length=6),
       labels=round(seq(0,max(density(dat)$y),length=6),2))
  mtext(4, text="Density", line=2.2,cex=.8)

  lines(density(dat)$x,density(dat)$y/max(density(dat)$y), lwd=2, col="Green")
  lines(range(muVals[likVals>1/20]), c(1/20,1/20), col="Blue", lwd=4)
  lines(cis[,2],1-cis[,1], lwd=3, col="Red")
  lines(cis[,3],1-cis[,1], lwd=3, col="Red")
  lines(cis[which(round(cis[,1],3)==.95),2:3],rep(.05,2), 
        lty=3, lwd=4, col="Red")
  abline(v=mn, lty=2, lwd=2)
  #abline(h=.05, lty=3, lwd=4, col="Red")
  abline(h=0, lty=1, lwd=3)
  abline(v=0, lty=3, lwd=1)

  boxplot(dat,at=-.1,add=T, horizontal=T, boxwex=.1, col="Green")
  stripchart(dat,at=-.1,add=T, pch=16, cex=1.1)

  legend("topleft", legend=c("Likelihood"," Confidence Interval", "Sample Density"),
         col=c("Blue","Red", "Green"), lwd=3,bty="n")

  ints[cnt2,]<-cbind(range(muVals[likVals>1/20])[1],range(muVals[likVals>1/20])[2],
                     cis[which(round(cis[,1],3)==.95),2],cis[which(round(cis[,1],3)==.95),3])
  cnt2<-cnt2+1
}
par(mar=c(5.1,4.1,4.1,2.1))


plot(0,0, type="n", ylim=c(1,nrow(ints)+.5), xlim=c(min(ints),max(ints)), 
     yaxt="n", ylab="Sample Size", xlab="Values")
for(i in 1:nrow(ints)){
  segments(ints[i,1],i+.2,ints[i,2],i+.2, lwd=3, col="Blue")
  segments(ints[i,3],i+.3,ints[i,4],i+.3, lwd=3, col="Red")
}
axis(side=2, at=seq(1.25,nrow(ints)+.25,by=1), samp.size)

आप व्याख्यान नोट्स में, के mnलिए एक टाइपो है mu, और नहीं mean(dat)। जैसा कि मैंने आपको अपने अन्य प्रश्न के लिए टिप्पणियों में बताया था , यह परिभाषा 23 पृष्ठ से स्पष्ट होना चाहिए।
एल्विस

@ मुझे लगता है कि ऐसा नहीं है। mn को नोटों के पृष्ठ 18 पर परिभाषित किया गया है।
फ्लास्क

मैंने प्रोफाइल संभावना की अवधारणा को स्पष्ट करने की कोशिश की। क्या आप उपरोक्त कोड में क्या कर रहे हैं, इस पर थोड़ा और टिप्पणी कर सकते हैं?
एल्विस

3
@ एल्विस न तो मुझे समझ में आता है। प्रोफाइल संभावना के आधार पर एक आत्मविश्वास अंतराल का निर्माण प्रतिशत की मदद से किया जाना चाहिए , जो कहीं नहीं दिखाई देते हैं। χ2
स्टीफन लॉरेंट

1
कर रहा हूँ @ StéphaneLaurent मुझे यकीन है कि मूल कोड नहीं है प्रदान विश्वास के अंतराल। बल्कि 1/20 अधिकतम संभावना अंतराल। मेरा मानना ​​है कि मेरे प्लॉट में विश्वास अंतराल के लिए नाम "वाल्ड-टाइप" विश्वास अंतराल हैं और भूखंडों पर लाल रेखाएं इस विकिपीडिया पृष्ठ पर
फ्लास्क

जवाबों:


10

मैं पूर्ण उत्तर नहीं दूंगा (मेरे पास एक कठिन समय है जो यह समझने की कोशिश कर रहा है कि आप वास्तव में क्या कर रहे हैं), लेकिन मैं यह स्पष्ट करने की कोशिश करूंगा कि प्रोफाइल कैसे बनाया जाता है। मैं बाद में अपना जवाब पूरा कर सकता हूं।

आकार का एक सामान्य नमूना के लिए पूरी संभावना है एल ( μ , σ 2 ) = ( σ 2 ) - एन / 2 exp ( - Σ मैं ( एक्स मैं - μn

L(μ,σ2)=(σ2)n/2exp(i(xiμ)2/2σ2).

तो अपनी रुचि के पैरामीटर है, और σ 2 एक उपद्रव पैरामीटर, केवल पर मेकअप निष्कर्ष के लिए एक समाधान है μ प्रोफ़ाइल संभावना परिभाषित करने के लिए है एल पी ( μ ) = एल ( μ , ^ σ 2 ( μ ) ) जहां ^ σ 2 ( μ ) है के लिए MLE μ : तय ^ σ 2 ( μ ) = argmax σ 2 एल ( μ ,μσ2μ

LP(μ)=L(μ,σ2^(μ))
σ2^(μ)μ
σ2^(μ)=argmaxσ2L(μ,σ2).

एक जाँच कि

σ2^(μ)=1nk(xkμ)2.

इसलिए प्रोफाइल संभावना

LP(μ)=(1nk(xkμ)2)n/2exp(n/2).

प्रोफ़ाइल संभावना की गणना और प्लॉट करने के लिए यहां कुछ आर कोड है (मैंने निरंतर अवधि हटा दिया हैexp(n/2)

> data(sleep)
> difference <- sleep$extra[11:20]-sleep$extra[1:10]
> Lp <- function(mu, x) {n <- length(x); mean( (x-mu)**2 )**(-n/2) }
> mu <- seq(0,3, length=501)
> plot(mu, sapply(mu, Lp, x = difference), type="l")

प्रोफाइल संभावना

संभावना के साथ लिंक मैं निम्नलिखित ग्राफ के साथ संभावना के साथ लिंक को उजागर करने की कोशिश करूंगा।

पहले संभावना को परिभाषित करें:

L <- function(mu,s2,x) {n <- length(x); s2**(-n/2)*exp( -sum((x-mu)**2)/2/s2 )}

फिर एक समोच्च साजिश करें:

sigma <- seq(0.5,4, length=501)
mu <- seq(0,3, length=501)

z <- matrix( nrow=length(mu), ncol=length(sigma))
for(i in 1:length(mu))
  for(j in 1:length(sigma))
    z[i,j] <- L(mu[i], sigma[j], difference)

# shorter version
# z <- outer(mu, sigma, Vectorize(function(a,b) L(a,b,difference)))

contour(mu, sigma, z, levels=c(1e-10,1e-6,2e-5,1e-4,2e-4,4e-4,6e-4,8e-4,1e-3,1.2e-3,1.4e-3))

σ2^(μ)

hats2mu <- sapply(mu, function(mu0) mean( (difference-mu0)**2 ))
lines(mu, hats2mu, col="red", lwd=2)

एल के समोच्च भूखंड

प्रोफ़ाइल संभावना के मान लाल parabola साथ संभावना द्वारा उठाए गए मान हैं।

आप प्रोफ़ाइल संभावना का उपयोग एक अनियंत्रित शास्त्रीय संभावना के रूप में कर सकते हैं (cf @ Prokofiev का उत्तर)। उदाहरण के लिए, MLEμ^

आपके आत्मविश्वास अंतराल के लिए, फ़ंक्शन की वक्रता के कारण परिणाम थोड़ा भिन्न होंगेσ2^(μ) , लेकिन जब तक कि आप इसे की एक छोटी सी खंड के साथ ही सौदा, यह लगभग रैखिक है, और अंतर बहुत कम हो जाएगा ।

आप उदाहरण के लिए, स्कोर परीक्षण के निर्माण के लिए प्रोफाइल संभावना का भी उपयोग कर सकते हैं।


कोड में mu निम्न से उच्च मानों का एक क्रम है, इनमें से प्रत्येक मान की संभावना नमूना माध्य (mn) पर संभावना द्वारा विभाजित की जा रही है। तो यह एक सामान्यीकृत संभावना है।
फ्लास्क

मुझे लगता है कि यह वही है लेकिन सामान्यीकृत नहीं है। क्या आप इसे आर कोड में डाल सकते हैं या अन्यथा कुछ डेटा के लिए फ़ंक्शन को प्लॉट कर सकते हैं ताकि हम तुलना कर सकें?
फ्लास्क

यही पर है। पहले मुझे लगा कि mnटाइपो है, अब मुझे लगता है कि आर कोड सब गलत है। मैं कल इसकी दोबारा जाँच करूँगा - देर से ही सही मैं जी रहा था।
एल्विस

आप शायद सही हो सकते हैं। मुझे समझ नहीं आ रहा है कि कोड इसे सामान्य करने का प्रबंधन कैसे करता है। ओह, मैं इसे प्राप्त करता हूं, "सामान्यीकरण" अधिकतम से विभाजित कर रहा है?
एल्विस

1
मुझे लगता है कि यह देखना आसान है जब संभावना अनुपात कुछ शून्य परिकल्पना (जैसे शून्य) पर कुछ सीमा (जैसे 1/20 वीं अधिकतम) से कम है।
फ्लास्क

7

χk2 वितरण। इस विचार में संभावना अनुपात सांख्यिकीय से प्राप्त परिकल्पना परीक्षण को सम्मिलित करना शामिल है।

0.14795%

ये शास्त्रीय परिणाम हैं और इसलिए मैं इस पर कुछ संदर्भ प्रदान करूंगा:

http://www.jstor.org/stable/2347496

http://www.stata-journal.com/sjpdf.html?articlenum=st0132

http://www.unc.edu/courses/2010fall/ecol/563/001/docs/lectures/lecture11.htm

http://en.wikipedia.org/wiki/Likelihood-ratio_test

http://en.wikipedia.org/wiki/Likelihood_function#Profile_likelihood

निम्नलिखित आर कोड से पता चलता है कि, छोटे नमूनों के लिए भी, दोनों दृष्टिकोणों के साथ प्राप्त अंतराल समान हैं (मैं एल्विस उदाहरण का फिर से उपयोग कर रहा हूं):

ध्यान दें कि आपको सामान्यीकृत प्रोफ़ाइल संभावना का उपयोग करना होगा।

data(sleep)
x <- sleep$extra[11:20]-sleep$extra[1:10]
n <- length(x)
Rp <- function(mu) {mean( (x-mean(x))^2 )^(n/2)/mean( (x-mu)^2 )^(n/2) }
Rp(mean(x))

mu <- seq(0,3, length=501)
plot(mu, sapply(mu, Rp), type="l")


Rpt<- function(mu) Rp(mu)-0.147 # Just an instrumental function

# Likelihood-confidence interval of 95% level

c(uniroot(Rpt,c(0.5,1.5))$root,uniroot(Rpt,c(1.51,3))$root)

# t confidence interval

t.test(x,conf.level=0.95)$conf.int

यदि हम एक बड़ा नमूना आकार का उपयोग करते हैं, तो आत्मविश्वास अंतराल भी करीब हैं:

set.seed(123)
x <- rnorm(100)
n <- length(x)
Rp <- function(mu) {mean( (x-mean(x))^2 )^(n/2)/mean( (x-mu)^2 )^(n/2) }
Rp(mean(x))

mu <- seq(-0.5,0.5, length=501)
plot(mu, sapply(mu, Rp), type="l")


Rpt<- function(mu) Rp(mu)-0.147 # Just an instrumental function

# Likelihood-confidence interval of 95% level

c(uniroot(Rpt,c(-0.4,0))$root,uniroot(Rpt,c(0,0.4))$root)

# t confidence interval

t.test(x,conf.level=0.95)$conf.int

एक महत्वपूर्ण बिंदु:

ध्यान दें कि विशिष्ट नमूनों के लिए विभिन्न प्रकार के आत्मविश्वास अंतराल उनकी लंबाई या स्थान के संदर्भ में भिन्न हो सकते हैं, जो वास्तव में मायने रखता है उनका कवरेज। लंबे समय में, उन सभी को समान कवरेज प्रदान करना चाहिए, स्वतंत्र रूप से वे विशिष्ट नमूनों के लिए कितना भिन्न होते हैं।


@Prokoflev अगर R t.test () फ़ंक्शन के साथ गणना किए गए विश्वास अंतराल के बीच कुछ सरल संबंध हैं और ऊपर दिए गए संभावना फ़ंक्शन कोड द्वारा गणना की गई है, तो आप इसे पोस्ट कर सकते हैं। मुझे विशेष रूप से n = 3 मामले में दिलचस्पी है। दुर्भाग्य से मेरे पास गणित की पृष्ठभूमि बहुत कम है, इसलिए बहुत सारे कागजों ने मुझे खरगोश के छेद का नेतृत्व किया, जो प्रतीकों के लिए नामों की तलाश कर रहे थे और वे क्या प्रतिनिधित्व करते हैं आदि जब कोड की कुछ पंक्तियाँ (सबसे आसान आर है) मुझे समझा सकती हैं।
फ्लास्क

@Flask क्या आप सामान्य वितरण या अधिक सामान्य ढांचे के मापदंडों के लिए विश्वास अंतराल प्राप्त करने में रुचि रखते हैं?
प्रोकॉफिएव

@Prokoflev विशेष रूप से एक सामान्य वितरण के माध्यम के लिए जैसा कि प्रश्न में मेरे उदाहरण में दिखाया गया है। मैं विशेष रूप से सोच रहा हूं कि एन = 3 मामले को छोड़कर विश्वास अंतराल अधिक रूढ़िवादी क्यों हैं।
फ्लास्क

95%

1
मुझे विश्वास होने लगा है कि मुझे इसी विश्वास अंतराल को प्राप्त करने के लिए सामान्य या चिस्क्वेर वितरण के कुछ मात्राओं द्वारा संभावना अंतराल को गुणा करना चाहिए।
फ्लास्क

1

χ2normalized

  1. प्रोफ़ाइल लॉग-लाइबिलिटी, अनुमानित रूप से द्विघात है
  2. एक पैरामीटर ट्रांसफ़ॉर्म मौजूद है जो प्रोफ़ाइल लॉग-लाइबिलिटी को लगभग द्विघात बनाता है।

द्विघात महत्वपूर्ण है क्योंकि यह लॉग-स्केल में एक सामान्य वितरण को परिभाषित करता है। यह जितना अधिक द्विघात होता है, उतना ही बेहतर सन्निकटन और परिणामी CI 'होता है। संभावना अंतराल के लिए 1/20 वीं कटऑफ की आपकी पसंद एसिम्प्टोटिक सीमा में 95% से अधिक सीआई के बराबर है, यही कारण है कि नीले अंतराल आमतौर पर लाल वाले की तुलना में लंबे होते हैं।

अब, प्रोफाइल संभावना के साथ एक और मुद्दा है जिस पर कुछ ध्यान देने की आवश्यकता है। यदि आपके पास बहुत सारे वैरिएबल हैं जिन पर आप प्रोफाइल कर रहे हैं, तो यदि प्रति आयाम डेटा बिंदुओं की संख्या कम है, तो प्रोफ़ाइल संभावना बहुत पक्षपाती और आशावादी हो सकती है। इस पूर्वाग्रह को कम करने के लिए सीमांत, सशर्त और संशोधित प्रोफाइल संभावना का उपयोग किया जाता है।

तो, आपके प्रश्न का उत्तर हां है ... कनेक्शन अधिकांश अधिकतम संभावना अनुमानों की विषमता सामान्यता है, जैसा कि संभावना अनुपात के ची-चुकता वितरण में प्रकट होता है।


" यदि आपके पास बहुत सारे वैरिएबल हैं जिन्हें आप प्रोफाइल कर रहे हैं, तो यदि प्रति आयाम डेटा बिंदुओं की संख्या कम है, तो प्रोफाइल संभावना बहुत पक्षपाती और आशावादी हो सकती है " की तुलना में आशावादी?
फ्लास्क

@Flask आशावादी से मेरा मतलब है कि यह एक विश्वास अंतराल के रूप में इलाज करते समय नाममात्र कवरेज संभावना प्रदान करने के लिए बहुत संकीर्ण होगा।

मैं देखता हूं, धन्यवाद, लेकिन मेरे विशिष्ट मामले में यह वास्तव में निराशावादी है? मैं इस बिंदु पर भ्रमित हूं कि क्या हम संभावना अंतराल या संभावित अंतराल से प्राप्त आत्मविश्वास अंतराल के बारे में बात कर रहे हैं।
फ्लास्क

@ मुझे लगता है कि आप अंतराल निराशावादी दिखाई देते हैं क्योंकि आप 95% सीआई के साथ 1/20 वें संभावना अंतराल (5% सापेक्ष संभावना) की तुलना कर रहे हैं। जैसा कि यहां दूसरों द्वारा कहा गया है, आप वास्तव में सेब से सेब के लिए 15% सापेक्ष संभावना अंतराल की तुलना करना चाहते हैं ... कम से कम स्पर्शोन्मुख रूप से। आपकी संभावना अंतराल के रूप में यह खड़ा है और अधिक विकल्पों के रूप में विचार कर रहा है।

मैंने यहाँ जो कुछ भी सीख रहा है, उसे लागू करने की अपनी वास्तविक समस्या को विस्तृत किया है । मुझे चिंता है कि उस मामले में जहां नमूना वितरण अज्ञात है (लेकिन शायद सामान्य नहीं है) और जटिल है कि आपकी दो आवश्यकताओं को पकड़ नहीं सकता है। फिर भी मैंने जो प्रोफाइल की गणना की है वह सामान्य और उचित प्रतीत होती है। क्या यह है कि माध्य का नमूना वितरण सामान्य रूप से वितरित किया जाना चाहिए?
फ्लास्क
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.