पृष्ठभूमि: मेरे पास एक नमूना है जिसे मैं एक भारी पूंछ वाले वितरण के साथ मॉडल करना चाहता हूं। मेरे पास कुछ चरम मूल्य हैं, जैसे कि टिप्पणियों का प्रसार अपेक्षाकृत बड़ा है। मेरा विचार यह था कि मैं इसे सामान्यीकृत पारेतो वितरण के साथ जोड़ूं, और इसलिए मैंने यह किया है। अब, मेरे अनुभवजन्य डेटा का 0.975 मात्रात्मक (लगभग 100 डेटा पॉइंट) सामान्यीकृत परेटो वितरण के 0.975 मात्रात्मक से कम है जो मैंने अपने डेटा के लिए फिट किया था। अब, मैंने सोचा, क्या यह जांचने का कोई तरीका है कि क्या यह अंतर चिंता का विषय है?
हम जानते हैं कि मात्राओं का विषम वितरण निम्नानुसार है:
इसलिए मैंने सोचा कि यह एक सामान्य विचार होगा कि सामान्यीकृत पारेतो वितरण के 0.975 के आसपास 95% विश्वास बैंड को प्लॉट करने की कोशिश करने के साथ-साथ उसी पैरामीटर के साथ जैसा कि मुझे अपने डेटा की फिटिंग से मिला है।
जैसा कि आप देख रहे हैं, हम यहां कुछ चरम मूल्यों के साथ काम कर रहे हैं। और जब से प्रसार इतना विशाल है, घनत्व फ़ंक्शन में बहुत छोटे मूल्य हैं, जिससे विश्वास बैंड ऊपर के asymptotic normality सूत्र के विचलन का उपयोग करके के क्रम में जाते हैं :
तो, इसका कोई मतलब नहीं है। मेरे पास केवल सकारात्मक परिणामों के साथ एक वितरण है, और आत्मविश्वास अंतराल में नकारात्मक मूल्य शामिल हैं। इसलिए यहां कुछ चल रहा है। अगर मैं 0.5 मात्रा के आसपास बैंड की गणना करता हूं, तो बैंड उस विशाल नहीं हैं , लेकिन फिर भी विशाल हैं।
मैं यह देखने के लिए आगे बढ़ता हूं कि यह एक और वितरण के साथ कैसे जाता है, अर्थात् वितरण। एक वितरण से अवलोकनों का अनुकरण करें, और जांच करें कि क्या क्वांटाइल्स विश्वास बैंड के भीतर हैं। मैं ऐसा 10000 बार करता हूं कि नकली बैंड के 0.975 / 0.5 मात्राओं के अनुपात को देखने के लिए जो विश्वास बैंड के भीतर हैं।
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
संपादित करें : मैंने कोड निर्धारित किया है, और दोनों मात्राएँ लगभग 95% n = 100 और साथ हिट देती हैं । यदि मैंने मानक विचलन को तक क्रैंक किया है , तो बहुत कम हिट बैंड के भीतर हैं। तो सवाल अभी भी खड़ा है।
EDIT2 : मैंने पहले EDIT में ऊपर जो दावा किया था, मैं उसे वापस लेता हूं, जैसा कि एक सहायक सज्जन द्वारा टिप्पणियों में बताया गया है। यह वास्तव में इन CI की तरह दिखता है जो सामान्य वितरण के लिए अच्छे हैं।
क्या यह आदेश की अस्मितावादी सामान्यता का उपयोग करने के लिए सिर्फ एक बहुत ही बुरा उपाय है, अगर कोई जांच करना चाहता है कि क्या कुछ मनाया गया मात्रात्मक संभावित रूप से एक निश्चित उम्मीदवार वितरण दिया गया है?
सहज रूप से, यह मुझे ऐसा लगता है कि वितरण के विचरण के बीच एक संबंध है (जो कोई सोचता है कि डेटा बनाया गया है, या मेरे आर उदाहरण में, जिसे हम जानते हैं कि डेटा बनाया गया है) और टिप्पणियों की संख्या। यदि आपके पास 1000 अवलोकन और एक विशाल विचरण है, तो ये बैंड खराब हैं। यदि किसी के पास 1000 अवलोकन और एक छोटा संस्करण है, तो ये बैंड शायद समझ में आएंगे।
किसी को भी मेरे लिए यह साफ करने के लिए परवाह है?
band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))