भारी पूंछ वाले वितरण के क्रम सांख्यिकीय की विषमता सामान्यता


9

पृष्ठभूमि: मेरे पास एक नमूना है जिसे मैं एक भारी पूंछ वाले वितरण के साथ मॉडल करना चाहता हूं। मेरे पास कुछ चरम मूल्य हैं, जैसे कि टिप्पणियों का प्रसार अपेक्षाकृत बड़ा है। मेरा विचार यह था कि मैं इसे सामान्यीकृत पारेतो वितरण के साथ जोड़ूं, और इसलिए मैंने यह किया है। अब, मेरे अनुभवजन्य डेटा का 0.975 मात्रात्मक (लगभग 100 डेटा पॉइंट) सामान्यीकृत परेटो वितरण के 0.975 मात्रात्मक से कम है जो मैंने अपने डेटा के लिए फिट किया था। अब, मैंने सोचा, क्या यह जांचने का कोई तरीका है कि क्या यह अंतर चिंता का विषय है?

हम जानते हैं कि मात्राओं का विषम वितरण निम्नानुसार है:

क्वांटाइल्स की विषमता संबंधी सामान्यता

इसलिए मैंने सोचा कि यह एक सामान्य विचार होगा कि सामान्यीकृत पारेतो वितरण के 0.975 के आसपास 95% विश्वास बैंड को प्लॉट करने की कोशिश करने के साथ-साथ उसी पैरामीटर के साथ जैसा कि मुझे अपने डेटा की फिटिंग से मिला है।

GPD

जैसा कि आप देख रहे हैं, हम यहां कुछ चरम मूल्यों के साथ काम कर रहे हैं। और जब से प्रसार इतना विशाल है, घनत्व फ़ंक्शन में बहुत छोटे मूल्य हैं, जिससे विश्वास बैंड ऊपर के asymptotic normality सूत्र के विचलन का उपयोग करके के क्रम में जाते हैं :±1012

±1.960.9750.025n(fGPD(q0.975))2

तो, इसका कोई मतलब नहीं है। मेरे पास केवल सकारात्मक परिणामों के साथ एक वितरण है, और आत्मविश्वास अंतराल में नकारात्मक मूल्य शामिल हैं। इसलिए यहां कुछ चल रहा है। अगर मैं 0.5 मात्रा के आसपास बैंड की गणना करता हूं, तो बैंड उस विशाल नहीं हैं , लेकिन फिर भी विशाल हैं।

मैं यह देखने के लिए आगे बढ़ता हूं कि यह एक और वितरण के साथ कैसे जाता है, अर्थात् वितरण। एक वितरण से अवलोकनों का अनुकरण करें, और जांच करें कि क्या क्वांटाइल्स विश्वास बैंड के भीतर हैं। मैं ऐसा 10000 बार करता हूं कि नकली बैंड के 0.975 / 0.5 मात्राओं के अनुपात को देखने के लिए जो विश्वास बैंड के भीतर हैं।N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

संपादित करें : मैंने कोड निर्धारित किया है, और दोनों मात्राएँ लगभग 95% n = 100 और साथ हिट देती हैं । यदि मैंने मानक विचलन को तक क्रैंक किया है , तो बहुत कम हिट बैंड के भीतर हैं। तो सवाल अभी भी खड़ा है।σ=1σ=2

EDIT2 : मैंने पहले EDIT में ऊपर जो दावा किया था, मैं उसे वापस लेता हूं, जैसा कि एक सहायक सज्जन द्वारा टिप्पणियों में बताया गया है। यह वास्तव में इन CI की तरह दिखता है जो सामान्य वितरण के लिए अच्छे हैं।

क्या यह आदेश की अस्मितावादी सामान्यता का उपयोग करने के लिए सिर्फ एक बहुत ही बुरा उपाय है, अगर कोई जांच करना चाहता है कि क्या कुछ मनाया गया मात्रात्मक संभावित रूप से एक निश्चित उम्मीदवार वितरण दिया गया है?

सहज रूप से, यह मुझे ऐसा लगता है कि वितरण के विचरण के बीच एक संबंध है (जो कोई सोचता है कि डेटा बनाया गया है, या मेरे आर उदाहरण में, जिसे हम जानते हैं कि डेटा बनाया गया है) और टिप्पणियों की संख्या। यदि आपके पास 1000 अवलोकन और एक विशाल विचरण है, तो ये बैंड खराब हैं। यदि किसी के पास 1000 अवलोकन और एक छोटा संस्करण है, तो ये बैंड शायद समझ में आएंगे।

किसी को भी मेरे लिए यह साफ करने के लिए परवाह है?


2
आपका बैंड स्पर्शोन्मुख सामान्य वितरण के विचरण पर आधारित है, लेकिन एसिम्प्टोटिक सामान्य वितरण के मानक विचलन पर आधारित होना चाहिए (बैंड = 1.96 * sqrt ((0.975 * 0.025) / (100 * (fnorm) ^ 2),) और सामान्य रूप से Pareto dist'n के लिए इसी तरह।) इसके बजाय कोशिश करें और देखें कि क्या होता है।
18

@ जंबोमैन ने इशारा किया कि धन्यवाद! मैं इसे ठीक कर दूंगा !
इरोसिनिन

@ जंबोमैन जो बैंड को छोटा बनाता है और उदाहरण में मेरे आर-कोड के साथ जो वास्तव में कुछ कम हिट देता है। यह एक और त्रुटि के रूप में अच्छी तरह से था, जिसने गणना को गलत बना दिया था, लेकिन मैंने अभी तय किया है। आपने मुझे इसके लिए प्रेरित किया, इसलिए मैं इसकी बहुत सराहना करता हूं! जीडीपी के मामले में छोटे बैंड बहुत अच्छी खबर है, लेकिन मुझे डर है कि वे अभी भी इतने बड़े हैं कि उनका उपयोग करना असंभव है। मैं अभी भी किसी भी अन्य चीज को नहीं देख सकता हूं कि रिश्ते का नमूना आकार और भिन्नता वह है जो बड़ी होनी चाहिए, केवल नमूना आकार नहीं।
इरोसिनिन

कोई चिंता नहीं! मैं ध्यान देता हूं कि आपने अपने पहले सूत्र के सामने एक किया है; यदि आप दोनों पक्षों को उस के अनुसार विभाजित करते हैं , तो इससे मदद मिल सकती है। क्षमा करें, मुझे पहली बार याद आया। (हो सकता है कि आपने इसे भी ठीक कर दिया हो, लेकिन सवाल के प्रासंगिक हिस्सों को अपडेट नहीं किया है।)(n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
जुम्मन डे

1
हाँ, ऐसा होता है, मैंने ध्यान नहीं दिया। OTOH, जब मैं आपके कोड को चलाता हूं, तो sd = 1 को sd = 2 में हर जगह बदलते हुए, मुझे क्रमशः 0.975 क्वांटाइल: 0.9683 और 0.9662 पर दोनों समय के हिट के लगभग समान अंश मिलते हैं। मुझे आश्चर्य है कि अगर आप एक sd = 1 कहीं से रन से चूक गए ? σ=2
जम्मन 17

जवाबों:


3

मैं मान रहा हूँ कि आपकी व्युत्पत्ति इस पृष्ठ पर एक जैसी किसी चीज़ से हुई है ।

मेरे पास केवल सकारात्मक परिणामों के साथ एक वितरण है, और आत्मविश्वास अंतराल में नकारात्मक मूल्य शामिल हैं।

खैर, सामान्य सन्निकटन को देखते हुए जो समझ में आता है। एक सामान्य सन्निकटन आपको नकारात्मक मान देने से कुछ भी नहीं रोकता है, यही वजह है कि यह एक बंधे हुए मूल्य के लिए एक खराब अनुमान है जब नमूना का आकार छोटा होता है और / या विचरण बड़ा होता है। यदि आप नमूना आकार को क्रैंक करते हैं, तो अंतराल सिकुड़ जाएगा क्योंकि नमूना आकार अंतराल की चौड़ाई के लिए अभिव्यक्ति के हर में है। विचरण घनत्व के माध्यम से समस्या में प्रवेश करता है: एक ही मतलब के लिए, एक उच्च विचरण में एक अलग घनत्व होगा, उच्च मार्जिन पर और केंद्र के पास कम। कम घनत्व का मतलब व्यापक आत्मविश्वास अंतराल है क्योंकि घनत्व अभिव्यक्ति के हर में है।

अन्य लोगों के बीच, इस पृष्ठ को थोड़ा सा गोग्लिंग मिला , जो विश्वास सीमा का निर्माण करने के लिए द्विपद वितरण के लिए सामान्य सन्निकटन का उपयोग करता है। मूल विचार यह है कि प्रत्येक अवलोकन परिमाण q के साथ परिमाण से नीचे आता है , ताकि वितरण द्विपद हो। जब नमूना आकार पर्याप्त रूप से बड़ा होता है (जो महत्वपूर्ण होता है), द्विपद वितरण अच्छी तरह से औसत और भिन्नता साथ एक सामान्य वितरण द्वारा अनुमानित होता है । तो निचले आत्मविश्वास की सीमा में इंडेक्स , और ऊपरी विश्वास सीमा में index । ऐसी संभावना है कि या तो याnqnq(1q)j=nq1.96nq(1q)k=nq1.96nq(1q)k>nj<1 जब किनारे के पास मात्राओं के साथ काम कर रहा है, और मुझे जो संदर्भ मिला है, वह उस पर चुप है। मैंने प्रासंगिक मूल्य के रूप में अधिकतम या न्यूनतम इलाज करने के लिए चुना।

आपके कोड के निम्नलिखित री-राइट में मैंने अनुभवजन्य डेटा पर विश्वास सीमा का निर्माण किया और यह देखने के लिए परीक्षण किया कि क्या सैद्धांतिक क्वांटाइल उसके अंदर आता है। यह मेरे लिए और अधिक समझ में आता है, क्योंकि प्रेक्षित डेटा सेट की मात्रा यादृच्छिक चर है। N> 1000 के लिए कवरेज ~ 0.95 है। N = 100 के लिए यह 0.85 पर खराब है, लेकिन छोटे नमूने के आकार के साथ पूंछ के पास क्वांटाइल्स के लिए अपेक्षित है।

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

जहां तक ​​यह निर्धारित करना है कि किस नमूने का आकार "बड़ा पर्याप्त" है, ठीक है, बड़ा बेहतर है। क्या कोई विशेष नमूना "बड़ा पर्याप्त" है, हाथ में समस्या पर दृढ़ता से निर्भर करता है, और आप अपने विश्वास की सीमा जैसी चीजों के बारे में कितने उधम मचाते हैं।


योगदान के लिए धन्यवाद! मैंने ध्यान दिलाया कि मैं यह नहीं देखता कि कोई "पूर्ण" बड़ा नमूना कैसे मौजूद है, और किसी को विचरण के लिए ध्यान रखना होगा। मैं यह जानने के लिए उत्सुक हूं कि यह सीआई के निर्माण के मेरे तरीके से संबंधित है, लेकिन सामान्य रूप से भी। व्युत्पत्ति के रूप में, आप उदाहरण के लिए यहां देख सकते हैं: math.mcgill.ca/~dstephens/OldCourses/556-2006/… इस लिंक में उदाहरण से CI का निर्माण मैंने किया है। आप लिखते हैं कि "मैंने अनुभवजन्य डेटा पर विश्वास सीमा का निर्माण किया है ..." और यह आपके लिए अधिक समझ में आता है। क्या आप कृपया इस सीआई मेरे सीआई पर थोड़ा और विस्तार कर सकते हैं?
एरोसिनिन

आह, हाँ, आपके पास सही व्युत्पत्ति लिंक था। माफ करना मेरा बुरा।
इरोसिनिन

ठीक है, मैंने इसे फिर से सही तरीके से वर्णन करने के लिए संपादित किया कि वितरण का विचलन आपके द्वारा उपयोग किए जाने वाले सन्निकटन को कैसे प्रभावित करता है, और "बड़े" नमूने का अर्थ क्या है, इस पर थोड़ी और चर्चा। आपका CI सैद्धांतिक मूल्य पर केंद्रित है, जबकि मेरा अनुभवजन्य पर केंद्रित है। मुझे लगता है कि एक सैद्धांतिक मात्रात्मक की तुलना एक सैद्धांतिक एक अंतराल के साथ की जानी चाहिए। इसके अलावा, मैंने जो सन्निकटन इस्तेमाल किया है वह एक कम "सामान्य" सन्निकटन बनाता है क्योंकि केंद्रीय सीमा प्रमेय को शुरू करने के लिए कोई अपील नहीं है।
एटिरेटो -

मैं प्रयास की सराहना करता हूं, शायद मेरा प्रश्न स्पष्ट हो सकता है। मुझे पहले से ही पता चल गया है कि घनत्व और नमूने का आकार विचरण को कैसे प्रभावित करता है, यह मेरी पहली जगह थी। लेकिन, फिर से, मेरा बुरा, मैं और अधिक स्पष्ट हो सकता था। यह "स्पर्शोन्मुख" है जो मुझे लगता है कि ऐसी चीज़ के साथ स्विच किया जाना चाहिए जो विचरण को ध्यान में रखता है। ठीक है, आपने अपने सीआई को सैद्धांतिक मूल्यों के आसपास केंद्रित किया है। n * q वास्तव में आपका सैद्धांतिक मूल्य है। अपने बैंड के निर्माण में, आपने अनिवार्य रूप से एक ही काम किया है, केवल एक अलग विधि के साथ।
इरोसिनिन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.