बिनर्ड डेटा की तीसरी चतुर्थांश का अनुमान कैसे लगाया जाए?


12

क्या तीसरा चतुर्थक निर्धारित करने के लिए कोई तकनीकी चाल है यदि यह एक खुले अंतराल से संबंधित है जिसमें एक चौथाई आबादी है (इसलिए मैं अंतराल को बंद नहीं कर सकता और मानक सूत्र का उपयोग नहीं कर सकता)?

संपादित करें

मामले में मैं कुछ गलत समझा मैं कम या ज्यादा पूर्ण संदर्भ प्रदान करेगा। मेरे पास दो स्तंभों वाली एक तालिका में डेटा की व्यवस्था है और कहते हैं, 6 पंक्तियों। प्रत्येक स्तंभ एक अंतराल (पहले स्तंभ में) और जनसंख्या की एक मात्रा से मेल खाता है जो उस अंतराल के लिए "संबंधित" है। अंतिम अंतराल खुला है और इसमें 25% से अधिक जनसंख्या शामिल है। सभी अंतराल (अंतिम को छोड़कर) की एक ही सीमा है।

नमूना डेटा (प्रस्तुति के लिए प्रेषित):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182 

पहले कॉलम की व्याख्या आय स्तर की श्रेणी के रूप में की जानी है। दूसरे की व्याख्या उन कर्मचारियों की संख्या के रूप में की जानी चाहिए जिनकी आय अंतराल से संबंधित है।

मैं जिस मानक सूत्र के बारे में सोच रहा हूँ, वह है ।Q3=xQ3+3N4i=1k1ninQ3rQ3


एक सामान्य धारणा जब बिनेड डेटा के साथ मात्राओं का अनुमान लगाने की कोशिश की जाती है, तो डिब्बे के भीतर एकरूपता माननी होती है। लेकिन जब आप डेटा के वितरित होने की संभावना के बारे में कुछ जानते हैं (जैसा कि आय के साथ, जो सही तिरछा है) ऐसी धारणाएं हैं जो दर्शाती हैं कि ज्ञान बेहतर होगा। एक अन्य विकल्प यह माना जाएगा कि यह सुचारू है, और फिर डेटा को सुचारू करें (चाहे केडीई या कुछ सज्जित वितरण द्वारा), मॉडल के अनुसार डिब्बे के भीतर बिंदुओं का पुनर्वितरण करें [और संभवतः फिर से अनुमान करें (कुछ ईएम-जैसे फैशन में) फिट, और फिर से डिब्बे में पुनर्वितरण करें] फिर उसी से मात्राओं का अनुमान लगाएं।
Glen_b -Reinstate मोनिका

जवाबों:


16

आपको इन बिन डेटा को कुछ वितरण मॉडल के साथ फिट करने की आवश्यकता है , इसके लिए ऊपरी चतुर्थक में एक्सट्रपलेशन करने का एकमात्र तरीका है।

एक नमूना

परिभाषा के अनुसार, इस तरह के मॉडल को एक कैडलाग फ़ंक्शन द्वारा दिया जाता है जो से तक बढ़ रहा है । संभावना यह किसी भी अंतराल को निर्दिष्ट की है , आप एक (सदिश द्वारा अनुक्रमित संभव कार्यों के एक परिवार का मानना है की जरूरत है) पैरामीटर। फिट बनाने के लिए , । मान लें कि नमूना कुछ विशिष्ट (लेकिन अज्ञात) द्वारा वर्णित आबादी से यादृच्छिक रूप से और स्वतंत्र रूप से चुने गए लोगों के एक संग्रह को सारांशित करता है , नमूना की संभावना (या संभावना , ) व्यक्ति का उत्पाद है संभावनाएं। उदाहरण में, यह बराबर होगा0 1 ( एक , ] एफ ( ) - एफ ( एक ) θ { एफ θ } एफ θ एलF01(a,b]F(b)F(a)θ{Fθ}FθL

L(θ)=(Fθ(8)Fθ(6))51(Fθ(10)Fθ(8))65(Fθ()Fθ(16))182

क्योंकि लोगों में सम्भावनाएँ , में संभाव्यताएँ , और इसी तरह हैं।एफ θ ( 8 ) - एफ θ ( 6 ) 65 एफ θ ( 10 ) - एफ θ ( 8 )51Fθ(8)Fθ(6)65Fθ(10)Fθ(8)

डेटा के लिए मॉडल फिटिंग

अधिकतम संभावना सुविधा के एक मूल्य के जो अधिकतम है (या समतुल्य, के लघुगणक )।θLL

आय वितरण अक्सर लॉगनल असामान्य वितरण (उदाहरण के लिए, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ) द्वारा तैयार किए जाते हैं । लेखन the , तार्किक वितरण का परिवार हैθ=(μ,σ)

F(μ,σ)(x)=12π(log(x)μ)/σexp(t2/2)dt.

इस परिवार के लिए (और कई अन्य) यह संख्यात्मक रूप से को अनुकूलित करने के लिए सीधा है । उदाहरण के लिए, हम गणना करने के लिए एक फ़ंक्शन लिखेंगे और फिर इसे ऑप्टिमाइज़ करेंगे, क्योंकि अधिकतम अधिकतम साथ मेल खाता है और (आमतौर पर) के साथ काम करने के लिए गणना और संख्यात्मक रूप से अधिक स्थिर करने के लिए सरल है:लॉग ( एल ( θ ) ) लॉग ( एल ) एल लॉग ( एल )LRlog(L(θ))log(L)Llog(L)

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

इस उदाहरण में समाधान मूल्य में पाया जाने वाला ।θ=(μ,σ)=(2.620945,0.379682)fit$par

मॉडल मान्यताओं की जाँच करना

हमें कम से कम यह जाँचने की आवश्यकता है कि यह माना गया लॉगऑनॉर्मलिटी के अनुरूप कितना अच्छा है, इसलिए हम गणना करने के लिए एक फ़ंक्शन लिखते हैं :F

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

यह फिट या "अनुमानित" बिन आबादी प्राप्त करने के लिए डेटा पर लागू होता है:

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

हम इन भूखंडों की पहली पंक्ति में दिखाए गए आंकड़ों की हिस्टोग्राम और उनसे तुलना करने की भविष्यवाणी कर सकते हैं:

हिस्टोग्राम

उनकी तुलना करने के लिए, हम ची-स्क्वायड स्टैटिस्टिक की गणना कर सकते हैं। यह आमतौर पर महत्व का आकलन करने के लिए ची-वर्गीय वितरण के लिए भेजा जाता है :

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

का "पी-वैल्यू" काफी छोटा है जिससे कई लोगों को लगता है कि फिट अच्छा नहीं है। भूखंडों को देखते हुए, समस्या स्पष्ट रूप से सबसे कम बिन में केंद्रित है । शायद निचला टर्मिनस शून्य होना चाहिए था? अगर, एक खोजपूर्ण फैशन में, हम को से कम कुछ भी कम करने के लिए थे , तो हम भूखंडों की निचली पंक्ति में दिखाए गए फिट को प्राप्त करेंगे। चि-वर्गित पी-मान अब , (काल्पनिक रूप से, क्योंकि हम विशुद्ध रूप से अब एक खोज मोड में हैं) यह दर्शाता है कि यह आँकड़ा डेटा और फिट के बीच कोई महत्वपूर्ण अंतर नहीं पाता है।6 - 8 6 3 0.400.008768630.40

मात्राओं का अनुमान लगाने के लिए फिट का उपयोग करना

यदि हम स्वीकार करते हैं, तो, (1) आय लगभग वितरित की जाती है और (2) आय की निचली सीमा ( अंक) से कम है , तो अधिकतम संभावना अनुमान है = । इन मापदंडों का उपयोग करके हम प्रतिशताइल प्राप्त करने के लिए को उल्टा कर सकते हैं :3 ( μ , σ ) ( 2.620334 , 0.405454 ) F 75 वें63(μ,σ)(2.620334,0.405454)F75th

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

मान । (अगर हमने पहले बिन की निचली सीमा को से नहीं बदला , तो हमें बजाय प्राप्त होगा ।)6 3 17.7618.066317.76

इन प्रक्रियाओं और इस कोड को सामान्य रूप से लागू किया जा सकता है। तीसरी चतुर्थांश के आसपास एक विश्वास अंतराल की गणना करने के लिए अधिकतम संभावना के सिद्धांत का और अधिक दोहन किया जा सकता है, यदि वह रुचि का हो।


वाह धन्यवाद! मुझे स्वीकार करना चाहिए कि मैंने इस तरह के उन्नत (कम से कम मेरे लिए) मशीनरी का उपयोग करने के लिए समाधान खोजने की उम्मीद नहीं की थी।
atad

मशीनरी को उन्नत या परिष्कृत नहीं होना चाहिए, लेकिन इस उदाहरण की समान सामान्य पंक्तियों का पालन करने के लिए आपको जो भी करना चाहिए: आय वितरण के बारे में कुछ मान लें, एक गणितीय मॉडल को फिट करने के लिए उपयोग करें, तर्क के लिए मॉडल की जांच करें, और यदि यह है एक उचित फिट, यह चतुर्थक की गणना करने के लिए उपयोग करें। रास्ते के साथ, ग्राफिकल तरीकों का उपयोग करें क्योंकि वे दिलचस्प पैटर्न प्रकट कर सकते हैं। (यहाँ, हित में lognormality से एक स्पष्ट प्रस्थान है कि वहाँ है कम आय वर्ग के: मुझे आश्चर्य है कि होता है कि क्यों होता है और क्या यह इस आबादी के बारे में कह सकते हैं।)
whuber

+1, बढ़िया जवाब। लगता है कि मुझे अभी आर सीखना है।
डेव

8

एक टिप्पणी के लिए बहुत लंबा:

व्हूबर्स का जवाब किसी भी तरह से अच्छा है, लेकिन वह अपने लॉग-नॉर्मल मॉडल में राइट-स्केवनेस मान लेता है। यह एक सामान्य आबादी से अधिक आय के लिए यथार्थवादी हो सकता है, लेकिन किसी एकल नियोक्ता के लिए किसी विशेष ग्रेड में आय के लिए नहीं हो सकता है।

आप वैकल्पिक रूप से वितरण को मॉडल के रूप में चुन सकते हैं जो मोटे तौर पर सममित रूप में हो सकता है जिस स्थिति में आप को 16-18 की सीमा में रख सकते हैं , को 18-20 में और को 22-24 की सीमा में और यह आपको एक तीसरा चतुर्थांश का अनुमान देगा। ।64 50 17.568645017.5

यदि आपके पास लगभग प्रति डबल यूनिट पर आवृत्ति जारी रखने का विकल्प है, तो आपके पास कम अनुमान होगा, जो आपको लगभग का तीसरा चतुर्थक अनुमान देगा ।17.38017.3

अन्य अनुमानों के साथ उच्च अनुमान संभव है। तो मेरा निष्कर्ष यह होगा कि तीसरा चतुर्थक बिंदु से ऊपर होने की संभावना है , लेकिन आपके पास वास्तव में पर्याप्त डेटा नहीं है कि आप बिना किसी सटीक अनुमान के अधिक अनुमान लगा सकें (या मान लें) शीर्ष अंत में आय के वितरण के बारे में अधिक, और वह ठीक वही है जो आप नहीं जानते हैं।17


1
(+1) मॉडल मान्यताओं पर उत्तर की निर्भरता पर जोर (और विश्लेषण) के लिए धन्यवाद। यदि (उदाहरण में) आप कुछ भी नहीं मान सकते हैं, तो आप सभी कह सकते हैं कि तीसरा चतुर्थक से अधिक है । यदि आप किसी मॉडल को मानते हैं, तो कम से कम आप अपनी सलाह के उपभोक्ता से कह सकते हैं, "यदि आपकी आय वितरण की तस्वीर कम से कम मोटे तौर पर मेरे द्वारा ग्रहण की गई है, तो आप मेरे परिणाम का उपयोग तीसरे के एक उचित अनुमान के रूप में कर सकते हैं।" quantile। " (अधिकांश सांख्यिकीय निष्कर्ष परोक्ष इस तरह की सशर्त, कर रहे हैं।)16
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.