आपको इन बिन डेटा को कुछ वितरण मॉडल के साथ फिट करने की आवश्यकता है , इसके लिए ऊपरी चतुर्थक में एक्सट्रपलेशन करने का एकमात्र तरीका है।
एक नमूना
परिभाषा के अनुसार, इस तरह के मॉडल को एक कैडलाग फ़ंक्शन द्वारा दिया जाता है जो से तक बढ़ रहा है । संभावना यह किसी भी अंतराल को निर्दिष्ट की है , आप एक (सदिश द्वारा अनुक्रमित संभव कार्यों के एक परिवार का मानना है की जरूरत है) पैरामीटर। फिट बनाने के लिए , । मान लें कि नमूना कुछ विशिष्ट (लेकिन अज्ञात) द्वारा वर्णित आबादी से यादृच्छिक रूप से और स्वतंत्र रूप से चुने गए लोगों के एक संग्रह को सारांशित करता है , नमूना की संभावना (या संभावना , ) व्यक्ति का उत्पाद है संभावनाएं। उदाहरण में, यह बराबर होगा0 1 ( एक , ख ] एफ ( ख ) - एफ ( एक ) θ { एफ θ } एफ θ एलएफ01( ए , बी ]एफ( b ) - एफ( ए )θ{ एफθ}एफθएल
एल ( θ ) = ( एफ )θ( 8 ) - एफθ( 6 ) )51( एफθ( १० ) - एफθ( 8 ) )65⋯ ( एफθ( ∞ ) - एफθ( 16 ) )182
क्योंकि लोगों में सम्भावनाएँ , में संभाव्यताएँ , और इसी तरह हैं।एफ θ ( 8 ) - एफ θ ( 6 ) 65 एफ θ ( 10 ) - एफ θ ( 8 )51एफθ( 8 ) - एफθ( ६ )65एफθ( १० ) - एफθ( 8 )
डेटा के लिए मॉडल फिटिंग
अधिकतम संभावना सुविधा के एक मूल्य के जो अधिकतम है (या समतुल्य, के लघुगणक )।ल लθएलएल
आय वितरण अक्सर लॉगनल असामान्य वितरण (उदाहरण के लिए, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ) द्वारा तैयार किए जाते हैं । लेखन the , तार्किक वितरण का परिवार हैθ = ( μ , σ)
एफ( μ , σ)( x ) = 12 π--√∫( लॉग( X ) - μ ) / σ- ∞exp( - टी2/ 2)डीटी ।
इस परिवार के लिए (और कई अन्य) यह संख्यात्मक रूप से को अनुकूलित करने के लिए सीधा है । उदाहरण के लिए, हम गणना करने के लिए एक फ़ंक्शन लिखेंगे और फिर इसे ऑप्टिमाइज़ करेंगे, क्योंकि अधिकतम अधिकतम साथ मेल खाता है और (आमतौर पर) के साथ काम करने के लिए गणना और संख्यात्मक रूप से अधिक स्थिर करने के लिए सरल है:लॉग ( एल ( θ ) ) लॉग ( एल ) एल लॉग ( एल )एलR
लॉग( L ( θ ) )लॉग( L )एललॉग( L )
logL <- function(thresh, pop, mu, sigma) {
l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma))
- pnorm(log(x1), mean=mu, sd=sigma)
logl <- function(n, x1, x2) n * log(l(x1, x2))
sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}
thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))
इस उदाहरण में समाधान मूल्य में पाया जाने वाला ।θ = ( μ , σ) = ( 2.620945 , 0.379682 )fit$par
मॉडल मान्यताओं की जाँच करना
हमें कम से कम यह जाँचने की आवश्यकता है कि यह माना गया लॉगऑनॉर्मलिटी के अनुरूप कितना अच्छा है, इसलिए हम गणना करने के लिए एक फ़ंक्शन लिखते हैं :एफ
predict <- function(a, b, mu, sigma, n) {
n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma))
- pnorm(log(a), mean=mu, sd=sigma) )
यह फिट या "अनुमानित" बिन आबादी प्राप्त करने के लिए डेटा पर लागू होता है:
pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)),
thresh, c(thresh[-1], NA))
हम इन भूखंडों की पहली पंक्ति में दिखाए गए आंकड़ों की हिस्टोग्राम और उनसे तुलना करने की भविष्यवाणी कर सकते हैं:
उनकी तुलना करने के लिए, हम ची-स्क्वायड स्टैटिस्टिक की गणना कर सकते हैं। यह आमतौर पर महत्व का आकलन करने के लिए ची-वर्गीय वितरण के लिए भेजा जाता है :
chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)
का "पी-वैल्यू" काफी छोटा है जिससे कई लोगों को लगता है कि फिट अच्छा नहीं है। भूखंडों को देखते हुए, समस्या स्पष्ट रूप से सबसे कम बिन में केंद्रित है । शायद निचला टर्मिनस शून्य होना चाहिए था? अगर, एक खोजपूर्ण फैशन में, हम को से कम कुछ भी कम करने के लिए थे , तो हम भूखंडों की निचली पंक्ति में दिखाए गए फिट को प्राप्त करेंगे। चि-वर्गित पी-मान अब , (काल्पनिक रूप से, क्योंकि हम विशुद्ध रूप से अब एक खोज मोड में हैं) यह दर्शाता है कि यह आँकड़ा डेटा और फिट के बीच कोई महत्वपूर्ण अंतर नहीं पाता है।6 - 8 6 3 0.400.00876 - 8630.40
मात्राओं का अनुमान लगाने के लिए फिट का उपयोग करना
यदि हम स्वीकार करते हैं, तो, (1) आय लगभग वितरित की जाती है और (2) आय की निचली सीमा ( अंक) से कम है , तो अधिकतम संभावना अनुमान है = । इन मापदंडों का उपयोग करके हम प्रतिशताइल प्राप्त करने के लिए को उल्टा कर सकते हैं :3 ( μ , σ ) ( 2.620334 , 0.405454 ) F 75 वें63(μ,σ)(2.620334,0.405454)F75th
exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))
मान । (अगर हमने पहले बिन की निचली सीमा को से नहीं बदला , तो हमें बजाय प्राप्त होगा ।)6 3 17.7618.066317.76
इन प्रक्रियाओं और इस कोड को सामान्य रूप से लागू किया जा सकता है। तीसरी चतुर्थांश के आसपास एक विश्वास अंतराल की गणना करने के लिए अधिकतम संभावना के सिद्धांत का और अधिक दोहन किया जा सकता है, यदि वह रुचि का हो।