मैं R में Pareto वितरण के लिए डेटा का एक सेट कैसे फिट करूं?


22

चलो, हम कहते हैं, निम्नलिखित डेटा:

8232302  684531  116857   89724   82267   75988   63871   
  23718    1696     436     439     248     235

इसे (और कई अन्य डेटासेट) एक पारेटो वितरण के लिए फिट करने के लिए एक सरल तरीका चाहते हैं। आदर्श रूप से यह मिलान के सैद्धांतिक मूल्यों का उत्पादन करेगा, कम आदर्श रूप से पैरामीटर।



"मिलान सैद्धांतिक मूल्यों" से क्या अभिप्राय है? आदेश आँकड़ों की अपेक्षाओं ने पैरामीटर अनुमान दिया? या कुछ और?
Glen_b -Reinstate Monica

जवाबों:


33

ठीक है, आप एक नमूना है, तो पैरामीट वितरण से पैरामीटर्स के साथ m > 0 और α > 0 (जहां m निचला बाउंड पैरामीटर है और α शेप पैरामीटर है) उस नमूने की लॉग-लाइबिलिटी है:X1,...,Xnm>0α>0mα

nlog(α)+nαlog(m)(α+1)i=1nlog(Xi)

यह में एक नीरस रूप से बढ़ रहा है , इसलिए अधिकतम मान सबसे बड़ा मान है जो अवलोकन किए गए डेटा के अनुरूप है। चूंकि पैरामीटर एम पेरेटो वितरण के लिए समर्थन की निचली सीमा को परिभाषित करता है, इसलिए इष्टतम हैmm

m^=miniXi

जो पर निर्भर नहीं करता है । अगला, साधारण कैलकुलस ट्रिक्स का उपयोग करके, MLE for α को संतुष्ट करना होगाαα

nα+nlog(m^)i=1nlog(Xi)=0

कुछ सरल बीजगणित हमें का MLE बताता हैα

α^=ni=1nlog(Xi/m^)

कई महत्वपूर्ण इंद्रियों में (जैसे कि इसमें इष्टतम विषम दक्षता, यह क्रैमर-राव लोअर बाउंड को प्राप्त करता है), यह एक पारेटो वितरण के लिए डेटा को फिट करने का सबसे अच्छा तरीका है। गणना किसी दिए गए डेटा सेट के लिए MLE नीचे आर कोड, X

pareto.MLE <- function(X)
{
   n <- length(X)
   m <- min(X)
   a <- n/sum(log(X)-log(m))
   return( c(m,a) ) 
}

# example. 
library(VGAM)
set.seed(1)
z = rpareto(1000, 1, 5) 
pareto.MLE(z)
[1] 1.000014 5.065213

संपादित करें: @cardinal द्वारा टीका के आधार पर और मैं नीचे, हम भी है कि नोट कर सकते हैं α का नमूना माध्य का पारस्परिक है लॉग ( एक्स मैं / मीटर ) की है, जो भी हो एक घातीय वितरण के लिए। इसलिए, अगर हमारे पास ऐसे सॉफ़्टवेयर हैं, जो एक घातीय वितरण (जो अधिक संभावना है, क्योंकि यह कई सांख्यिकीय समस्याओं में उत्पन्न होता है) में फिट हो सकता है, तो इस तरह से सेट किए गए डेटा को बदलकर और इसे फिटिंग करके एक परेतो वितरण को पूरा किया जा सकता है। तब्दील पैमाने पर एक घातीय वितरण के लिए। α^log(Xi/m^)


3
(+1) हम कुछ और सुझाव देते हुए लिख सकते हैं कि को दर α के साथ घातांक वितरित किया गया है । इस और परिवर्तन हम एक बार है कि कम से निष्कर्ष निकालना तहत MLEs की निश्चरता से α = 1 / ˉ वाई , जहां हम बदलने के मीटर से मीटर बाद अभिव्यक्ति में। यह इस बात का संकेत भी है कि हम कैसे पारेटो को फिट करने के लिए मानक सॉफ्टवेयर का उपयोग कर सकते हैं, भले ही कोई स्पष्ट विकल्प उपलब्ध न हो। Yi=log(Xi/m)αα^=1/Y¯mm^
कार्डिनल

@cardinal - का नमूना माध्य का पारस्परिक है लॉग ( एक्स मैं / मीटर ) की है, जो भी हो एक घातीय वितरण के लिए। यह हमें कैसे मदद करता है? α^log(Xi/m^)
मैक्रों

2
हाय, मैक्रों। जिस बिंदु को मैं बनाने की कोशिश कर रहा था, वह यह था कि पेरेटो के मापदंडों के आकलन की समस्या एक घातांक की दर के अनुमान से (अनिवार्य रूप से) कम हो सकती है: ऊपर परिवर्तन के माध्यम से, हम अपने डेटा और समस्या को परिवर्तित कर सकते हैं। (शायद) अधिक परिचित एक और तुरंत उत्तर निकालें (हम, या हमारे सॉफ्टवेयर को मानते हुए, पहले से ही जानते हैं कि एक्सपोनेंशियल के नमूने के साथ क्या करना है)।
कार्डिनल

मैं इस तरह की फिट की त्रुटि को कैसे माप सकता हूं?
Emanuele

@ मेन्यूएल, एक एमएलई का अनुमानित संस्करण फिशर सूचना मैट्रिक्स का विलोम है, जिससे आपको लॉग-लाइबिलिटी के कम से कम एक व्युत्पन्न की गणना करने की आवश्यकता होगी। या, आप मानक त्रुटि का अनुमान लगाने के लिए एक तरह के बूटस्ट्रैप रिस्पॉम्पलिंग का उपयोग कर सकते हैं।
मैक्रो

8

आप पैकेज fitdistमें दिए गए फ़ंक्शन का उपयोग कर सकते हैं fitdistrplus:

library(MASS)
library(fitdistrplus)
library(actuar)

# suppose data is in dataPar list
fp <- fitdist(dataPar, "pareto", start=list(shape = 1, scale = 500))
#the mle parameters will be stored in fp$estimate

क्या ऐसा होना चाहिए library(fitdistrplus)?
सीन

1
@ सीन हाँ, संपादन प्रतिक्रिया तदनुसार
केविन एल कीज़

ध्यान दें कि library(actuar)इस काम के लिए कॉल की आवश्यकता है।
jsta

Fp $ अनुमान ["आकृति"] इस मामले में क्या दर्शाता है? क्या यह शायद अनुमानित अल्फा है? या बीटा?
अल्बर्ट हेंड्रिक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.