यदि मेरा डेटा एक घातीय वितरण फिट बैठता है तो मैं कैसे जांच करूं?


22

यदि मेरा डेटा जैसे वेतन आर में निरंतर घातीय वितरण से है तो मैं कैसे जांच सकता हूं?

यहाँ मेरे नमूने का हिस्टोग्राम है:

यहां छवि विवरण दर्ज करें

। किसी भी प्रकार की सहायता सराहनीय होगी!



सतत। मुझे आश्चर्य है कि अगर आर में कोई परीक्षण है कि जाँच करने के लिए
stjudent

1
स्वागत हे। fitdistrआर में फ़ंक्शन की तलाश करें। यह अधिकतम संभावना अनुमान (एमएलई) विधि के आधार पर संभाव्यता घनत्व फ़ंक्शन (पीडीएफ) को समायोजित करता है। साथ ही इस साइट की शर्तों को पीडीऍफ़, फिटडिस्टर, एमएलई और इसी तरह के प्रश्नों के रूप में खोजेंगे। इस तरह के सवालों को ध्यान में रखते हुए, अच्छे उत्तरों को इकट्ठा करने के लिए लगभग प्रतिलिपि प्रस्तुत करने योग्य उदाहरण की आवश्यकता होती है। इसके अलावा, यह मदद करता है अगर प्रश्न विशुद्ध रूप से प्रोग्रामिंग के बारे में नहीं है (जो इसे ऑफ-टॉपिक के रूप में होल्ड पर रख सकता है)।
आंद्रे सिल्वा

8
एक घातांक वितरण एक सीधी रेखा के रूप में प्लॉट करेगा प्लॉटिंग पोजिशन) जहां प्लॉटिंग पोजिशन है (रैंक , रैंक न्यूनतम मूल्य के लिए , नमूना आकार है, और के लिए लोकप्रिय विकल्पों में शामिल । यह एक अनौपचारिक परीक्षण देता है जो किसी भी औपचारिक परीक्षण की तुलना में अधिक या उपयोगी हो सकता है। - एक ) / ( n - 2 एक + 1 ) 1 n एक 1 / 2-ln(1--)/(n-2+1)1n1/2
निक कॉक्स

@Berkan ने अपने पोस्ट में क्वांटाइल प्लॉट आइडिया विकसित किया।
निक कॉक्स

जवाबों:


29

मैं इसे केवल पहले वितरण पैरामीटर rateका उपयोग करके अनुमान लगाकर करूँगा fitdistr। यह आपको नहीं बताएगा कि वितरण फिट बैठता है या नहीं, इसलिए आपको फिट टेस्ट की अच्छाई का उपयोग करना चाहिए । इसके लिए, आप उपयोग कर सकते हैं ks.test:

require(vcd)
require(MASS)

# data generation
ex <- rexp(10000, rate = 1.85) # generate some exponential distribution
control <- abs(rnorm(10000)) # generate some other distribution

# estimate the parameters
fit1 <- fitdistr(ex, "exponential") 
fit2 <- fitdistr(control, "exponential")

# goodness of fit test
ks.test(ex, "pexp", fit1$estimate) # p-value > 0.05 -> distribution not refused
ks.test(control, "pexp", fit2$estimate) #  significant p-value -> distribution refused

# plot a graph
hist(ex, freq = FALSE, breaks = 100, xlim = c(0, quantile(ex, 0.99)))
curve(dexp(x, rate = fit1$estimate), from = 0, col = "red", add = TRUE)

यहां छवि विवरण दर्ज करें

मेरे व्यक्तिगत अनुभव से (हालांकि मैंने इसे कभी भी आधिकारिक रूप से कहीं भी नहीं पाया है, कृपया पुष्टि करें या मुझे ठीक करें), ks.testकेवल तभी चलेंगे जब आप पहले पैरामीटर अनुमान की आपूर्ति करेंगे। आप इसे मापदंडों का अनुमान लगाने की अनुमति नहीं दे सकते हैं जैसे goodfitकि यह करता है। इसलिए आपको इसके साथ दो चरणों की प्रक्रिया की आवश्यकता है fitdistr

अधिक जानकारी के लिए Ricci के उत्कृष्ट मार्गदर्शिका का पालन करें : R के साथ फिट होने वाले वितरण


2
+1। क्या ऐसी स्थितियों में फिट होने के परीक्षण के लिए ks.test सबसे अच्छा परीक्षण है? मुझे लगता है कि आपने भी मेरे एक सवाल का जवाब दिया है ।
आंद्रे सिल्वा

4
यदि आप डेटा से ही मापदंडों का आकलन कर रहे हैं, तो सिर्फ एक हेड अप, आपको सावधान रहना चाहिए। उस स्थिति में, एंडरसन डार्लिंग जैसा परीक्षण सबसे अच्छा हो सकता है, क्योंकि यह ऐसी स्थितियों के खिलाफ मजबूत है।
जेपीसी

घातांक के लिए केएस परीक्षण पर जब डेटा से दर पैरामीटर का अनुमान लगाया जाता है: कोलमोगोरोव स्मिरनोव परीक्षण के बारे में एक भोली सवाल देखें ।
Scortchi - को पुनः स्थापित मोनिका

8

हालांकि मैं आम तौर पर नैदानिक ​​भूखंडों (जैसे QQ भूखंडों) के उपयोग द्वारा घातीयता की जांच करने की सलाह देता हूं, मैं परीक्षणों पर चर्चा करूंगा, क्योंकि लोग अक्सर उन्हें चाहते हैं:

जैसा कि टॉमस का सुझाव है, कोल्मोगोरोव-स्मिरनोव परीक्षण एक अनपेक्षित पैरामीटर के साथ घातीयता परीक्षण के लिए उपयुक्त नहीं है

हालाँकि, यदि आप पैरामीटर अनुमान के लिए तालिकाओं को समायोजित करते हैं, तो आपको घातांक वितरण के लिए लिलीफ़ोर्स का परीक्षण मिलता है।

Lilliefors, H. (1969), "द कोलमोगोरोव-स्मिर्नोव टेस्ट ऑन एक्सपोनेंशियल डिस्ट्रीब्यूशन फॉर मीन अनजान", जर्नल ऑफ द अमेरिकन स्टेटिस्टिकल एसोसिएशन , वॉल्यूम। 64। पीपी। 387-389।

इस परीक्षण के उपयोग की चर्चा कॉनओवर के प्रैक्टिकल नॉनपामेट्रिक स्टैटिस्टिक्स में की गई है

हालांकि, डी 'एगस्टीनो और स्टीफंस की फ़िट तकनीकों की अच्छाई में , वे एंडरसन-डार्लिंग परीक्षण के कुछ इसी तरह के संशोधन पर चर्चा करते हैं (कुछ हद तक अगर मुझे सही याद है, लेकिन मुझे लगता है कि घातीय मामले के लिए इसे प्राप्त करने के लिए सभी आवश्यक जानकारी है। पुस्तक में पाया जा सकता है), और दिलचस्प विकल्पों के खिलाफ अधिक शक्ति होना लगभग तय है।

n(1-आर2)आर

अंत में, रेयर्स एंड बेस्ट ( फिट ऑफ गुडनेस ऑफ फिट , 1990 - द्वारा पुस्तक में जैसा कि एक चिकनी परीक्षण दृष्टिकोण हो सकता है - हालांकि मेरा मानना ​​है कि हाल ही में एक और है, जिसमें थास और " आर " शीर्षक में जोड़ा गया है)। घातीय मामला भी इसमें शामिल है:

जेसीडब्ल्यू रेनर और डीजे बेस्ट (1990), "स्मूथ टेस्ट ऑफ गुडनेस ऑफ फिट: एन ओवरव्यू", अंतर्राष्ट्रीय सांख्यिकीय समीक्षा , वॉल्यूम। 58, नंबर 1 (अप्रैल, 1990), पीपी। 9-17

कॉस्मा शालिज़ी ने अपने स्नातक उन्नत डेटा विश्लेषण व्याख्यान नोट्स के एक अध्याय में सुचारू परीक्षणों की भी चर्चा की है , या अपनी किताब एडवांस्ड डेटा एनालिसिस के Ch15 को एलीमेंट्री पॉइंट ऑफ़ व्यू से देखा है

उपरोक्त में से कुछ के लिए, आपको परीक्षण सांख्यिकीय के वितरण का अनुकरण करने की आवश्यकता हो सकती है; दूसरों के लिए टेबल उपलब्ध हैं (लेकिन उन मामलों में से कुछ में, वैसे भी अनुकरण करना आसान हो सकता है, या अपने आप को अनुकरण करने के लिए और भी सटीक हो सकता है, जैसा कि लिलिफ़ोर्स परीक्षण के साथ, मूल में सीमित सिमुलेशन आकार के कारण)।

n(1-आर2)


5

आप एक qq- प्लॉट का उपयोग कर सकते हैं , जो एक दूसरे के खिलाफ अपने क्वांटिलों की साजिश रचकर दो प्रायिकता वितरण की तुलना करने के लिए एक चित्रमय विधि है।

आर में, विशेष रूप से घातांक वितरण के लिए कोई आउट-ऑफ-द-बॉक्स qq- प्लॉट फ़ंक्शन नहीं है (कम से कम आधार कार्यों के बीच)। हालाँकि, आप इसका उपयोग कर सकते हैं:

qqexp <-  function(y, line=FALSE, ...) { 
    y <- y[!is.na(y)]
    n <- length(y)
    x <- qexp(c(1:n)/(n+1))
    m <- mean(y)
    if (any(range(y)<0)) stop("Data contains negative values")
    ylim <- c(0,max(y))
    qqplot(x, y, xlab="Exponential plotting position",ylim=ylim,ylab="Ordered sample", ...)
    if (line) abline(0,m,lty=2)
    invisible()
  }

अपने परिणामों की व्याख्या करते समय: यदि तुलना किए जा रहे दो वितरण समान हैं, तो क्यूक प्लॉट में बिंदु लगभग = = x रेखा पर स्थित होंगे। यदि वितरण रैखिक रूप से संबंधित हैं, तो क्यूक प्लॉट में अंक लगभग एक पंक्ति पर झूठ होंगे, लेकिन जरूरी नहीं कि रेखा y = x पर हो।


2
स्टैटा में, qexpएसएससी से एक डिब्बाबंद कार्यान्वयन है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.