मैं आपके प्रश्नों का उत्तर उस क्रम में दूंगा, जिसमें आपने उनसे पूछा था, ताकि प्रदर्शनी विशिष्ट से सामान्य की ओर बढ़े।
पहले, हम एक ऐसी स्थिति पर विचार करें जहां आप यह मान सकते हैं कि बाहरी लोगों के अल्पसंख्यक को छोड़कर, आपके डेटा के थोक को एक ज्ञात वितरण (आपके मामले में घातीय) द्वारा अच्छी तरह से वर्णित किया जा सकता है।
x
pX(x)=σ−1exp(−(x−θ)σ),x>0;σ>0
xθ=0
मापदंडों के सामान्य MLE अनुमानक हैं [0, p 506]:
θ^=minixi
तथा
σ^=aveixi−minixi
यहाँ एक उदाहरण है R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈2.08
xi−xi
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈11.12xi100xi
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈54
कच्चे MLE के लिए एक विकल्प है (क) एक मजबूत बाहरी पहचान नियम का उपयोग करके आउटलेर्स को ढूंढें , (b) उन्हें अलग-अलग डेटा के रूप में सेट करें और (c) MLE को नमूने के गैर-स्प्यूरियस भाग पर गणना करें।
इन मजबूत बाहरी पहचान नियम के बारे में सबसे अच्छी तरह से जाना जाता है, हम्पेल [3] द्वारा प्रस्तावित मेड / पागल नियम है, जिसने इसे गॉस के लिए जिम्मेदार ठहराया (मैंने यहां इस नियम को चित्रित किया है )। मेड / पागल नियम में, अस्वीकृति दहलीज इस धारणा पर आधारित है कि आपके नमूने में वास्तविक अवलोकन एक सामान्य वितरण द्वारा अच्छी तरह से अनुमानित हैं।
बेशक, अगर आपके पास अतिरिक्त जानकारी है (जैसे कि यह जानते हुए कि वास्तविक टिप्पणियों का वितरण अच्छी तरह से इस उदाहरण के रूप में एक poisson वितरण द्वारा अनुमानित है ) तो आपको अपने डेटा को बदलने और बेसलाइन आउटलाइडर अस्वीकृति नियम का उपयोग करने से रोकने के लिए कुछ भी नहीं है। मेड / पागल) लेकिन यह डेटा को बदलने के लिए थोड़ा अजीब है कि सभी तदर्थ नियम के बाद क्या है।
यह डेटा को संरक्षित करने के लिए मुझे बहुत अधिक तर्कसंगत लगता है लेकिन अस्वीकृति नियमों को अनुकूलित करता है। फिर, आप अभी भी ऊपर बताए गए पहले चरण में बताए गए 3 चरण की प्रक्रिया का उपयोग करेंगे, लेकिन अस्वीकृति सीमा के साथ वितरण के अनुकूल होने से आपको डेटा के अच्छे हिस्से पर संदेह है। नीचे, मैं उन स्थितियों में अस्वीकृति नियम देता हूं जहां वास्तविक टिप्पणियों को एक घातांक वितरण द्वारा अच्छी तरह से फिट किया जाता है। इस स्थिति में, आप निम्न नियम का उपयोग करके अच्छी अस्वीकृति थ्रेसहोल्ड का निर्माण कर सकते हैं:
θ
θ^′=medixi−3.476Qn(x)ln2
≈3.476
2) [2, पी 188] के बाहर के सभी टिप्पणियों के रूप में अस्वीकार
[θ^′,9(1+2/n)medixi+θ^′]
(ऊपर के नियम में कारक 9 को Glen_b के उत्तर में 7.1 के रूप में प्राप्त किया गया है, लेकिन एक उच्च कट-ऑफ का उपयोग कर रहा है। कारक (1 + 2 / n) छोटा नमूना सुधार कारक है जिसे [2] में सिमुलेशन द्वारा प्राप्त किया गया था। बड़े पर्याप्त नमूना आकार के लिए, यह अनिवार्य रूप से 1 के बराबर है)।
σ
σ^′=avei∈Hxi−mini∈Hxi
H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′}
पिछले उदाहरणों पर इस नियम का उपयोग करते हुए, आपको मिलेगा:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈2.2
तीसरे उदाहरण पर:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈2.2
{i:i∉H}
अब, सामान्य मामले के लिए जहां आपके पास एक अच्छा उम्मीदवार वितरण नहीं है, यह जानने के लिए कि आप एक सममित वितरण नहीं करेंगे, यह जानने के लिए कि आप समायोजित बॉक्सप्लॉट [4] का उपयोग कर सकते हैं। यह बॉक्सप्लॉट का एक सामान्यीकरण है जो आपके डेटा के तिरछापन (गैर पैरामीट्रिक और अधिक मजबूत) माप को ध्यान में रखता है (ताकि जब डेटा का थोक सममित हो तो सामान्य बॉक्सप्लॉट तक ढह जाता है)। आप एक चित्रण के लिए इस उत्तर को भी देख सकते हैं ।
- [०] जॉनसन एनएल, कोटज़ एस।, बालकृष्णन एन। (१ ९९ ४)। निरंतर अविभाज्य वितरण, खंड 1, 2 संस्करण।
- [१] रुसेवुव पीजे और क्राउक्स सी। (१ ९९ ३)। माध्य निरपेक्ष विचलन के विकल्प। अमेरिकी सांख्यिकी एसोसिएशन जर्नल, खंड। 88, नंबर 424, पीपी। 1273--1283।
- [२] जेके पटेल, सीएच कपाड़िया, और डीबी ओवेन, डेकर (१ ९ Patel६)। सांख्यिकीय वितरण की पुस्तिका।
- [३] हम्पेल (१ ९ el४)। इन्फ्लुएंस कर्व एंड इट्स रोल इन रॉबस्ट एस्टिमेशन। अमेरिकी सांख्यिकी एसोसिएशन जर्नल, खंड। 69, संख्या 346 (जून, 1974), पीपी। 383-393।
- [४] वांडरविरेन, ई।, ह्यूबर्ट, एम। (२००४) "तिरछे वितरण के लिए एक समायोजित बॉक्सप्लॉट"। कम्प्यूटेशनल स्टैटिस्टिक्स एंड डेटा एनालिसिस वॉल्यूम 52, अंक 12, 15 अगस्त 2008, पृष्ठ 5186-5201।
1.5*IQR
एक बाहरी की परिभाषा सार्वभौमिक रूप से स्वीकार नहीं की जाती है। अपना प्रश्न अनलोड करने का प्रयास करें और उस समस्या पर विस्तार करें जिसे आप हल करने का प्रयास कर रहे हैं।