गैर रेखीय प्रतिगमन के लिए बाहरी लोगों की पहचान करना


11

मैं घुन की कार्यात्मक प्रतिक्रिया के क्षेत्र पर अनुसंधान कर रहा हूं। मैं रोजर्स टाइप II फ़ंक्शन के मापदंडों (हमले की दर और हैंडलिंग समय) का अनुमान लगाने के लिए एक प्रतिगमन करना चाहता हूं। मेरे पास माप का डेटासेट है। मैं आउटलेर्स को सबसे अच्छा कैसे निर्धारित कर सकता हूं?

मेरे प्रतिगमन के लिए मैं R (एक गैर रेखीय प्रतिगमन) में निम्न स्क्रिप्ट का उपयोग करता हूं: (डेटसेट एक साधारण 2 कॉलम टेक्स्ट फाइल है, जिसे मानों (प्रारंभिक शिकार की संख्या) और मान (24 घंटे के दौरान खाया शिकार की संख्या ) के data.txtसाथ फाइल कहा जाता है :N0FR

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

मैं निम्नलिखित स्क्रिप्ट का उपयोग करने वाले कालसिक अवशेषों की साजिश रचने के लिए:

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

प्रशन

  • मैं यह कैसे निर्धारित कर सकता हूं कि कौन से डेटा बिंदु आउटलेयर हैं?
  • क्या ऐसे परीक्षण हैं जो मैं आर में उपयोग कर सकता हूं जो उद्देश्य हैं और मुझे दिखाते हैं कि कौन से डेटा बिंदु आउटलेयर हैं?

जवाबों:


9

निधियों के कई परीक्षण, जिसमें डिक्सन और ग्रब के outliersआर शामिल हैं, आर में पैकेज में उपलब्ध हैं । परीक्षणों की सूची के लिए, पैकेज के लिए दस्तावेज देखें । परीक्षणों का वर्णन करने वाले संदर्भ संबंधित कार्यों के लिए सहायता पृष्ठों पर दिए गए हैं।

यदि आप अपने डेटा से आउटलेर्स को हटाने की योजना बना रहे हैं, तो ध्यान रखें कि यह हमेशा उचित नहीं होता है। उदाहरण के लिए इस सवाल पर चर्चा के लिए देखें (साथ ही साथ कुछ और सुझाव भी दिए गए हैं।


8

न ही मैं एक सांख्यिकीविद् हूं। इसलिए मैं अपने विशेषज्ञ ज्ञान का उपयोग आउटलेयर को खोजने के लिए डेटा के बारे में करता हूं। Ie मैं भौतिक / जैविक / जो भी कारण है कि कुछ माप दूसरों से अलग बनाया के लिए देखो ।

मेरे मामले में जैसे कि

  • कॉस्मिक किरणें मापा सिग्नल के हिस्से को गड़बड़ाने लगती हैं
  • किसी ने लैब में प्रवेश किया, प्रकाश पर स्विच किया
  • बस पूरा स्पेक्ट्रम किसी तरह अलग दिखता है
  • पहली माप श्रृंखला सामान्य काम के घंटों के दौरान ली गई थी और यह 10 बजे की श्रृंखला की तुलना में अधिक शोर के परिमाण का एक क्रम है

निश्चित रूप से आप हमें समान प्रभाव बता सकते हैं।

ध्यान दें कि मेरा तीसरा बिंदु दूसरों से अलग है: मुझे नहीं पता कि क्या हुआ। यह उस प्रकार का परिणाम हो सकता है जिसके बारे में आप पूछ रहे हैं। हालांकि, यह जाने बिना कि यह क्या हुआ (और यह कारण डेटा बिंदु को अमान्य कर देता है) यह कहना मुश्किल है कि यह डेटा सेट में प्रकट नहीं होना चाहिए। इसके अलावा: आपका आउटलाइयर मेरा सबसे दिलचस्प नमूना हो सकता है ...

इसलिए, मैं अक्सर आउटलेर की बात नहीं करता, लेकिन संदिग्ध डेटा बिंदुओं की। यह सभी को याद दिलाता है कि उन्हें अपने अर्थ के लिए दोहरी जाँच की आवश्यकता है।

डेटा को बाहर करना अच्छा है या नहीं (जो केवल अपने होने के लिए आउटलेर को ढूंढना चाहते हैं?) बहुत कुछ इस बात पर निर्भर करता है कि हाथ में क्या काम है और उस कार्य के लिए "सीमा की स्थिति" क्या है। कुछ उदाहरण:

  • आपने अभी-अभी नई आउटलेंसिस जोआचीमी उपप्रजाति की खोज की;; अन्य सभी को छोड़ दें।

  • आप घुन से पहले के समय की भविष्यवाणी करना चाहते हैं। यदि यह कुछ स्थितियों के लिए भविष्यवाणी को प्रतिबंधित करने के लिए स्वीकार्य है, तो आप इन्हें तैयार कर सकते हैं और अन्य सभी नमूनों को बाहर कर सकते हैं और कह सकते हैं कि आपका पूर्वानुमान मॉडल इस या उस स्थिति से संबंधित है, हालांकि आप पहले से ही अन्य स्थितियों को जानते हैं (यहाँ पर इसका वर्णन करें)।

  • ध्यान रखें कि मॉडल डायग्नोस्टिक्स की मदद से डेटा को छोड़कर एक तरह की स्व-पूर्ति की भविष्यवाणी या एक ओवरोप्टिमिस्टिक पूर्वाग्रह पैदा कर सकते हैं (अर्थात यदि आप दावा करते हैं कि आपकी विधि आम तौर पर लागू होती है): आपके द्वारा बहिष्कृत किए जाने वाले अधिक नमूने। मान्यताओं, बेहतर नमूने शेष नमूनों से मिले हैं। लेकिन यह केवल बहिष्करण के कारण है।

  • वर्तमान में मेरे पास एक कार्य है जहां मेरे पास खराब माप का एक गुच्छा है (मुझे पता है कि भौतिक कारण क्यों मैं माप को बुरा मानता हूं), और कुछ और जो किसी तरह "अजीब दिखते हैं"। मैं क्या कर रहा हूं कि मैं इन नमूनों को एक (predicitve) मॉडल के ट्रेनग से बाहर कर देता हूं, लेकिन अलग से मॉडल का परीक्षण करता हूं ताकि मैं अपने मॉडल की मजबूती के बारे में कुछ कह सकूं, जो मुझे पता है कि मैं हर एक बार घटित होऊंगा। जबकि । इस प्रकार, आवेदन किसी भी तरह या अन्य इन outliers से निपटने के लिए की जरूरत है।

  • फिर भी बाहरी लोगों को देखने का एक और तरीका पूछ रहा है: "वे मेरे मॉडल को कितना प्रभावित करते हैं?" (उत्तोलन)। इस दृष्टिकोण से आप अजीब प्रशिक्षण नमूनों के संबंध में मजबूती या स्थिरता को माप सकते हैं।

  • आप जो भी सांख्यिकीय प्रक्रिया का उपयोग करते हैं, यह या तो किसी भी बाहरी व्यक्ति की पहचान नहीं करेगा, या गलत सकारात्मकता भी होगी। आप अन्य नैदानिक ​​परीक्षणों की तरह एक बाह्य परीक्षण प्रक्रिया को चिह्नित कर सकते हैं: इसकी संवेदनशीलता और विशिष्टता है, और - आपके लिए अधिक महत्वपूर्ण है - वे सकारात्मक और नकारात्मक भविष्य कहनेवाला मूल्य के अनुरूप (आपके डेटा में बाह्य अनुपात के माध्यम से)। दूसरे शब्दों में, विशेष रूप से यदि आपके डेटा में बहुत कम आउटलेयर हैं, तो संभावना है कि आउटलाइड टेस्ट द्वारा पहचाना गया मामला वास्तव में एक आउटलाइयर है (यानी डेटा में नहीं होना चाहिए) बहुत कम हो सकता है।
    मेरा मानना ​​है कि हाथ में डेटा के बारे में विशेषज्ञ ज्ञान आमतौर पर सांख्यिकीय परीक्षणों की तुलना में आउटलेर का पता लगाने में बहुत बेहतर होता है: परीक्षण इसके पीछे की धारणाओं जितना अच्छा है। और एक आकार-फिट-सभी अक्सर डेटा विश्लेषण के लिए वास्तव में अच्छा नहीं होता है। कम से कम मैं अक्सर एक प्रकार के आउटलेयर से संबंधित होता हूं, जहां विशेषज्ञों (उस प्रकार के माप के बारे में) को सिग्नल के सटीक भाग की पहचान करने में कोई समस्या नहीं होती है, जबकि स्वचालित प्रक्रिया अक्सर विफल हो जाती है (यह उन्हें पता लगाना आसान है कि वहाँ एक है समस्या, लेकिन उन्हें यह पता लगाना बहुत मुश्किल है कि समस्या कहाँ से शुरू होती है और कहाँ समाप्त होती है)।


यहाँ बहुत सारी अच्छी जानकारी है। मैं विशेष रूप से बुलेट बिंदुओं # 4 और 5 की तरह
गुंग - को पुनः स्थापित मोनिका

4

यूनीवेट आउटलेर के लिए डिक्सन का अनुपात परीक्षण और ग्रबब्स का परीक्षण सामान्यता मान रहा है। एक बाहरी के लिए परीक्षण करने के लिए आपको एक जनसंख्या वितरण मान लेना होगा क्योंकि आप यह दिखाने की कोशिश कर रहे हैं कि मान लिया गया वितरण से आने के लिए मनाया गया मूल्य चरम या असामान्य है। मेरे पास 1982 में अमेरिकी सांख्यिकीविद् का एक पेपर है जिसे मैंने यहां संदर्भित किया होगा, जिससे पहले पता चलता है कि डिक्सन के अनुपात परीक्षण का उपयोग कुछ गैर-सामान्य वितरणों के लिए भी छोटे नमूनों में किया जा सकता है। चेरिक, एमआर (1982) "ए नोट ऑन द रोबोनेस ऑफ़ डिक्सन ऑफ़ रेश्यो इन स्मॉल सैंपल" अमेरिकन स्टैटिस्टिशियन पी 140। टाइम सिरीज़ में मल्टीवीयरेट आउटलेयर और आउटलेयर के लिए, पैरामीटर अनुमान के लिए प्रभाव कार्य आउटलेर्स का अनौपचारिक रूप से पता लगाने के लिए उपयोगी उपाय हैं (मुझे नहीं पता उनके लिए निर्मित औपचारिक परीक्षण हालांकि ऐसे परीक्षण संभव हैं)।"आउटलाइड इन स्टैटिस्टिकल डेटा" आउटलाइड डिटेक्शन विधियों के विस्तृत उपचार के लिए।


3

Http://www.waset.org/journals/waset/v36/v36-45.pdf देखें , "नॉनलाइनर रिग्रेशन में आउटलाइयर डिटेक्शन पर" [ sic ]।

सार

आउटलेर्स का पता लगाना बहुत आवश्यक है क्योंकि उनकी रैखिक में बड़ी व्याख्यात्मक समस्या के साथ-साथ गैर-रेखीय प्रतिगमन विश्लेषण के लिए जिम्मेदारी है। रेखीय प्रतिगमन में बाहरी की पहचान पर बहुत काम पूरा किया गया है, लेकिन नॉनलाइन रिग्रेशन में नहीं। इस लेख में हम नॉनलाइन रिग्रेशन के लिए कई बाहरी पहचान तकनीकों का प्रस्ताव करते हैं। मुख्य विचार एक बिनालाइन मॉडल के रैखिक सन्निकटन का उपयोग करना और डिजाइन मैट्रिक्स के रूप में ढाल पर विचार करना है। इसके बाद, पता लगाने की तकनीक तैयार की जाती है। छह डिटेक्शन उपायों को विकसित किया जाता है जो तीन अनुमान तकनीकों जैसे कि लिस्ट-स्क्वायर, एम और एमएम-एसेटर के साथ संयुक्त होते हैं। अध्ययन से पता चलता है कि छह उपायों के बीच, केवल छात्र अवशिष्ट और कुक दूरी जो एमएम अनुमानक के साथ संयुक्त है,


+1 अंग्रेजी (और गणितीय टाइपिंग में) के साथ स्पष्ट समस्याओं के बावजूद, यह पेपर प्रश्न के लिए एक उपयोगी योगदान प्रतीत होता है।
whuber

2

एक आउटलाइयर एक बिंदु है जो "कुछ बेसलाइन" से "बहुत दूर" है। चाल उन दोनों वाक्यांशों को परिभाषित करने के लिए है! नॉनलाइनियर रिग्रेशन के साथ, कोई यह देखने के लिए कि यूरीलरेट का उपयोग नहीं कर सकता है कि क्या सबसे अच्छा फिट वक्र से एक बाहरी हिस्सा "बहुत दूर" है, क्योंकि बाहरी रूप से वक्र पर बहुत अधिक प्रभाव पड़ सकता है।

रॉन ब्राउन और मैंने एक अनोखी विधि विकसित की (जिसे हम ROUT कहते हैं - रोबस्ट रिग्रेशन और आउटलाइयर रिमूवल), नॉनलाइनर रिग्रेशन के साथ आउटलेर का पता लगाने के लिए, बिना आउटलाइन के वक्र को बहुत अधिक प्रभावित किए बिना। पहले डेटा को एक मजबूत प्रतिगमन विधि के साथ फिट करें जहां आउटलेयर का प्रभाव कम है। यही आधार रेखा बनाता है। फिर उस आधार रेखा से "बहुत दूर" होने पर परिभाषित करने के लिए झूठी डिस्कवरी दर (FDR) के विचारों का उपयोग करें, और इसलिए यह एक बाहरी है। अंत में, यह पहचाने गए आउटलेर्स को हटा देता है, और शेष बिंदुओं को पारंपरिक रूप से फिट करता है।

यह विधि एक ओपन एक्सेस जर्नल में प्रकाशित की गई है: मोटुलस्की एचजे और ब्राउन आरई, नॉनलाइनर रिग्रेशन के साथ फिटिंग डेटा का पता लगाते समय आउटलेरिंग - मजबूत नॉनलाइन रिग्रेशन और गलत खोज दर के आधार पर एक नया तरीका , बीएमसी बायोइनफॉरमेशन 2006, 7: 123। यहाँ सार है:

पृष्ठभूमि। ग़ैर-रेखीय प्रतिगमन, रैखिक प्रतिगमन की तरह, मानता है कि आदर्श वक्र के चारों ओर डेटा का बिखराव एक गाऊसी या सामान्य वितरण का अनुसरण करता है। यह धारणा प्रतिगमन के परिचित लक्ष्य की ओर जाता है: बिंदुओं और वक्र के बीच ऊर्ध्वाधर या वाई-मूल्य दूरी के वर्गों के योग को कम करने के लिए। आउट-की-स्क्वेयर गणना पर आउटलेर्स हावी हो सकते हैं, और भ्रामक परिणाम ला सकते हैं। हालांकि, हम नियमित रूप से बाहरी लोगों की पहचान करने के लिए कोई व्यावहारिक विधि नहीं जानते हैं जब अरेखीय प्रतिगमन के साथ फिटिंग घटता है।

परिणाम। जब हम नॉनलाइन रिग्रेशन के साथ डेटा फिटिंग करते हैं, तो हम आउटलेर्स की पहचान के लिए एक नई विधि का वर्णन करते हैं। हम पहले गैर-प्रतिक्षेप प्रतिगमन के एक मजबूत रूप का उपयोग करते हुए डेटा को फिट करते हैं, इस धारणा के आधार पर कि तितर बितर एक लोरेंट्ज़ियन वितरण का अनुसरण करता है। हमने एक नई अनुकूली विधि तैयार की जो धीरे-धीरे विधि के रूप में आगे बढ़ती है। बाहरी लोगों को परिभाषित करने के लिए, हमने कई तुलनाओं को संभालने के लिए झूठी खोज दर दृष्टिकोण को अनुकूलित किया। हम तब आउटलेर्स हटाते हैं, और साधारण न्यूनतम-वर्ग प्रतिगमन का उपयोग करके डेटा का विश्लेषण करते हैं। क्योंकि विधि मजबूत प्रतिगमन और बाह्य निष्कासन को जोड़ती है, हम इसे रूट विधि कहते हैं।

सिम्युलेटेड डेटा का विश्लेषण करते समय, जहां सभी तितर बितर होता है, हमारी विधि केवल 1 से 3% प्रयोगों में एक या एक से अधिक स्पष्ट रूप से पता लगाती है। जब एक या कई आउटलेर्स के साथ दूषित डेटा का विश्लेषण करते हैं, तो ROUT विधि एकमुश्त झूठी डिस्कवरी दर 1% से कम होने के साथ, बाहरी पहचान पर अच्छा प्रदर्शन करती है।

निष्कर्ष। हमारी विधि, जो एक नई विधि है, जो एक नई विधि है, जो बाहरी पहचान की एक नई पद्धति के साथ है, गैर-वक्र वक्र से बाहरी लोगों को पहचानती है जो उचित शक्ति और कुछ झूठी सकारात्मकता के साथ फिट बैठता है।

आर और प्रिज्म सहायता में एक सरल विवरण प्रदान करें ।


0

आपका प्रश्न बहुत सामान्य है। "आउटलेर" को बाहर करने के लिए कोई एकल सर्वोत्तम विधि नहीं है।

आपको "आउटलेर" के कुछ गुणों को जानना था। या आपको नहीं पता कि कौन सा तरीका सबसे अच्छा है। यह तय करने के बाद कि आप किस विधि का उपयोग करना चाहते हैं, आपको विधि के मापदंडों को सावधानीपूर्वक जांचना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.