मानक विचलन का उपयोग करते हुए बाहरी लोगों का पता लगाना


27

यहाँ मेरे प्रश्न के बाद , मैं सोच रहा हूँ कि क्या आउटलेर्स का पता लगाने के लिए मानक विचलन के उपयोग के खिलाफ या इसके बारे में मजबूत विचार हैं (उदाहरण के लिए कोई भी डेटापॉइंट जो 2 से अधिक मानक विचलन है, एक स्पष्ट है)।

मुझे पता है कि यह अध्ययन के संदर्भ पर निर्भर करता है, उदाहरण के लिए, एक डेटा बिंदु, 48 किग्रा, निश्चित रूप से शिशुओं के वजन के अध्ययन में एक बाहरी होगा, लेकिन वयस्कों के वजन के अध्ययन में नहीं।

आउटलेर कई कारकों जैसे डेटा प्रविष्टि गलतियों का परिणाम है। मेरे मामले में, ये प्रक्रियाएँ मज़बूत हैं।

मुझे लगता है कि मैं जो सवाल पूछ रहा हूं वह यह है: क्या मानक विचलन का उपयोग आउटलेर्स का पता लगाने के लिए एक ध्वनि विधि है?


1
आप कहते हैं, "मेरे मामले में ये प्रक्रियाएँ मजबूत हैं"। क्या मतलब? आप सुनिश्चित हैं कि आपके पास डेटा प्रविष्टि की गलतियाँ नहीं हैं?
वेन

यहाँ बहुत सारे अच्छे उत्तर हैं कि मैं अनिश्चित हूँ जो स्वीकार करने का उत्तर दें! इस पर कोई भी मार्गदर्शन सहायक होगा
अमराल

सामान्य तौर पर, उस एक का चयन करें जिसे आप अपने प्रश्न का उत्तर सीधे और स्पष्ट रूप से देते हैं, और यदि यह बताना बहुत कठिन है, तो मैं सबसे अधिक वोटों के साथ जाऊंगा। यहां तक ​​कि यह निर्णय लेने के लिए थोड़ा दर्दनाक है कि किसी को जवाब देने के लिए समय देने वाले को पुरस्कृत करना महत्वपूर्ण है।
वेन

1
PS क्या आप कृपया ध्यान दें कि आप "इन प्रक्रियाओं के मजबूत होने" से क्या मतलब है? यह जवाबों के लिए महत्वपूर्ण नहीं है, जो सामान्यता आदि पर ध्यान केंद्रित करते हैं, लेकिन मुझे लगता है कि इसका कुछ असर है।
वेन

3
आउटलेयर मॉडल-मुक्त नहीं हैं। एक मॉडल के तहत एक असामान्य परिणाम एक दूसरे के तहत पूरी तरह से सामान्य बिंदु हो सकता है। पहला सवाल यह होना चाहिए कि "आप बाहरी लोगों का पता लगाने की कोशिश क्यों कर रहे हैं?" (बजाय कुछ और करने के, जैसे उपयोग करने के तरीके उन्हें मज़बूत बनाते हैं), और दूसरा यह होगा कि "आपके एप्लिकेशन में क्या अवलोकन एक आउटरीयर बनाता है?"
Glen_b -Reinstate मोनिका

जवाबों:


26

कुछ आउटलेयर स्पष्ट रूप से असंभव हैं । आपने बच्चे के वजन के लिए 48 किलोग्राम का उल्लेख किया है। यह स्पष्ट रूप से एक त्रुटि है। यह एक सांख्यिकीय मुद्दा नहीं है , यह एक महत्वपूर्ण है। 48 किलो के मानव शिशु नहीं हैं। कोई भी सांख्यिकीय पद्धति ऐसे बिंदु की पहचान करेगी।

व्यक्तिगत रूप से, किसी भी परीक्षा पर भरोसा करने के बजाय (यहां तक ​​कि उपयुक्त, जैसा कि @ मिचेल द्वारा अनुशंसित है) मैं डेटा को ग्राफ़ करूंगा। यह दिखाते हुए कि कुछ परिकल्पित वितरण के तहत एक निश्चित डेटा मूल्य (या मान) की संभावना नहीं है, इसका मतलब यह नहीं है कि मूल्य गलत है और इसलिए मूल्यों को स्वचालित रूप से सिर्फ इसलिए नहीं हटाया जाना चाहिए क्योंकि वे चरम हैं।

इसके अलावा, आप जिस नियम का प्रस्ताव करते हैं (मतलब से एसडी 2) एक पुराना है जिसे कंप्यूटर द्वारा चीजों को आसान बनाने से पहले के दिनों में इस्तेमाल किया गया था। यदि एन 100,000 है, तो आप निश्चित रूप से औसत से 2 एसडी से काफी अधिक मूल्यों की उम्मीद करते हैं, भले ही एक आदर्श सामान्य वितरण हो।

लेकिन क्या होगा अगर वितरण गलत है? मान लीजिए, जनसंख्या में, सवाल में चर है नहीं सामान्य रूप से वितरित लेकिन यह है कि तुलना में भारी पूंछ है?


1
बच्चे के वजन का सबसे बड़ा मूल्य क्या है जिसे आप संभव मानेंगे?
mark999

2
मुझे नहीं पता। लेकिन कोई रिकॉर्ड देख सकता है। Answers.com (एक त्वरित Google से) के अनुसार, यह 23.12 पाउंड था, जो कि दो बच्चों के साथ पैदा हुआ था। अगर मैं अनुसंधान कर रहा था, तो मैं और जाँच करूँगा।
पीटर फ्लोम - मोनिका

क्या होगा यदि कोई नेत्रहीन डेटा का निरीक्षण नहीं कर सकता है (यानी यह एक स्वचालित प्रक्रिया का हिस्सा हो सकता है?)
user90772

स्वचालन में रेखांकन जोड़ें, किसी तरह।
पीटर Flom - को पुनः स्थापित मोनिका

24

हाँ। यह oultiers का "पता लगाने" का एक बुरा तरीका है। सामान्य रूप से वितरित डेटा के लिए, इस तरह की विधि पूरी तरह से अच्छा (अभी तक थोड़ा चरम) टिप्पणियों "आउटलेर्स" का 5% कॉल करेगी। इसके अलावा जब आपके पास आकार n का एक नमूना होता है और आप उन्हें आउटलेयर कहने के लिए अत्यधिक उच्च या निम्न टिप्पणियों की तलाश करते हैं, तो आप वास्तव में चरम क्रम के आँकड़ों को देख रहे हैं। सामान्य रूप से वितरित नमूना का अधिकतम और न्यूनतम सामान्य रूप से वितरित नहीं किया जाता है। तो परीक्षण चरम सीमा के वितरण पर आधारित होना चाहिए। ग्रबब्स का परीक्षण और डिक्सन का अनुपात परीक्षण जैसा कि मैंने पहले भी कई बार उल्लेख किया है। यहां तक ​​कि जब आप आउटलेर के लिए एक उपयुक्त परीक्षण का उपयोग करते हैं, तो अवलोकन को केवल इसलिए खारिज नहीं किया जाना चाहिए क्योंकि यह असामान्य रूप से चरम है। आपको जांच करनी चाहिए कि चरम अवलोकन पहले क्यों हुआ।


1
कम पी-मान के आधार पर H0 को अस्वीकार करने के रूप में "खराब" के रूप में।
सिंह

16

जब आप पूछते हैं कि संभावित आउटलाइयर से कितने मानक विचलन हैं, तो यह मत भूलो कि आउटलाइन खुद एसडी को बढ़ाएगा, और मतलब के मूल्य को भी प्रभावित करेगा। यदि आपके पास N मान हैं, तो SD द्वारा विभाजित माध्य से दूरी का अनुपात कभी भी (N-1) / sqrt (N) से अधिक नहीं हो सकता है। यह छोटे नमूनों के साथ, ज़ाहिर है, सबसे अधिक मायने रखता है। उदाहरण के लिए, यदि N = 3, कोई भी अव्यवस्था संभवतः औसत से 1.155 * SD से अधिक नहीं हो सकती है, इसलिए किसी भी मान के लिए कभी भी माध्य से 2 SD से अधिक होना असंभव है। (यह मानता है, कि आप नमूना एसडी को हाथ से डेटा से गणना कर रहे हैं, और जनसंख्या एसडी को जानने के लिए एक सैद्धांतिक कारण नहीं है)।

ग्रबब्स परीक्षण के लिए महत्वपूर्ण मानों को इस पर ध्यान देने के लिए गणना की गई थी, और इसलिए नमूना आकार पर निर्भर करता है।


12

मुझे लगता है कि संदर्भ ही सब कुछ है। दिए गए उदाहरण के लिए, हां स्पष्ट रूप से एक 48 किलो का बच्चा गलत है, और 2 मानक विचलन का उपयोग इस मामले को पकड़ लेगा। हालांकि, यह सोचने का कोई कारण नहीं है कि अन्य डेटा के लिए 2 मानक विचलन (या किसी अन्य एसडी के कई) का उपयोग उचित है। उदाहरण के लिए, यदि आप सतह के पानी में कीटनाशक के अवशेष देख रहे हैं, तो 2 मानक विचलन से परे डेटा काफी सामान्य है। ये विशेष रूप से उच्च मूल्य "आउटलेयर" नहीं हैं, भले ही वे औसत से दूर रहते हैं, क्योंकि वे बारिश की घटनाओं, हाल के कीटनाशक अनुप्रयोगों आदि के कारण हैं, बेशक, आप अन्य "अंगूठे के नियम" (1.5 × क्यों नहीं) बना सकते हैं एसडी, या 3.1415927 × एसडी?), लेकिन स्पष्ट रूप से इस तरह के नियमों का बचाव करना मुश्किल है, और आप जो परीक्षा दे रहे हैं, उसके आधार पर उनकी सफलता या विफलता बदल जाएगी। मुझे लगता है कि विषय के बावजूद निर्णय और तर्क का उपयोग करना, एक मनमाना नियम का उपयोग करने के बजाय बाहरी लोगों से छुटकारा पाने के लिए एक बेहतर तरीका है। इस मामले में, आपको 48 किग्रा के बाहर का पता लगाने के लिए 2 × एसडी की आवश्यकता नहीं थी - आप इसे बाहर करने में सक्षम थे। यह एक बेहतर तरीका नहीं है? ऐसे मामलों के लिए, जहाँ आप इसका कारण नहीं समझ सकते हैं, ठीक है, क्या मनमाने नियम किसी भी बेहतर हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.