मतलब के साथ आउटलेर्स की जगह


31

यह सवाल मेरे दोस्त ने पूछा था जो इंटरनेट का जानकार नहीं है। मेरे पास कोई सांख्यिकी पृष्ठभूमि नहीं है और मैं इस प्रश्न के लिए इंटरनेट पर खोज कर रहा हूं।

सवाल यह है कि क्या आउटेल को माध्य मान से बदलना संभव है? यदि यह संभव है, तो क्या इस कथन का बैकअप लेने के लिए कोई पुस्तक संदर्भ / पत्रिका है?


25
ऐसा करना निश्चित रूप से संभव है, लेकिन ऐसी स्थिति की कल्पना करना कठिन है जहां ऐसा करने का कोई मतलब हो।
पीटर Flom - को पुनः स्थापित मोनिका

2
पहले से ही कई लंबे उत्तर हैं, लेकिन @Peter Flom के एक वाक्य सारांश को सारांश के रूप में मिलान करने की संभावना नहीं है।
निक कॉक्स

4
किसी भी उत्तर ने अभी तक कमरे में हाथी को नहीं दिखाया है: हालांकि "आउटलेयर" की जगह एक डेटासेट के औसत को संरक्षित करता है, यह लगभग किसी भी अन्य आंकड़े को बदल देता है। यह माध्य की मानक त्रुटि के अनुमान को भी बदल देता है। तदनुसार - @ पेटर फ्लॉम की टिप्पणी के समर्थन में - परिणामी डेटासेट किसी भी विश्वसनीय रूप से निष्कर्ष के लिए उपयोगी नहीं दिखाई देता है। (क़यास यह नहीं अपने आप में लेकिन मध्यवर्ती चरणों में एक सतत प्रक्रिया में बाहरी कारकों के कारण की पहचान करने के लिए इस्तेमाल किया जा सकता है, जिससे कारण बताते हुए इस तरह के एक प्रक्रिया पहली जगह में मौजूद हो सकता है।)
whuber

1
@whuber स्पष्ट रूप से एक महत्वपूर्ण बिंदु है। मैं इसे दूसरे उत्तर में बनाऊंगा, ताकि कोई भी इस धागे को जल्दी से पढ़ न ले। इस उपकरण से लोगों को लुभाया, और जाहिर है कि कुछ हैं, यह महसूस करने की जरूरत है कि यह (ए) एक अच्छा विचार नहीं है (बी) एक बुरा विचार है।
निक कॉक्स

1
@ user2357112 इसका तात्पर्य यह है कि इस्तेमाल किया जाने वाला साधन अन्य मूल्यों का मतलब है। बाहरी मान, जिसे असत्य माना जाता है, को गणना में शामिल नहीं किया जाना चाहिए।
निक कॉक्स

जवाबों:


41

स्पष्ट रूप से यह संभव है, लेकिन यह स्पष्ट नहीं है कि यह कभी भी एक अच्छा विचार हो सकता है।

आइए कई तरीकों से बताएं कि यह एक सीमित या कमी वाला समाधान है:

  • वास्तव में आप कह रहे हैं कि बाहरी मूल्य पूरी तरह से अविश्वसनीय है, इस हद तक कि आपका एकमात्र अनुमान यह है कि मूल्य का मतलब होना चाहिए। यदि आपको लगता है कि यह अधिक ईमानदार होने की संभावना है, तो केवल प्रश्न में अवलोकन को छोड़ देना, क्योंकि आपके पास बेहतर अनुमान लगाने के लिए पर्याप्त जानकारी नहीं है।

  • कुछ और नहीं कहने के साथ, आपको पहली जगह में आउटलेर्स की पहचान करने के लिए एक मानदंड या मानदंड की आवश्यकता होती है (जैसा कि @Frank Harrell द्वारा निहित है)। अन्यथा यह एक मनमानी और व्यक्तिपरक प्रक्रिया है, भले ही इसे निर्णय के मामले के रूप में बचाव किया गया हो। कुछ मानदंडों के साथ, यह संभव है कि इस तरह से आउटलेर्स को हटाने से साइड-इफेक्ट के रूप में अभी तक अधिक आउटलेर बनते हैं। एक उदाहरण यह हो सकता है कि आउटलेयर इतने सारे मानक विचलन से अधिक से अधिक हैं। एक बाहरी बदलाव को हटाने से मानक विचलन में बदलाव होता है, और नए डेटा बिंदु अब योग्य हो सकते हैं, और इसी तरह।

  • वर्तमान में यहाँ का मतलब सभी अन्य मूल्यों का मतलब है, @David मार्क्स द्वारा स्पष्ट किया गया बिंदु। इस वजीफा के बिना विचार अस्पष्ट है।

  • माध्य का उपयोग करना एक सुरक्षित या रूढ़िवादी प्रक्रिया लग सकता है, लेकिन इस मान को बदलने से लगभग हर दूसरे आंकड़े बदल जाएंगे, जिसमें उनकी अनिश्चितता के स्तर, पैमाने और आकार और संकेतकों के उपायों सहित, एक बिंदु @whuber द्वारा जोर दिया गया है।

  • माध्य भी संभव नहीं हो सकता है: साधारण उदाहरण तब होते हैं जब मान पूर्णांक होते हैं, लेकिन आमतौर पर इसका मतलब पूर्णांक नहीं होता है।

  • इस विचार के साथ भी कि सारांश उपाय का उपयोग करना एक सावधानी की बात है, मध्यिका या किसी अन्य उपाय के बजाय माध्य का उपयोग करना कुछ औचित्य की आवश्यकता है।

  • जब भी अन्य चर होते हैं, तो एक चर का मान दूसरों के संदर्भ के बिना संशोधित करने से अन्य इंद्रियों में डेटा बिंदु विसंगत हो सकता है।

आउटलेयर के साथ क्या करना है एक खुला और बहुत मुश्किल सवाल है। धीरे-धीरे, अलग-अलग समाधान और रणनीतियों में अलग-अलग अपील होती है। यहां संभावनाओं की आंशिक सूची दी गई है। आदेश देना मनमाना है और प्रयोज्यता, महत्व या किसी अन्य कसौटी के संदर्भ में किसी भी आदेश को व्यक्त करने के लिए नहीं है। न ही ये दृष्टिकोण परस्पर अनन्य हैं।

  • एक (मेरे विचार में अच्छी) परिभाषा यह है कि "[o] यूटेलर्स ऐसे नमूना मूल्य हैं जो बहुसंख्यक नमूने के संबंध में आश्चर्य का कारण बनते हैं" (WN Venables और BD Ripley। 2002। S. New York के साथ आधुनिक लागू आँकड़े : Springer, p.119)। हालांकि, आश्चर्य देखने वाले के मन में है और यह डेटा के कुछ मौन या स्पष्ट मॉडल पर निर्भर है। एक और मॉडल हो सकता है जिसके तहत आउटलाइन बिल्कुल आश्चर्यजनक नहीं है, इसलिए डेटा वास्तव में सामान्य (सामान्य) के बजाय तार्किक या गामा हैं। संक्षेप में, अपने मॉडल पर विचार (पुनः) करने के लिए तैयार रहें।

  • प्रयोगशाला या क्षेत्र में जाएं और माप फिर से करें। अक्सर यह व्यावहारिक नहीं होता है, लेकिन यह कई विज्ञानों में मानक प्रतीत होता है।

  • परीक्षण करें कि क्या आउटलेयर वास्तविक हैं। ज़्यादातर परीक्षण मेरे लिए बहुत ख़राब दिखते हैं, लेकिन आप एक ऐसा पा सकते हैं जिस पर आप विश्वास कर सकते हैं कि आपकी स्थिति ठीक है। तर्कहीन विश्वास कि एक परीक्षण उपयुक्त होता है, हमेशा एक परीक्षण लागू करने के लिए आवश्यक होता है जिसे तब क्वैश्चनसनल रूप से तर्कसंगत के रूप में प्रस्तुत किया जाता है।

  • उन्हें निर्णय के मामले के रूप में फेंक दें।

  • कुछ और-या-कम स्वचालित (आमतौर पर "उद्देश्य") नियम का उपयोग करके उन्हें बाहर फेंक दें।

  • उन्हें अनदेखा करें, आंशिक रूप से या पूरी तरह से। यह औपचारिक (उदाहरण के लिए ट्रिमिंग) या उन्हें डेटासेट में छोड़ने का मामला हो सकता है, लेकिन विश्लेषण से उन्हें हटाने के लिए बहुत गर्म होना चाहिए।

  • उन्हें किसी प्रकार के समायोजन, जैसे कि Winsorizing का उपयोग करने में खींचो।

  • कुछ अन्य मजबूत अनुमान पद्धति का उपयोग करके उन्हें नीचे गिराएं।

  • एक तब्दील पैमाने पर काम करके उन्हें नीचे गिराएं।

  • एक गैर-पहचान लिंक फ़ंक्शन का उपयोग करके उन्हें नीचे करना।

  • भविष्यवाणियों के साथ या बिना, कुछ उपयुक्त वसा-, लंबी- या भारी पूंछ वाले वितरण को फिट करके उन्हें रोकें।

  • एक मॉडल में एक अतिरिक्त भविष्यवक्ता के रूप में एक संकेतक या डमी चर का उपयोग करके ठहरें।

  • कुछ गैर पैरामीट्रिक (जैसे रैंक-आधारित) प्रक्रिया का उपयोग करके समस्या को साइड-स्टेप करें।

  • बूटस्ट्रैपिंग, जैकिंगिफिंग या क्रमचय आधारित प्रक्रिया का उपयोग करके निहित अनिश्चितता पर एक हैंडल प्राप्त करें।

  • निर्धारक तर्क के आधार पर कुछ अधिक संभावित मूल्य के साथ एक रूपरेखा को बदलने के लिए संपादित करें। "एक 18 वर्षीय दादी की संभावना नहीं है, लेकिन प्रश्न में व्यक्ति का जन्म 1932 में हुआ था, इसलिए संभवतः 81 साल का है।"

  • वर्तमान में स्वीकार्य नहीं-काफी-सफेद जादू है जो कुछ संसेचन विधि का उपयोग करके एक असंभव या असंभव परिणाम को बदलने के लिए संपादित करें।

  • के साथ और बिना विश्लेषण करें, और यह देखते हुए कि आउटरलाइज़, वैज्ञानिक या व्यावहारिक रूप से कितना अंतर है।

  • कुछ बायेसियन। किसी भी विवरण को देने से मना करने पर मेरी पूर्व अज्ञानता।

संपादित करें यह दूसरा संस्करण अन्य उत्तरों और टिप्पणियों से लाभान्वित करता है। मैंने अपनी प्रेरणा के स्रोतों को चिह्नित करने की कोशिश की है।


1
(+1) अच्छा जवाब। बायेसियन पक्ष में, कोई भी कई काम कर सकता है, लेकिन वास्तव में आप कुछ मॉडल बनाने की कोशिश कर रहे हैं कि आपके पास इस तरह के मूल्य कैसे आए (प्रक्रिया जिसके परिणामस्वरूप बाहरी हो गया)। उदाहरण के लिए, यह कुछ सरल हो सकता है जैसे "प्रत्येक डेटा मान में वितरण से होने की कुछ छोटी अज्ञात संभावना होती है जो कि डेटा के थोक से बहुत अधिक विकराल होता है" और फिर उस संभाव्यता पर एक पूर्व वितरण डालकर और उस जंगल के लिए कुछ विकल्प को औपचारिक रूप देना वितरण और इसके मापदंडों के लिए पुजारी। प्रभाव उन बिंदुओं के प्रभाव को कम करने के लिए है जो मॉडल में फिट नहीं होते हैं।
Glen_b -Reinstate Monica

16

आपके प्रश्न में कई समस्याएं हैं।

  1. एक "बाहरी" क्या है?
  2. क्या एक "बाहरी" को प्रतिस्थापित किया जाना चाहिए?
  3. किसी अन्य अनुमान के विपरीत माध्य के बारे में क्या खास है?
  4. आप एक एकल मान द्वारा प्रतिस्थापन पर स्पष्ट विचरण को बढ़ाने के लिए क्षतिपूर्ति कैसे करेंगे जो विचरण बहुत छोटा है?
  5. क्यों मजबूत अनुमानकों का उपयोग न करें जो आउटलेर्स के लिए प्रतिरोधी हैं?
  6. क्या यह एक स्वतंत्र या एक आश्रित चर है?

1-5 में से किसी का भी स्पष्ट जवाब नहीं है। यदि आप वास्तव में महसूस करते हैं कि ये "आउटलेयर" गलत हैं और आप एक मजबूत सांख्यिकीय पद्धति का उपयोग नहीं करना चाहते हैं, तो आप उन्हें गायब कर सकते हैं और एक संभावित समाधान के रूप में कई प्रतिरूपण का उपयोग कर सकते हैं। यदि चर एक आश्रित चर है, तो एक मजबूत विकल्प क्रमिक प्रतिगमन है।


1
+1, अच्छे अंक। मैं ओएलआर सुझाव से सहमत हूँ; क्या कोई कारण है जो आप पसंद करते हैं कि एक मजबूत नुकसान फ़ंक्शन का उपयोग करना जैसे कि टकी का बिसक्वार?
गूँग - मोनिका

2
YY

9

प्रस्ताव में कई दोष हैं। यहाँ शायद सबसे बड़ा है।

मान लीजिए कि आप डेटा इकट्ठा कर रहे हैं, और आप इन मूल्यों को देखते हैं:

2,3,1

6/3=2

फिर एक बहार आती है:

2,3,1,1000

तो आप इसे माध्य से प्रतिस्थापित करते हैं:

2,3,1,2

अगला नंबर अच्छा है:

2,3,1,2,7

अब माध्य 3 है। एक मिनट रुको, माध्य अब 3 है, लेकिन हमने 1000 को 2 के माध्य से बदल दिया, सिर्फ इसलिए कि यह चौथे मान के रूप में हुआ। अगर हम नमूनों के क्रम को बदल दें तो क्या होगा?

2,3,1,7,1000

(2+3+1+7)/4=13/4

समस्या यह है कि 1000 के स्थान पर हम जिस गलत डाटा को प्रतिस्थापित कर रहे हैं, वह दूसरे डेटा पर निर्भर है । यह एक महामारी विज्ञान की समस्या है अगर नमूनों को स्वतंत्र माप का प्रतिनिधित्व करना चाहिए।

nnnnn

मूल रूप से, परिणामों को ट्रिम करना जो फिट नहीं होता है, वह एक चीज है (और इसे उचित ठहराया जा सकता है यदि यह एल्गोरिथम के अनुसार लगातार किया जाता है, बजाय प्रयोग करने वाले के मिजाज को बदलने के)।

दार्शनिक, महामारी विज्ञान और नैतिक आधारों पर सटीक रूप से गलत परिणाम आपत्तिजनक हैं।

कुछ लुप्त हो सकने वाली परिस्थितियाँ हो सकती हैं, जिनका परिणाम कैसे उपयोग किया जाता है, के साथ क्या करना है। उदाहरण के लिए, यह कहें कि वर्तमान साधन द्वारा आउटलेर का यह प्रतिस्थापन कुछ एम्बेडेड कंप्यूटर के एल्गोरिथ्म का हिस्सा है, जो इसे बंद-लूप नियंत्रण प्रणाली को लागू करने में सक्षम बनाता है। (यह कुछ सिस्टम आउटपुट का नमूना लेता है, फिर नियंत्रण प्राप्त करने के लिए इनपुट को समायोजित करता है।) सब कुछ वास्तविक समय है, और इसलिए कुछ को लापता डेटा के स्थान पर निश्चित समय अवधि के लिए आपूर्ति की जानी चाहिए। यदि यह फ्यूडिंग ग्लिट्स को दूर करने में मदद करता है, और सुचारू संचालन सुनिश्चित करता है, तो सब अच्छा है।

यहां एक और उदाहरण है, डिजिटल टेलीफोनी से: पीएलसी (पैकेट लॉस कंसीलरमेंट)। बकवास होता है, और पैकेट खो जाते हैं, फिर भी संचार वास्तविक समय है। पीएलसी सही ढंग से प्राप्त पैकेटों से हाल की पिच सूचनाओं के आधार पर नकली आवाज के टुकड़ों को संश्लेषित करता है। इसलिए यदि कोई वक्ता स्वर "आआ" कह रहा था और फिर एक पैकेट खो गया था, तो पीएलसी गायब अवधि को "आआ" को फ्रेम अवधि (जैसे कि 5 या 10 मिलीसेकंड या जो भी हो) के अतिरिक्त पाकेट से पैड कर सकता है। "आआ" ऐसा है कि यह स्पीकर की आवाज जैसा दिखता है। यह खराब माना जाने वाले मूल्यों के विकल्प के लिए "माध्य" का उपयोग करने के लिए समान है। यह एक अच्छी चीज़ है; यह अंदर और बाहर की आवाज काटने से बेहतर है, और समझदारी में मदद करता है।

यदि डेटा का ठगना विफल काम को कवर करने के लिए लोगों से झूठ बोलने के एक कार्यक्रम का हिस्सा है, तो यह कुछ और है।

इसलिए, हम इसके बारे में स्वतंत्र रूप से आवेदन नहीं कर सकते हैं: आँकड़ों का उपयोग कैसे किया जा रहा है? क्या प्रतिस्थापन से अवैध निष्कर्ष निकलेंगे? क्या नैतिक निहितार्थ हैं?


टेलिफोनी कहानी बहुत दिलचस्प है, लेकिन लापता मूल्यों को बदलने के लिए यह रक्षात्मक प्रक्षेप की बात लगती है। बाह्य प्रतिस्थापन के साथ संबंध कठिन है, क्योंकि केवल विशुद्ध रूप से स्थानीय संचालन की आवश्यकता है और स्थानीय परिवर्तन पूरे डेटासेट के "विश्लेषण" के लिए माध्यमिक हैं।
निक कॉक्स

2
यहां दिलचस्प विचारों से भरपूर (+1)। ध्यान दें, हालांकि, प्रतिस्थापन की प्रक्रिया जरूरी नहीं कि अनुक्रमिक है। एक बार में सभी "आउटलेयर" की पहचान कर सकते हैं और शेष सभी को इसके मतलब से बदल सकते हैं। यह Winsorizing के विपरीत नहीं एक सुसंगत प्रक्रिया है।
whuber

6

Cousineau और Chartier के इस लेख में मतलबी लोगों की जगह लेने की चर्चा की गई है

http://www.redalyc.org/pdf/2990/299023509004.pdf

वे लिखते हैं:

तबैकनीक और फ़िडेल (2007) ने गुम हुए डेटा को संबंधित सेल में शेष डेटा के माध्यम से बदलने का सुझाव दिया। हालांकि, यह प्रक्रिया आबादी के प्रसार को कम करने, मनाया वितरण को अधिक लेप्टोक्यूरिक बनाने के लिए करेगी, और संभवतः एक टाइप-आई त्रुटि की संभावना को बढ़ाएगी। एक अधिक विस्तृत तकनीक, कई इंप्रूवमेंट्स में संभावित मूल्यों के साथ आउटलेर्स (या गुम डेटा) को बदलना शामिल है (इलियट और स्टटलर, 2007; सर्फ़लिंग और डैंग, 2009)।

एक आर पैकेज "आउटलेयर" भी है, जिसमें आउटलेर्स को माध्य से बदलने का कार्य है। मैंने अपनी Google खोज में कई हिट फ़िल्में देखीं, जिनका तात्पर्य है कि SPSS का भी ऐसा कोई कार्य है, लेकिन मैं उस कार्यक्रम से परिचित नहीं हूँ। शायद यदि आप थ्रेड्स का पालन करते हैं तो आप अभ्यास के लिए तकनीकी आधार की खोज कर सकते हैं।

संदर्भ

  • चचेरी, डी।, और चार्टियर, एस। (2010)। बाहर का पता लगाने और उपचार: एक समीक्षा। मनोवैज्ञानिक अनुसंधान के अंतर्राष्ट्रीय जर्नल, 3 (1), 58-67।

मैंने "मीन" शब्द की सभी घटनाओं के लिए आपके संदर्भ को खोजा और ऐसा कोई स्थान नहीं पाया, जहां यह इस अर्थ के साथ आउटलेर्स को बदलने की चर्चा करता हो। अगर मुझे कुछ याद आया, तो क्या आप और अधिक सटीक संकेत दे सकते हैं कि यह चर्चा कहां होती है?
whuber

1
मैंने लिंक बदल दिया क्योंकि मुझे यह काम करने के लिए नहीं मिला। दस्तावेज़ के पृष्ठ 9 पर लेखक का कहना है कि "आउटलेयर जो स्पष्ट रूप से एक सक्रिय गतिविधि का परिणाम है, को हटा दिया जाना चाहिए। हालांकि, बहुभिन्नरूपी डिजाइनों में, ऐसा करने से कई प्रतिभागियों को इस बिंदु पर हटाने में परिणाम हो सकता है कि विश्लेषण अब नहीं किया जा सकता है। । तबाचनिक और फ़िडेल (2007) ने गुम हुए डेटा को संबंधित सेल में शेष डेटा के माध्यम से बदलने का सुझाव दिया। "
थॉमस

2
धन्यवाद: मैं इसे अब देख रहा हूं। हालाँकि, इसे एक "चर्चा" के रूप में वर्णित करते हुए - जो यह बताता है कि पेशेवरों और विपक्षों के बीच कुछ संतुलन हो सकता है - कुछ भ्रामक हो सकता है, क्योंकि इस मार्ग में केवल बहुभिन्नरूपी अनुप्रयोगों के लिए मतलब-प्रतिस्थापन प्रक्रिया (ए) का उल्लेख है और (ख) पूरी तरह से इसके दोषों को इंगित करने के लिए, इसके बजाय कई प्रतिरूपण पर विचार करने के सुझाव के साथ घुमावदार। (दिलचस्प बात यह है कि इस प्रक्रिया का कागज़ का संदर्भ इसकी ग्रंथ सूची में भी नहीं दिखता है।)
व्ह्यूबर

5
हां यह विचित्र है कि उद्धृत संदर्भ बिब में नहीं है। यह पुस्तक "प्रायोगिक डिजाइन का उपयोग एनोवा के लिए" प्रतीत होता है। मैं मूल अनुरोध पर प्रतिक्रिया देने और आउटलेर्स के लिए माध्य प्रतिस्थापित करने के अभ्यास के लिए संदर्भ प्रदान करने का प्रयास कर रहा था। वह कागज वह सब था जिसे मैं त्वरित खोज में पा सकता था और मुझे आशा थी कि यह लीड प्रदान कर सकता है ताकि ओपी को अधिक पूर्ण उत्तर मिल सके।
थॉमस

4

मुख्य बात यह है कि जब वे उपयोगी जानकारी प्रदान कर रहे हैं तो क्या आउटलेर से निपटने के लिए ध्यान रखना चाहिए। यदि आप उनसे नियमित रूप से होने की उम्मीद करते हैं, तो उन्हें डेटा से अलग करना यह गारंटी देगा कि आपका मॉडल कभी भी उनकी भविष्यवाणी नहीं करेगा। बेशक, यह निर्भर करता है कि आप मॉडल क्या करना चाहते हैं लेकिन यह ध्यान में रखने योग्य है कि आपको उन्हें छोड़ना नहीं चाहिए। यदि वे महत्वपूर्ण जानकारी रखते हैं, तो आप एक मॉडल पर विचार कर सकते हैं जो उनके लिए जिम्मेदार हो सकता है। एक, सरल तरीका यह है कि चर का लॉग लेना है, जो बिजली कानून संबंधों के लिए जिम्मेदार हो सकता है। वैकल्पिक रूप से, आप एक मॉडल का उपयोग कर सकते हैं जो त्रुटियों के वसा-पूंछ वाले वितरण के साथ उनके लिए खाता है।

यदि आप उन्हें काट देना चाहते हैं तो सामान्य तरीके हैं कि या तो उन्हें गिरा दें या चरम मूल्यों को दूर करने के लिए उन्हें जीतें । मेरे पास एक पाठ्यपुस्तक नहीं है, लेकिन अगर आप आगे पढ़ना चाहते हैं तो विकी लिंक कुछ को संदर्भित करते हैं। लागू आँकड़ों पर अधिकांश ग्रंथों में आउटलेर पर एक खंड होना चाहिए।


3

मैं आंकड़ों में दो संबंधित समान दृष्टिकोणों से अवगत हूं।

  • 1
  • Winsorization: छंटनी मतलब के समान, आप केवल चरम टिप्पणियों को संशोधित करते हैं। हालाँकि, उन्हें छोड़ने के बजाय, आप उन्हें सबसे बड़े / सबसे छोटे गैर-चरम अवलोकन के साथ प्रतिस्थापित करते हैं। यह अक्सर ट्रिमिंग से थोड़ा बेहतर काम करता है।

अधिक विस्तृत उदाहरणों के लिए, विकिपीडिया देखें:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

ध्यान दें कि यह कुछ आंकड़ों के लिए अच्छा काम करता है जैसे कि माध्य की गणना करते समय। छंटनी / जीत का मतलब अक्सर आर्टिहिमेटिक औसत की तुलना में सही मतलब का एक बेहतर अनुमान है। अन्य मामलों में, यह आपके आंकड़ों को बर्बाद कर सकता है। उदाहरण के लिए जब कंप्यूटिंग विचरण, ट्रिमिंग हमेशा आपके वास्तविक विचरण को कम करके आंकेगी। Winsorization, यह मानते हुए कि वास्तव में कुछ चरम अवलोकन दोषपूर्ण हैं, तब थोड़ा बेहतर काम करेगा (यह शायद अभी भी कम करके आंका जाएगा, लेकिन उतना नहीं)।

मैं नहीं देखता कि कैसे चरम मूल्यों की जगह के साथ यहाँ फिट होगा।

हालांकि, एक और प्रथा है जो संबंधित है: लापता मूल्य प्रतिरूपण । यह मानते हुए कि आपका बहिर्वाह त्रुटिपूर्ण, बेकार डेटा है, इसलिए इसे हटा दें। जब आप तब प्रतिरूपण करते हैं, तो एक विशिष्ट स्थानापन्न मान या मोड होगा:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29


1
विषम रूप से ट्रिमिंग एक ज्ञात और रक्षात्मक रणनीति है।
Nick Cox

2

आउटलेयर्स को संभालने के लिए पारंपरिक दृष्टिकोण बस उन्हें ऐसे दूर करना है कि आपका मॉडल केवल "अच्छा" डेटा पर प्रशिक्षित हो।

ध्यान रखें कि उन आउटलेयर की उपस्थिति से माध्य मूल्य प्रभावित होता है। यदि आप अपने डेटासेट से आउटलेर हटाए जाने के बाद गणना किए गए माध्य से आउटलेर्स को प्रतिस्थापित करते हैं , तो इससे कोई फर्क नहीं पड़ेगा क्योंकि प्रतिगमन रेखा (साधारण रेखीय प्रतिगमन से) वैसे भी आपके प्रशिक्षण डेटा के माध्यम से गुजरेगी (यह आपके विचरण को कम कर देगा) हालांकि अनुमान है, जो कि आप जो चाहते हैं, उसके विपरीत है जो आपको पता है कि आउटलेयर हैं)।

मॉडल पर आपके दृष्टिकोण का प्रभाव बाहरी क्षेत्र के प्रभाव (उत्तोलन) पर निर्भर करेगा। मैं उस दृष्टिकोण के खिलाफ सुझाव दूंगा जो आप केवल पूर्ण बिंदु को हटाने के एवज में सुझाते हैं।


4
डेटा को हटाने से पूर्वाग्रह पैदा हो जाएगा जब तक कि हटाने की प्रक्रिया उद्देश्यपूर्ण न हो और यही प्रक्रिया भविष्य के सभी डेटा पर लागू होगी जिसके लिए भविष्यवाणियां प्राप्त की जाती हैं।
फ्रैंक हरेल

0

हाँ, आउटलेर्स को रूपों में बदला जा सकता है, उदाहरण के लिए, मान लें कि मानव ऊँचाई के आकार का एक डेटा-सेट है, मान लें कि हमारे पास 500 सेमी और 400 सेमी जैसे कुछ आउटलेर हैं, तो हम उन डेटा बिंदुओं को बदल सकते हैं जो अंदर दिखाई देते हैं डेटा की रिकॉर्डिंग के दौरान हुई कुछ त्रुटि के कारण डेटासेट। इसलिए जो विकल्प आप आज़मा सकते हैं, 1. इसे डेटा के पूरे रंग के माध्यिका से बदल दें (मतलब नहीं, क्योंकि यह आउटलेर्स के लिए प्रवण है)। 2. स्तंभ में सबसे अधिक आवर्ती डेटा बिंदु के साथ बदलें। 3. यदि श्रेणीबद्ध मान हैं तो आप रिस्पॉन्स कोडिंग की कोशिश कर सकते हैं। (जिसमें आप शब्द की संभावना या शब्दों की कुल संख्या से होने वाले मानों को रिकॉर्ड करते हैं)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.