प्रस्ताव में कई दोष हैं। यहाँ शायद सबसे बड़ा है।
मान लीजिए कि आप डेटा इकट्ठा कर रहे हैं, और आप इन मूल्यों को देखते हैं:
2,3,1
6/3=2
फिर एक बहार आती है:
2,3,1,1000
तो आप इसे माध्य से प्रतिस्थापित करते हैं:
2,3,1,2
अगला नंबर अच्छा है:
2,3,1,2,7
अब माध्य 3 है। एक मिनट रुको, माध्य अब 3 है, लेकिन हमने 1000 को 2 के माध्य से बदल दिया, सिर्फ इसलिए कि यह चौथे मान के रूप में हुआ। अगर हम नमूनों के क्रम को बदल दें तो क्या होगा?
2,3,1,7,1000
(2+3+1+7)/4=13/4
समस्या यह है कि 1000 के स्थान पर हम जिस गलत डाटा को प्रतिस्थापित कर रहे हैं, वह दूसरे डेटा पर निर्भर है । यह एक महामारी विज्ञान की समस्या है अगर नमूनों को स्वतंत्र माप का प्रतिनिधित्व करना चाहिए।
nnnnn
मूल रूप से, परिणामों को ट्रिम करना जो फिट नहीं होता है, वह एक चीज है (और इसे उचित ठहराया जा सकता है यदि यह एल्गोरिथम के अनुसार लगातार किया जाता है, बजाय प्रयोग करने वाले के मिजाज को बदलने के)।
दार्शनिक, महामारी विज्ञान और नैतिक आधारों पर सटीक रूप से गलत परिणाम आपत्तिजनक हैं।
कुछ लुप्त हो सकने वाली परिस्थितियाँ हो सकती हैं, जिनका परिणाम कैसे उपयोग किया जाता है, के साथ क्या करना है। उदाहरण के लिए, यह कहें कि वर्तमान साधन द्वारा आउटलेर का यह प्रतिस्थापन कुछ एम्बेडेड कंप्यूटर के एल्गोरिथ्म का हिस्सा है, जो इसे बंद-लूप नियंत्रण प्रणाली को लागू करने में सक्षम बनाता है। (यह कुछ सिस्टम आउटपुट का नमूना लेता है, फिर नियंत्रण प्राप्त करने के लिए इनपुट को समायोजित करता है।) सब कुछ वास्तविक समय है, और इसलिए कुछ को लापता डेटा के स्थान पर निश्चित समय अवधि के लिए आपूर्ति की जानी चाहिए। यदि यह फ्यूडिंग ग्लिट्स को दूर करने में मदद करता है, और सुचारू संचालन सुनिश्चित करता है, तो सब अच्छा है।
यहां एक और उदाहरण है, डिजिटल टेलीफोनी से: पीएलसी (पैकेट लॉस कंसीलरमेंट)। बकवास होता है, और पैकेट खो जाते हैं, फिर भी संचार वास्तविक समय है। पीएलसी सही ढंग से प्राप्त पैकेटों से हाल की पिच सूचनाओं के आधार पर नकली आवाज के टुकड़ों को संश्लेषित करता है। इसलिए यदि कोई वक्ता स्वर "आआ" कह रहा था और फिर एक पैकेट खो गया था, तो पीएलसी गायब अवधि को "आआ" को फ्रेम अवधि (जैसे कि 5 या 10 मिलीसेकंड या जो भी हो) के अतिरिक्त पाकेट से पैड कर सकता है। "आआ" ऐसा है कि यह स्पीकर की आवाज जैसा दिखता है। यह खराब माना जाने वाले मूल्यों के विकल्प के लिए "माध्य" का उपयोग करने के लिए समान है। यह एक अच्छी चीज़ है; यह अंदर और बाहर की आवाज काटने से बेहतर है, और समझदारी में मदद करता है।
यदि डेटा का ठगना विफल काम को कवर करने के लिए लोगों से झूठ बोलने के एक कार्यक्रम का हिस्सा है, तो यह कुछ और है।
इसलिए, हम इसके बारे में स्वतंत्र रूप से आवेदन नहीं कर सकते हैं: आँकड़ों का उपयोग कैसे किया जा रहा है? क्या प्रतिस्थापन से अवैध निष्कर्ष निकलेंगे? क्या नैतिक निहितार्थ हैं?