इसे संबोधित करने से पहले, यह स्वीकार करना महत्वपूर्ण है कि "आउटलेर्स को हटाने" के सांख्यिकीय कदाचार को बहुत अधिक लागू सांख्यिकीय शिक्षाशास्त्र में गलत तरीके से प्रख्यापित किया गया है। परंपरागत रूप से, आउटलेर को उच्च उत्तोलन, उच्च प्रभाव टिप्पणियों के रूप में परिभाषित किया जाता है। एक को डेटा के विश्लेषण में इस तरह की टिप्पणियों की पहचान करनी चाहिए, लेकिन वे शर्तें अकेले उन टिप्पणियों को हटाने का वारंट नहीं करती हैं। एक "वास्तविक रूपरेखा" एक उच्च उत्तोलन / उच्च प्रभाव अवलोकन है जो प्रयोगात्मक डिजाइन के प्रतिकृति के साथ असंगत है। अवलोकन के लिए इस तरह के रूप में उस आबादी और "डेटा जनरेटिंग तंत्र" के पीछे विज्ञान के विशेष ज्ञान की आवश्यकता होती है। सबसे महत्वपूर्ण पहलू यह है कि आपको संभावित आउटलेर एप्रीओरी की पहचान करने में सक्षम होना चाहिए ।
बूटस्ट्रैप चीजों के पहलू के रूप में, बूटस्ट्रैप का अर्थ है स्वतंत्र, अनुकरण करने के लिए, नमूना आबादी से दोहराया ड्रॉ। यदि आप अपने विश्लेषण योजना में बहिष्करण मानदंडों को निर्धारित करते हैं, तो आपको अभी भी संदर्भित बूटस्ट्रैप नमूना वितरण में बहिष्कृत मान छोड़ना चाहिए । ऐसा इसलिए है क्योंकि आप अपने डेटा का नमूना लेने के बाद बहिष्करण लागू करने के कारण बिजली की हानि के लिए जिम्मेदार होंगे। हालाँकि, यदि कोई निर्धारित बहिष्करण मानदंड नहीं हैं और पोस्ट हॉक एडजुडिकेशन का उपयोग करके आउटलेर्स को हटा दिया जाता है , जैसा कि मैं स्पष्ट रूप से विरोध कर रहा हूं, इन मूल्यों को हटाने से इनफ्लेशन में वही त्रुटियां फैलेंगी जो आउटलेर्स को हटाने के कारण होती हैं।
100 लोगों के एक अनियंत्रित सरल यादृच्छिक नमूने में धन और खुशी पर एक अध्ययन पर विचार करें। यदि हमने बयान लिया, "1% आबादी के पास दुनिया की 90% संपत्ति है", तो हम वास्तव में, एक बहुत ही प्रभावशाली मूल्य का निरीक्षण करेंगे। आगे मान लीजिए कि, जीवन की एक बुनियादी गुणवत्ता से परे, बड़ी आय (गैर-अस्थिर रैखिक प्रवृत्ति) के कारण कोई अतिरिक्त खुशी नहीं थी। तो यह व्यक्तिगत लाभ भी अधिक है।
अनधिकृत डेटा पर कम से कम वर्ग प्रतिगमन गुणांक फिट का अनुमान है कि इन आंकड़ों में एक जनसंख्या पहले क्रम प्रवृत्ति का औसत है। यह हमारे 1 व्यक्ति द्वारा नमूने में भारी रूप से देखा गया है, जिसकी खुशी औसत आय स्तर के करीब लोगों के साथ संगत है। यदि हम इस व्यक्ति को हटा देते हैं, तो कम से कम वर्ग प्रतिगमन ढलान बहुत बड़ा है, लेकिन प्रतिगामी का विचलन कम हो जाता है, इसलिए एसोसिएशन के बारे में अनुमान लगभग समान है। ऐसा करने में कठिनाई यह है कि मैंने उन शर्तों को निर्धारित नहीं किया था जिनमें व्यक्तियों को बाहर रखा जाएगा। यदि किसी अन्य शोधकर्ता ने इस अध्ययन के डिजाइन को दोहराया, तो वे औसतन एक उच्च आय का नमूना लेंगे, जो व्यक्तिगत रूप से खुश होंगे, और मेरे "छंटनी" परिणामों के साथ असंगत परिणाम प्राप्त करेंगे।
यदि हम मध्यम आय खुशी एसोसिएशन में रुचि रखते थे , तो हमें यह निर्धारित करना चाहिए कि हम "$ 100,000 वार्षिक आय से कम आय वाले व्यक्तियों की तुलना करें"। इसलिए बाहरी रूप से हटाने के कारण हम एक ऐसे एसोसिएशन का अनुमान लगा सकते हैं जिसका हम वर्णन नहीं कर सकते हैं, इसलिए पी-मान अर्थहीन हैं।
दूसरी ओर, मिसकैरिब्रेटेड चिकित्सा उपकरण और मुखर स्व-रिपोर्ट किए गए सर्वेक्षण झूठ को हटाया जा सकता है। वास्तविक विश्लेषण होने से पहले बहिष्करण मानदंडों को जितना अधिक सटीक रूप से वर्णित किया जा सकता है, उतना अधिक मान्य और सुसंगत परिणाम ऐसे विश्लेषण का उत्पादन करेगा।