इस बात पर विचार करें कि एक छंटनी का क्या मतलब है: प्रोटोटाइप मामले में, आप पहले अपने डेटा को बढ़ते क्रम में क्रमबद्ध करते हैं। फिर आप नीचे से ट्रिमिंग प्रतिशत तक की गणना करते हैं और उन मूल्यों को छोड़ देते हैं। उदाहरण के लिए एक 10% छंटनी का मतलब आम है; उस स्थिति में, जब तक आप अपने सेट में सभी डेटा का 10% पारित नहीं कर लेते, तब तक आप सबसे कम मूल्य से गिनती करते हैं। उस चिह्न के नीचे के मान अलग सेट किए गए हैं। इसी तरह, जब तक आप अपना ट्रिमिंग प्रतिशत पास नहीं कर लेते, तब तक आप सबसे अधिक मूल्य से नीचे गिने जाते हैं, और सभी मूल्यों को एक तरफ से अधिक सेट करते हैं। अब आप 80% मध्य में रह गए हैं। आप इसका मतलब निकालते हैं, और यह आपका 10% छंटनी का मतलब है। (ध्यान दें कि आप दो पूंछों से असमान अनुपातों को ट्रिम कर सकते हैं, या केवल एक पूंछ को ट्रिम कर सकते हैं, लेकिन ये दृष्टिकोण कम सामान्य हैं और आपकी स्थिति के अनुसार लागू नहीं होते हैं।)
अब सोचें कि अगर आपने 50% छंटनी का मतलब निकाला तो क्या होगा। नीचे का आधा भाग अलग होगा, जैसा कि शीर्ष आधा होगा। आपको मध्य में केवल एक ही मूल्य (क्रमिक रूप से) छोड़ा जाएगा। आप इसका मतलब निकाल लेंगे (जो कि कहना है, आप बस मान लेंगे) हालांकि, ध्यान दें कि मूल्य औसत है। दूसरे शब्दों में, माध्य एक छंटनी माध्य है (यह 50% छंटनी माध्य है)। यह सिर्फ एक बहुत ही आक्रामक है। यह मानता है, संक्षेप में, कि आपके डेटा का 99% दूषित है। यह आपको शक्ति / दक्षता के अंतिम नुकसान की कीमत पर आउटलेर्स के खिलाफ अंतिम सुरक्षा प्रदान करता है ।
मेरा अनुमान है कि एक माध्य / 50% छंटनी का मतलब आपके डेटा के लिए आवश्यक की तुलना में बहुत अधिक आक्रामक है, और आपके लिए उपलब्ध जानकारी से बहुत अधिक बेकार है। यदि आपके पास आउटलेयर के अनुपात का कोई अर्थ है, तो मैं उस जानकारी का उपयोग ट्रिमिंग प्रतिशत सेट करने और उचित छंटनी के माध्यम का उपयोग करने के लिए करूंगा। यदि आपके पास ट्रिमिंग प्रतिशत चुनने के लिए कोई आधार नहीं है, तो आप क्रॉस सत्यापन द्वारा एक का चयन कर सकते हैं, या केवल एक अवरोधन के साथ एक मजबूत प्रतिगमन विश्लेषण का उपयोग कर सकते हैं।