Winsorizing बनाम ट्रिमिंग डेटा के सापेक्ष गुण क्या हैं?


31

Winsorizing डेटा का अर्थ है कि प्रत्येक छोर से एक निश्चित प्रतिशत मान के साथ सेट किए गए डेटा के चरम मानों को बदलना , जबकि Trimming या Truncating में उन चरम मूल्यों को निकालना शामिल है ।

जब हमेशा माध्य या मानक विचलन जैसे आँकड़ों की गणना की जाती है, तो मैं दोनों तरीकों को एक व्यवहार्य विकल्प के रूप में चर्चा करता हूं, जो बाह्य उपकरणों के प्रभाव को कम करता है, लेकिन मैंने यह नहीं देखा कि कोई एक को दूसरे पर क्यों उठा सकता है।

Winsorizing या Trimming का उपयोग करने के लिए कोई रिश्तेदार फायदे या नुकसान हैं? क्या ऐसी कुछ स्थितियाँ हैं जहाँ एक विधि बेहतर होगी? क्या कोई अधिक बार व्यवहार में लाया जाता है या वे मूल रूप से विनिमेय हैं?


2
यहां की शब्दावली भ्रामक है। ट्रिमिंग का अर्थ है चरम मूल्यों की अनदेखी, प्रत्येक पूंछ में कुछ अंश। पूंछों में मूल्यों को हटाने या छोड़ने का मतलब यह नहीं है, कम से कम इसलिए नहीं क्योंकि आप उन्हें और आमतौर पर उन्हें अन्य विश्लेषणों में शामिल करना चाहिए। ट्रंकेशन शब्द अन्य अर्थों के लिए सबसे अच्छा है। उदाहरण देखें en.wikipedia.org/wiki/Truncation_(statistics)
निक कॉक्स

जवाबों:


11

ट्रिमिंग पर एक अलग, लेकिन संबंधित प्रश्न पर जिसे मैंने अभी-अभी ठोकर खाई है, एक जवाब में निम्नलिखित उपयोगी अंतर्दृष्टि थी कि कोई क्यों या तो विंडोराइजिंग या ट्रिमिंग का उपयोग कर सकता है:

यदि आप छंटनी किए गए वितरण को लेते हैं, तो आप स्पष्ट रूप से बताते हैं: मैं आउटलेर्स / वितरण की पूंछ में दिलचस्पी नहीं रखता। यदि आप मानते हैं कि "आउटलेयर" वास्तव में आउटलेर हैं (यानी, वे वितरण से संबंधित नहीं हैं, लेकिन "दूसरे प्रकार" के हैं) तो ट्रिमिंग करें। यदि आपको लगता है कि वे वितरण से संबंधित हैं, लेकिन आप कम वितरण करना चाहते हैं, तो आप विजेता के बारे में सोच सकते हैं।

यदि कोई अधिक निश्चित दृष्टिकोण है, तो मैं उत्सुक हूं, लेकिन उपरोक्त तर्क उचित लगता है।


4

एक अच्छा सवाल जो सभी क्षेत्रों में बहुत बार सामना किया जाता है! या तो मामले में आप तकनीकी रूप से उन्हें डेटा सेट से हटा रहे हैं।

मुझे पता है कि ट्रंकेशन के एक रूप का उपयोग करने के लिए रेखीय रूप से एक प्रवृत्ति खोजने की कोशिश करते समय यह आम बात है: साजिश रचने के लिए पूरे डेटा सेट का उपयोग करें, लेकिन फिर व्याख्या के लिए चरम मूल्यों को बाहर करें।

'विनोर्साइज़िंग' के साथ समस्या यह है कि आपके द्वारा जोड़े गए भाग स्वयं-पूर्ण होते हैं, अर्थात वे डेटा सेट से ही उत्पन्न होते हैं और इसलिए इसका समर्थन करते हैं। मशीन-लर्निंग में क्रॉस-वैलिडेशन / वर्गीकरण के काम को देखने पर, जब प्रशिक्षण और परीक्षण डेटा सेट का उपयोग करने का निर्णय लेते हैं तो कुछ समस्याएं होती हैं।

मैं किसी भी मामले में एक मानकीकृत दृष्टिकोण के पार नहीं आया हूँ - यह हमेशा डेटा विशिष्ट होता है। आप यह पता लगाने की कोशिश कर सकते हैं कि आपका डेटा (आउटलेयर) किस प्रतिशत (अस्थिरता) के कारण दिए गए प्रतिशत का अस्थिरता / सेंट है। विचलन, और उस अस्थिरता को कम करने के बीच एक संतुलन खोजते हैं लेकिन जितना संभव हो उतना डेटा को बनाए रखते हैं।


6
जैसा कि ऊपर मेरी टिप्पणी में, "डेटा सेट से उन्हें हटाना" यहां बहुत मजबूत है। ट्रिमिंग या विंसोरिज़िंग का अर्थ है कि वह क्या करता है, एक निश्चित गणना के लिए इसे अनदेखा करना या प्रतिस्थापित करना। आप डेटासेट से टेल वैल्यू को हटाने के लिए बाध्य नहीं हैं , जैसे कि आप सड़े हुए फल को फेंक रहे हैं। उदाहरण के लिए, संभावित आउटलेर्स के साथ सामना किया, आप डेटा का विश्लेषण कर सकते हैं क्योंकि वे आते हैं और ट्रिमिंग के आधार पर विश्लेषण करते हैं और देखते हैं कि क्या फर्क पड़ता है।
निक कॉक्स

-1

यह एक अच्छा सवाल है, और एक मेरा सामना किया गया है। ऐसे मामलों में जहां आपके पास एक बड़ा डेटासेट या अधिक सटीक रूप से भिन्न होने वाला डेटासेट होता है, जहां डेटा मानों की अल्पसंख्यक विस्तृत पैमाने पर भिन्न होती है (लेकिन फिर भी दिखाए जाने की आवश्यकता होती है), और अधिकांश डेटासेट एक संकीर्ण बैंड के भीतर होते हैं, जैसे कि यदि डेटा प्लॉट किया गया है, तो वह विवरण जहां डेटा का अधिकांश हिस्सा खो जाता है, और सामान्य करने या मानकीकृत करने से पर्याप्त विभेदीकरण (कम से कम नेत्रहीन) नहीं दिखाई देता है, या, इसके बजाय कच्चे डेटा की आवश्यकता होती है, फिर छोटा या जीतना चरम डेटा मान बेहतर डेटा विज़ुअलाइज़ेशन के लिए मदद करता है।


यह एक अच्छा सवाल है, लेकिन आप इसका जवाब नहीं देते हैं। आप बस कहते हैं कि ट्रंकटिंग या विंसोराइजिंग विज़ुअलाइज़ेशन में मदद कर सकते हैं।
निक कॉक्स

-2

हे(nलॉगn)हे(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
हे(nलॉगn)हे(n)

तुम सही हो। मैंने अपने मूल पद को गलत बताया। कभी-कभी टाइपिंग उंगलियां और मस्तिष्क सिंक में नहीं होते हैं। मेरा कहने का मतलब सही ट्रंक्यूलेटेड माध्य की सही गणना करना है , आपको सभी डेटा तत्वों को क्रमबद्ध करना होगा। मेरा मानना ​​है कि यह अभी भी सच है। मैंने जवाब से अपडेट किया है।
मार्क लकाटा

2
इसका अर्थ यह लगता है कि Winsorizing का अर्थ है प्रत्येक पूंछ में Winsorizing 25%। आप जितना उचित समझें उतना कम या कम जीत सकते हैं।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.