मैं ट्रिमिंग प्रतिशत बनाम छंटनी के माध्यम की साजिश की व्याख्या कैसे कर सकता हूं?


12

एक होमवर्क प्रश्न के भाग के लिए, मुझे सबसे छोटे और सबसे बड़े अवलोकन को हटाकर और परिणाम की व्याख्या करने के लिए एक डेटासेट के लिए छंटनी के माध्यम की गणना करने के लिए कहा गया था। छंटनी का मतलब अप्रभावित माध्य से कम था।

मेरी व्याख्या यह थी कि ऐसा इसलिए था क्योंकि अंतर्निहित वितरण सकारात्मक रूप से तिरछा था, इसलिए बाईं पूंछ दाएं पूंछ की तुलना में सघन है। इस तिरछीता के परिणामस्वरूप, एक उच्च डेटम को हटाने से मतलब कम हो जाता है और एक कम हटाने से अधिक इसे धक्का देता है, क्योंकि, अनौपचारिक रूप से बोलते हुए, अधिक कम डेटा हैं "अपनी जगह लेने के लिए इंतजार कर रहे हैं।" (क्या यह उचित है?)

तब मुझे आश्चर्य हुआ कि ट्रिमिंग प्रतिशत इसको कैसे प्रभावित करता है, इसलिए मैंने विभिन्न लिए ट्रिम किए गए माध्य । मुझे एक दिलचस्प परवलयिक आकार मिला: x¯tr(k)k=1/n,2/n,,(n21)/nट्रिमिंग प्रतिशत बनाम छंटनी का मतलब;  एक अवतल वक्र बनाता है जो लगभग परवलिक दिखता है

मुझे इस पर व्याख्या करने का पूरा यकीन नहीं है। Intuitively, ऐसा लगता है ग्राफ की ढलान की तरह (के लिए आनुपातिक) के भीतर वितरण के भाग के नकारात्मक तिरछापन होना चाहिए मंझला के डेटा बिंदुओं। (यह परिकल्पना मेरे डेटा की जाँच करती है, लेकिन मेरे पास केवल , इसलिए मुझे बहुत विश्वास नहीं है।)kn=11

क्या इस प्रकार के ग्राफ़ में एक नाम है, या इसका आमतौर पर उपयोग किया जाता है? इस ग्राफ से हम क्या जानकारी प्राप्त कर सकते हैं? क्या कोई मानक व्याख्या है?


संदर्भ के लिए, डेटा हैं: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80।

जवाबों:


11

@gung और @kjetil b। हलवेर्सन दोनों सही हैं।

मुझे ऐसे रेखांकन मिले हैं

रोसेनबर्गर, जेएल और एम। गास्को। 1983. स्थान अनुमानकों की तुलना: ट्रिम किए गए साधनों, मंझले और ट्रिमियन। में मजबूत और खोजपूर्ण डेटा विश्लेषण को समझना , एड्स। डीसी होआग्लिन, एफ। मोस्टेलर, और जेडब्ल्यू तुके, 297-338। न्यूयॉर्क: विली।

तथा

डेविसन, एसी और डीवी हिंकले। 1997. बूटस्ट्रैप के तरीके और उनके आवेदन। कैम्ब्रिज: कैम्ब्रिज यूनिवर्सिटी प्रेस।

में और उदाहरण देते हैं

कॉक्स, एनजे 2013. स्वाद के लिए ट्रिमिंग। स्टाटा जर्नल 13: 640-666। http://www.stata-journal.com/article.html?article=st0313 [पीडीऍफ़ में मुफ्त पहुंच]

जिसमें छंटनी के साधनों के कई पहलुओं पर चर्चा की गई।

जहां तक ​​मुझे पता है, ग्राफ का अलग नाम नहीं है। हर संभव साजिश के लिए एक अलग नाम वास्तव में एक छोटा दुःस्वप्न होगा: चित्रमय शब्दावली पहले से ही एक भयानक गड़बड़ है। मैं इसे केवल छंटनी मतलब बनाम छंटनी संख्या, अंश या प्रतिशत की एक साजिश कहूँगा (इस प्रकार ओपी के शब्दों को उलट रहा है)।

"बनाम" पर आगे की छोटी टिप्पणियों के लिए, प्रतिगमन में हेटेरोसेडासिटी में मेरा जवाब देखें

संपादित करें: अभी तक बनाम (केवल भाषा mavens) पर अधिक के लिए, यहां देखें ।


10

मैंने इस ग्राफ के बारे में कभी नहीं सुना है, लेकिन मुझे लगता है कि यह बहुत साफ है; शायद किसी ने पहले किया है। आप इसके साथ क्या कर सकते हैं यह देखें कि यदि आप अपने डेटा के अलग-अलग अनुपातों को आउटलेयर मानते हैं तो इसका मतलब कैसे बदल जाता है और / या स्थिर हो जाता है। परवलयिक आकार प्राप्त करने का कारण यह है कि आपका (आरंभिक) वितरण संपूर्ण रूप से सही तिरछा है, लेकिन वितरण के केंद्र में तिरछा की डिग्री समान नहीं है। तुलना के लिए, नीचे कर्नेल घनत्व प्लॉट पर विचार करें।

यहाँ छवि विवरण दर्ज करें

बाईं ओर आपके डेटा हैं क्योंकि उन्हें एक-एक करके छंटनी की जाती है। दाईं ओर ये डेटा हैं: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)जो समान रूप से अंतर प्रतिशतता से लिए गए एक मानक लॉगनॉर्मल वितरण की मात्राएँ हैं और मानों की श्रेणी को समान बनाने के लिए 20 से गुणा किया जाता है।

आपका डेटा सही तिरछा शुरू होता है, लेकिन पंक्ति 5 के द्वारा, उन्हें तिरछा छोड़ दिया जाता है, इसलिए अधिक डेटा को ट्रिम करने से माध्य को वापस लाना शुरू हो जाता है। ट्रिमिंग जारी रखने के साथ दाईं ओर डेटा समान तिरछा बनाए रखता है।

नीचे लॉगऑनॉर्मल डेटा और एकसमान डेटा ( z = 1:11, नो तिरछा - पूरी तरह से सममित) के लिए आपका प्लॉट है ।

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें


4

मुझे नहीं लगता कि इस तरह के ग्राफ का कोई नाम है, लेकिन आप जो कर रहे हैं वह उचित है, और आपकी व्याख्या, मुझे लगता है, मान्य है। मुझे लगता है कि आप जो कर रहे हैं, वह हम्पेल के प्रभाव समारोह से संबंधित है, https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function देखें, विशेष रूप से अनुभवजन्य प्रभाव फ़ंक्शन के बारे में अनुभाग। और आपका प्लॉट निश्चित रूप से डेटा के तिरछापन के कुछ माप से संबंधित हो सकता है, क्योंकि, यदि आपका डेटा पूरी तरह से सममित है, तो प्लॉट सपाट होगा। आपको इसकी जाँच करनी चाहिए!

            EDIT     

इस भूखंड का एक विस्तार यह भी है कि बाएं और दाएं पर अलग-अलग ट्रिमिंग का उपयोग करने का प्रभाव। चूंकि यह R में meanतर्क के साथ सामान्य फ़ंक्शन में लागू नहीं है trim, इसलिए मैंने अपना ट्रिम किए गए औसत फ़ंक्शन लिखा। एक चिकनी साजिश प्राप्त करने के लिए मैं रैखिक प्रक्षेप का उपयोग करता हूं जब ट्रिमिंग अंश एक गैर-पूर्णांक संख्याओं को हटाता है। यह फ़ंक्शन देता है:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

फिर मैं कुछ डेटा का अनुकरण करता हूं और एक समोच्च साजिश के रूप में परिणाम दिखाता हूं:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

यह परिणाम दे रहा है:

ट्रिमिंग का प्रभाव दिखाते हुए समोच्च भूखंड

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.