यदि माध्य इतना संवेदनशील है, तो पहले स्थान पर इसका उपयोग क्यों करें?


84

यह एक ज्ञात तथ्य है कि माध्य बाहरी लोगों के लिए प्रतिरोधी है। अगर ऐसा है, तो हम पहली जगह में कब और क्यों इसका इस्तेमाल करेंगे?

एक बात जो मैं सोच सकता हूं, वह यह है कि आउटलेर्स की उपस्थिति को समझना है, यदि मध्य माध्य से दूर है, तो वितरण तिरछा है और शायद डेटा को यह परखने के लिए जांचने की आवश्यकता है कि आउटलेर के साथ क्या किया जाना है। क्या कोई अन्य उपयोग हैं?


14
पहले प्रश्न के बारे में एक त्वरित पक्ष नोट: आंकड़ों में मतलब आबादी का सिर्फ पहला क्षण है , जबकि मंझला नहीं है। सीएलटी, बड़ी संख्या के कानून आदि का उपयोग करने की मांग करते हुए, आप फिर से परिमित क्षणों के अस्तित्व से जुड़े होते हैं। हालांकि उदाहरण के लिए कैची वितरण: माध्य मौजूद है, जबकि इसका मतलब यह नहीं है;)
होप सेलोव

2
@Dmitrij यह एक गहरा और व्यावहारिक जवाब है। आप एक उत्तर में इस पर विस्तृत क्यों नहीं करते?
whuber

यदि आप इस मतलब का उपयोग नहीं करते हैं कि आप इसकी भावनाओं को चोट पहुँचाएंगे? (क्षमा करें, विरोध नहीं कर सकता।)
डैनियल आर हिक्स

3
@ डैनियल आर हिक्स: और यह काफी मतलबी है, है? (क्षमा करें, साथ ही विरोध नहीं कर सका)।
मुहम्मद अलकरौरी

3
यह सवाल सामान्य से कहीं अधिक दिलचस्प है, "हम कैसे आए हमेशा मजबूत एल्गोरिदम का उपयोग न करें?" प्रश्न, लेकिन एक ही अंतर्निहित सोच हो सकती है कि "मजबूत == जादुई" और अगर हम सिर्फ मजबूत तरीकों का इस्तेमाल करते हैं, तो हमें अपने डेटा की जांच नहीं करनी होगी, इसे समझना होगा या विभिन्न प्रकार की सटीकता के मुद्दों के बारे में चिंता करना होगा, क्योंकि वे हैं। "मजबूत"। फिर भी, +1।
वेन

जवाबों:


113

एक अर्थ में, माध्य का उपयोग किया जाता है क्योंकि यह डेटा के प्रति संवेदनशील है। यदि वितरण सममित होता है और पूंछ सामान्य वितरण की तरह होती है, तो इसका मतलब केंद्रीय प्रवृत्ति का एक बहुत ही कुशल सारांश है। माध्यिका, किसी भी निरंतर वितरण के लिए मजबूत और अच्छी तरह से परिभाषित होने के दौरान, केवल रूप में कुशल है, यदि डेटा सामान्य वितरण से आने के लिए हुआ। यह माध्यिका की यह सापेक्ष अक्षमता है जो हमें इसका उपयोग करने से भी अधिक रखती है। सापेक्ष अक्षमता एक मामूली निरपेक्ष अक्षमता में तब्दील हो जाती है क्योंकि नमूना आकार बड़ा हो जाता है, इसलिए बड़े हम माध्यिका का उपयोग करने के बारे में अधिक अपराध-मुक्त हो सकते हैं। एन2πn

यह ध्यान रखना दिलचस्प है कि भिन्नता (प्रसार, फैलाव) को मापने के लिए, एक बहुत ही मजबूत अनुमानक है जो कि मानक विचलन के रूप में 0.98 है, जो कि गिन्नी के औसत अंतर के रूप में कुशल है। यह किन्हीं दो अवलोकनों के बीच का पूर्ण निरपेक्ष अंतर है। [आपको Gini के औसत अंतर द्वारा अनुमानित समान मात्रा का अनुमान लगाने के लिए नमूना मानक विचलन को एक स्थिर से गुणा करना है।] केंद्रीय प्रवृत्ति का एक कुशल उपाय हॉजेस-लेहमन अनुमानक है, अर्थात, सभी युग्मक साधनों का माध्यिका। यदि इसकी व्याख्या सरल होती तो हम इसका अधिक उपयोग करते।


13
केंद्रीय प्रवृत्ति के होजेस-लेहमन अनुमानक का उल्लेख करने के लिए +1। कई मामलों में यह माध्य और माध्यिका के बीच में है। यदि केवल बड़े नमूने में गणना करना आसान था, तो यह स्थान की माप के रूप में माध्य या माध्यिका से अधिक लोकप्रिय होगा, मुझे लगता है।
ttnphns 17

BTW, @Frank, क्या आप जानते हैं कि कौन सा सैद्धांतिक नमूना वितरण हॉजेस-लेहमन केंद्र निम्नानुसार है? मैं नहीं करता - और मैं दिलचस्पी लेता हूं।
ttnphns

16
टिप्पणी के लिए धन्यवाद। R में एक-लाइनर इसे N = 5000 तक कुशलता से गणना कर सकता है w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2। एक तुच्छ सी, फोरट्रान या रैटफोर कार्यक्रम को आर द्वारा तेजी से धधकाने के लिए बुलाया जा सकता है। R में ICSNP पैकेज का अपने hl.locकार्य के साथ काफी कुशल कार्यान्वयन है । एन = 5000 के लिए यह उपरोक्त कोड की तुलना में 2.66 गुना अधिक तेज था (कुल समय 1.5 सेकंड।)। यह भी अच्छा होगा कि कुशलता से एक आत्मविश्वास अंतराल प्राप्त करें।
फ्रैंक हरेल

@FrankHarrel मानक विचलन के लिए और बारे में आप क्या कह सकते हैं ? मुझे गैर-सामान्य वितरण के लिए गिन्नी के माध्य अंतर का उपयोग करके अनुमान के लिए किस स्थिरांक का उपयोग करना चाहिए ? मुझे खुले एक्सेस स्रोतों में इस निरंतर गणना की प्रक्रिया का वर्णन करने वाले कागजात नहीं मिले ... साथ ही मुझे गिन्नी के माध्य अंतर की मजबूती के बारे में कोई जानकारी नहीं मिली, क्या आप एक विचार दे सकते हैं कि इसे कहां खोजा जाए? Q n σSnQnσ
जर्मन डेमिडोव

1
हम फैलाव के उपायों के बारे में बात कर रहे हैं ताकि मॉडल की तुलना मुद्दे पर न हो (और "गिन्नी के सूचकांक" के साथ भ्रमित न करें)। गिन्नी का माध्य अंतर एक अचूक उपाय है। अन्य उपायों की तुलना में व्याख्या करना आसान है। यह तथ्य कि आपको हर वितरण के लिए एक अलग स्थिरांक की गणना करने की आवश्यकता होगी, मुझे बताता है कि हम निरंतर का उपयोग नहीं करना चाहते हैं।
फ्रैंक हार्डेल

36

पहले से ही महान जवाब के बहुत सारे, लेकिन, एक कदम वापस लेने और थोड़ा और अधिक बुनियादी हो रहा है, मैं कहूंगा कि क्योंकि आपको जो उत्तर मिलता है वह आपके द्वारा पूछे गए प्रश्न पर निर्भर करता है। माध्य और माध्य विभिन्न प्रश्नों का उत्तर देते हैं - कभी-कभी एक उपयुक्त होता है, कभी-कभी अन्य।

यह कहना सरल है कि माध्य का उपयोग तब किया जाना चाहिए जब आउटलेयर, या तिरछी वितरण के लिए, या जो कुछ भी हो। लेकिन हमेशा ऐसा नहीं होता है। आय ले लो - लगभग हमेशा मंझला के साथ सूचना दी, और आमतौर पर यह सही है। लेकिन अगर आप एक पूरे समुदाय की खर्च करने की शक्ति को देख रहे हैं, तो यह सही नहीं हो सकता है। और कुछ मामलों में, यहां तक ​​कि मोड भी सबसे अच्छा हो सकता है (esp। यदि डेटा समूहीकृत हैं)।


8
+1 स्पष्ट बिंदु के लिए जो किसी और को पता नहीं लग रहा था: वे अलग-अलग अवधारणाएं हैं और विभिन्न सवालों के जवाब देते हैं। इसके अलावा कई उदाहरणों में पूरे वितरण को एक सारांश संख्या में संघटित करके बहुत कुछ खो दिया जाता है, इसलिए कभी-कभी वे दोनों एक घटिया काम करते हैं।
माइकल मैकगोवन

25

जब कोई मूल्य हमारे लिए कचरा है, तो हम इसे "बाह्य" कहते हैं और चाहते हैं कि विश्लेषण इसके लिए मजबूत हो (और माध्य पसंद करें); जब वही मूल्य आकर्षक होता है, तो हम इसे "चरम" कहते हैं और चाहते हैं कि विश्लेषण इसके प्रति संवेदनशील हो (और माध्य पसंद करें)। द्वंद्ववाद ...

माध्य समान रूप से मान के बदलाव पर प्रतिक्रिया करता है, जहाँ वितरण में परिवर्तन होता है। उदाहरण के लिए, 1 2 3 4 5आप किसी भी मूल्य को 2 से बढ़ा सकते हैं - माध्य की वृद्धि समान होगी। मेडियन की प्रतिक्रिया कम "सुसंगत" है: 2 को डेटा बिंदु 4 या 5 में जोड़ें, और माध्य नहीं बढ़ेगा; लेकिन 2 से बिंदु 2 को जोड़ दें - ताकि शिफ्ट मंझधार पर आ जाए और माध्य नाटकीय रूप से बदल जाए (मतलब बदल जाएगा)।

मीन हमेशा स्थित होता है। माध्यिका नहीं है; उदाहरण के लिए, 2 और 3 के बीच के 1 2 3 4 किसी भी मूल्य को माध्यिका कहा जा सकता है। इस प्रकार, मध्यस्थों पर आधारित विश्लेषण हमेशा अद्वितीय समाधान नहीं होते हैं।

मीन न्यूनतम राशि का वर्ग-विचलन है। रैखिक बीजगणित (प्रसिद्ध ओएलएस प्रतिगमन सहित) पर आधारित कई अनुकूलन कार्य इस चुकता त्रुटि को कम करते हैं और इसलिए इसका मतलब अवधारणा है। मेडियन न्यूनतम योग-निरपेक्ष विचलन का एक स्थान है। ऐसी त्रुटि को कम करने के लिए अनुकूलन तकनीक गैर-रैखिक हैं और अधिक जटिल / खराब रूप से ज्ञात हैं।


2
+1 मुझे इस बात की थोड़ी चिंता है कि पहले पैराग्राफ को गलत समझा जा सकता है क्योंकि बाहरी पहचान का पता लगाना पूरी तरह से एक व्यक्तिपरक प्रक्रिया है। मुझे नहीं लगता कि आप का मतलब यह है कि यद्यपि।
whuber

8
+1 | मुझे लगता है कि पहले वाक्य का तात्पर्य यह है कि बाहरी पहचान का आवेदन पूरी तरह से व्यक्तिपरक है और इसलिए मैं जैसा है वैसा रखने के लिए वोट देता हूं।
जॉन

2
मेरा मतलब था कि बाहरी खोज व्यक्तिपरक दार्शनिक या नैतिक जड़ों के साथ कठोर प्रक्रिया है
ttnphns

3
@ttnphns, "आउटलाइयर" के बजाय "आउटलीयर" वर्तनी जानबूझकर है, या नहीं?
mpiktas

1
अनजाने टाइपो।
ttnphns

16

इस सवाल के बहुत सारे जवाब हैं। यहाँ एक है कि आप शायद कहीं और नहीं देखेंगे इसलिए मैं इसे यहाँ शामिल कर रहा हूँ क्योंकि मेरा मानना ​​है कि यह विषय के अनुरूप है। लोग अक्सर यह मानते हैं कि क्योंकि माध्यिका को आउटलेर्स के संबंध में एक मजबूत उपाय माना जाता है कि यह सबसे ज्यादा मजबूत भी है। वास्तव में, यह तिरछा वितरण में पूर्वाग्रह के लिए भी मजबूत माना जाता है। मंझला के इन दो मजबूत गुणों को अक्सर एक साथ सिखाया जाता है। एक ध्यान दें कि अंतर्निहित तिरछे वितरण भी छोटे नमूने उत्पन्न करते हैं जो यह देखते हैं कि उनके पास आउटलेर और पारंपरिक ज्ञान है जो कि ऐसी स्थितियों में एक का उपयोग करता है।

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(बस एक प्रदर्शन है कि यह तिरछा है और मूल आकार है)

hist(rexg(1e4, 0, 1, 1))

भूखंड

अब, देखते हैं कि क्या होता है अगर हम इस वितरण से विभिन्न नमूना आकारों का नमूना लेते हैं और माध्यिका की गणना करते हैं और यह देखने के लिए कि उनके बीच अंतर क्या हैं।

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

जैसा कि उपरोक्त कथानक से देखा जा सकता है कि माध्यिका (लाल रंग में) माध्य से n के प्रति अधिक संवेदनशील है। यह कुछ पारंपरिक ज्ञान के विपरीत है जिसमें निम्न एन एस के साथ मध्यस्थों का उपयोग किया जाता है, खासकर यदि वितरण तिरछा हो सकता है। और, यह इस बात को पुष्ट करता है कि माध्य एक ज्ञात मूल्य है, जबकि माध्य अन्य गुणों के प्रति संवेदनशील है, एक यदि n है।

यह विश्लेषण मिलर, जे (1988) के समान है। मंझला प्रतिक्रिया समय के बारे में एक चेतावनी। प्रायोगिक मनोविज्ञान जर्नल: मानव धारणा और प्रदर्शन , 14 (3): 539-543।

संशोधन

तिरछे मुद्दे के बारे में सोचने पर मैंने विचार किया कि मंझला पर प्रभाव सिर्फ इसलिए हो सकता है क्योंकि छोटे नमूनों में आपको इस बात की अधिक संभावना होती है कि माध्य वितरण की पूंछ में है, जबकि माध्य लगभग हमेशा मूल्यों द्वारा भारित होगा। मोड। इसलिए, शायद अगर कोई सिर्फ आउटलेर की संभावना के साथ नमूना ले रहा था, तो शायद वही परिणाम आएंगे।

इसलिए मैंने उन स्थितियों के बारे में सोचा जहां आउटलेयर हो सकते हैं और प्रयोगकर्ता उन्हें खत्म करने का प्रयास कर सकते हैं।

यदि आउटलेर्स लगातार होता है, जैसे कि डेटा के हर एक नमूने में एक, तो मेडियन इस आउटलाइडर के प्रभाव के खिलाफ मजबूत होते हैं और मेडियन होल्ड के उपयोग के बारे में पारंपरिक कहानी।

लेकिन यह आमतौर पर नहीं है कि चीजें कैसे जाती हैं।

किसी प्रयोग के बहुत कम प्रकोष्ठों में कोई बाहरी व्यक्ति मिल सकता है और इस मामले में माध्य के बजाय माध्यिका का उपयोग करने का निर्णय ले सकता है। फिर, मंझला अधिक मजबूत है, लेकिन यह वास्तविक प्रभाव अपेक्षाकृत कम है क्योंकि बहुत कम आउटलेयर हैं। यह निश्चित रूप से एक अधिक सामान्य मामला होगा फिर ऊपर वाला लेकिन एक माध्यिका का उपयोग करने का प्रभाव शायद इतना छोटा होगा कि यह ज्यादा मायने नहीं रखेगा।

शायद अधिक सामान्यतः आउटलेयर डेटा का एक यादृच्छिक घटक हो सकता है। उदाहरण के लिए, जनसंख्या का सही माध्य और मानक विचलन लगभग 0 हो सकता है, लेकिन उस समय का एक प्रतिशत जहां हम एक बाहरी आबादी से नमूना लेते हैं, जहां माध्य 3 है। निम्नलिखित सिमुलेशन पर विचार करें, जहां ऐसी जनसंख्या का नमूना अलग-अलग होता है आकार।

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

परिणाम

माध्यिका लाल रंग में होती है और काले रंग में होती है। यह एक तिरछी वितरण के समान है।

माध्यकों के उपयोग के अपेक्षाकृत व्यावहारिक उदाहरण में बाहरी लोगों के प्रभाव से बचने के लिए एक ऐसी स्थितियों के साथ आ सकता है जहां अनुमान n से अधिक प्रभावित होता है जब माध्य का उपयोग किए जाने की तुलना में माध्यिका का उपयोग किया जाता है।


अच्छा उदाहरण है, लेकिन यह वास्तव में वितरण पर निर्भर करता है। यदि आप एक सामान्य वितरण या एक समान वितरण का उपयोग करते हैं, तो ग्राफ़ बहुत अलग होता है, जिसमें दो पंक्तियाँ समरूप होती हैं। यह घातीय वितरण है जो अंतर पैदा करता है।
निको

1
-1 यह उत्तर "पूर्वाग्रह" के साथ "संवेदनशीलता" को भ्रमित करता है।
व्हिबर

4
काफी बेहतर; मैंने चढ़ाव को हटा दिया है। लेकिन मैं नई व्याख्या से सहमत हूं: क्या आप कुछ स्रोत - एक पाठ, पेपर या वेब साइट को इंगित कर सकते हैं - जो वास्तव में दावा करता है "[मंझला] तिरछी वितरण में पूर्वाग्रह के लिए मजबूत माना जाता है" और बताते हैं इसका क्या मतलब हो सकता है? मैं इस तरह के दावे से पहले नहीं आया हूं और मुझे यकीन नहीं है कि यह वास्तव में क्या कह रहा है।
whuber

3
मनोविज्ञान अनुसंधान में प्रतिक्रिया समय (तिरछा होना ज्ञात) से निपटने के लिए यह अधिक लोक ज्ञान है। मैंने एक कागज के संदर्भ में रखा जो मनोविज्ञान में लोक ज्ञान का खंडन करता है (जो मुझे पहले संदर्भित नहीं करने के बारे में बुरा लगता है)।
जॉन

3
BTW, मिलर (1988) के बावजूद पेपर वाले लोग अभी भी प्रायिकता जोड़तोड़ के साथ अध्ययन में माध्य प्रतिक्रिया समय का उपयोग करते हैं, जहां स्थितियों के नमूने अलग-अलग संख्या में होते हैं और निचला आमतौर पर छोटा नहीं होता है।
जॉन

11
  • सभी वस्तुओं पर राशि की गणना करना आसान है, उदाहरण के लिए, यदि आप जनसंख्या की औसत आय और जनसंख्या के आकार को जानते हैं, तो आप तुरंत पूरी आबादी की कुल आय की गणना कर सकते हैं।

  • O(n)समय जटिलता में गणना करने के लिए इसका मतलब सीधा है । रैखिक समय में माध्य की गणना संभव है, लेकिन अधिक विचार की आवश्यकता है। छँटाई की आवश्यकता वाले स्पष्ट समाधान में O(n log n)समय की जटिलता बदतर ( ) है।

और मैं अनुमान लगाता हूं कि माध्य से अधिक लोकप्रिय होने का एक और कारण है:

  • माध्य को स्कूल में अधिक व्यक्तियों को पढ़ाया जाता है और यह संभवतः माध्यिका को पढ़ाने से पहले सिखाया जाता है

आपके समय की जटिलता बिंदु के लिए, यह इस बात पर निर्भर करता है कि मूल्यों को कैसे संग्रहीत किया जाता है। यदि मान पहले से ही क्रमबद्ध हैं, तो निश्चित रूप से ओ (1) सबसे खराब स्थिति समय जटिलता में माध्यिका की गणना करना संभव है।
लुइसुबल

मैं सहमत हूं - रकम की तरह गणना में इसकी प्रयोज्यता माध्य के मुख्य लाभों में से एक है। जब मैं अक्सर मंझले को पसंद करता हूं जब लक्ष्य कुछ का वर्णन करना होता है, तो हम अक्सर उस समय का उपयोग करते हैं जब यह किसी अन्य गणना के लिए एक इनपुट होता है।
जोनाथन

5

"यह ज्ञात है कि माध्यिका आउटलेर्स के लिए प्रतिरोधी है। यदि यह मामला है, तो हम पहली जगह में कब और क्यों इसका उपयोग करेंगे?"

ऐसे मामलों में जब कोई जानता है कि कोई आउटलेयर नहीं हैं, उदाहरण के लिए जब कोई डेटा-जनरेट करने की प्रक्रिया जानता है (उदाहरण के लिए गणितीय आंकड़ों में)।

एक को तुच्छ इंगित करना चाहिए, कि, ये दो मात्राएँ (माध्य और माध्य) वास्तव में एक ही चीज़ को माप नहीं रही हैं और अधिकांश उपयोगकर्ता पूर्व के लिए पूछते हैं कि उन्हें वास्तव में बाद में दिलचस्पी लेने की क्या ज़रूरत है (यह बिंदु अच्छी तरह से सचित्र है माध्य-आधारित विलकॉक्सन परीक्षण जो टी-परीक्षणों की तुलना में अधिक आसानी से व्याख्या किए जाते हैं)।

फिर, ऐसे मामले होते हैं जहां कुछ कारण या किसी अन्य कारण से, कुछ विनियमन उसके मतलब का उपयोग करता है।


2

यदि चिंता बाहरी लोगों की उपस्थिति पर है, तो आपके डेटा की जांच करने के कुछ सीधे-सीधे तरीके हैं।

लगभग, परिभाषा के आधार पर, हमारे डेटा में आ जाते हैं, जब डेटा को बनाने की प्रक्रिया में या डेटा एकत्र करने की प्रक्रिया में कुछ परिवर्तन होता है। यानी डेटा सजातीय होना बंद हो जाता है। यदि आपका डेटा सजातीय नहीं है, तो न तो माध्य और न ही माध्य अधिक समझ में आता है, क्योंकि आप दो अलग-अलग डेटा सेटों की केंद्रीय प्रवृत्ति का अनुमान लगाने की कोशिश कर रहे हैं जो एक साथ मिलाए गए हैं।

एकरूपता सुनिश्चित करने के लिए सबसे अच्छी विधि डेटा-जनरेटिंग और -क्लेक्शन प्रक्रियाओं की जांच करना है ताकि यह सुनिश्चित हो सके कि आपका सारा डेटा प्रक्रियाओं के एक सेट से आ रहा है। कुछ भी नहीं थोड़ा मस्तिष्क-शक्ति, यहाँ धड़कता है।

एक माध्यमिक जाँच के रूप में, आप कई सांख्यिकीय परीक्षणों में से एक की ओर मुड़ सकते हैं: ची-स्क्वेर्ड, डिक्सन का क्यू-टेस्ट, ग्रब का परीक्षण या नियंत्रण चार्ट / प्रक्रिया व्यवहार चार्ट (आमतौर पर एक्स-बार आर या एक्सएमआर)। मेरा अनुभव यह है कि, जब आपका डेटा ऑर्डर किया जा सकता है जैसा कि इसे इकट्ठा किया गया था, तो प्रक्रिया व्यवहार चार्ट आउटलेर परीक्षणों की तुलना में आउटलेर का पता लगाने में बेहतर हैं। चार्ट के लिए यह उपयोग कुछ विवादास्पद हो सकता है, लेकिन मेरा मानना ​​है कि यह पूरी तरह से शेवार्ट के मूल इरादे के अनुरूप है और यह एक ऐसा उपयोग है जो डोनाल्ड व्हीलर द्वारा स्पष्ट रूप से वकालत किया गया है। चाहे आप बाहरी परीक्षण या प्रक्रिया व्यवहार चार्ट का उपयोग करते हैं, याद रखें कि एक पता लगाया गया "आउटलाइर" केवल संकेत देने की क्षमता हैगैर-समरूपता जिसे आगे जांचने की आवश्यकता है। यह शायद ही कभी डेटा बिंदुओं को बाहर करने के लिए समझ में आता है यदि आपके पास कुछ स्पष्टीकरण नहीं है कि वे आउटलेयर क्यों थे।

यदि आप R का उपयोग कर रहे हैं, तो आउटलेयर पैकेज आउटलेर परीक्षण प्रदान करता है, और प्रक्रिया व्यवहार चार्ट के लिए qcc , IQCC और qAnalyst है। मेरे पास qcc पैकेज के उपयोग और आउटपुट के लिए एक व्यक्तिगत प्राथमिकता है।


2

जब आप मतलब चाहते हो सकता है?

वित्त से उदाहरण:

  • बॉन्ड रिटर्न:
    • मंझला बॉन्ड रिटर्न आम तौर पर कुछ प्रतिशत अंक होगा।
    • डिफ़ॉल्ट दर और डिफ़ॉल्ट में रिकवरी के आधार पर औसत बॉन्ड रिटर्न कम या अधिक हो सकता है। मंझला इस सब को नज़रअंदाज़ करेगा!
    • सौभाग्य ने अपने निवेशकों को समझाते हुए कहा, "मुझे पता है कि इस साल हमारा फंड 40% नीचे है क्योंकि लगभग आधे बॉन्ड बिना किसी रिकवरी के खत्म हो गए हैं, लेकिन हमारा मंझला बॉन्ड 1% लौटा है!"
  • वेंचर कैपिटल रिटर्न:
    • उलटी बात। मंझला कुलपति या परी निवेश एक हलचल है, और सभी वापसी कुछ विजेताओं से आती है! (साइड नोट / चेतावनी: उद्यम पूंजी या निजी इक्विटी रिटर्न के अनुमान अत्यधिक समस्याग्रस्त हैं ... सावधान रहें!)

एक विविध पोर्टफोलियो बनाते समय, इसमें क्या और कितना निवेश करना है, यह निर्णय लेते हुए, रिटर्न का मतलब और सहसंयोजक आपकी अनुकूलन समस्या में प्रमुखता से शामिल होने की संभावना है।


सहमत हैं, लेकिन ऐसा लगता है कि माध्य या माध्यिका इन स्थितियों में से किसी में ध्यान केंद्रित नहीं है: ऐसा नहीं है कि योग महत्वपूर्ण मात्रा हो सकते हैं। स्वाभाविक रूप से इसका तात्पर्य है कि इसका मतलब है कि मध्यस्थों की तुलना में बेहतर सारांश होगा। लेकिन यह ध्यान दिया कि माध्य बांड रिटर्न एक मूर्खतापूर्ण जवाब हो सकता है, लेकिन क्या कोई इसे प्रस्तावित करता है?
निक कॉक्स

@NickCox दो टिप्पणियाँ। (१) मंझला बंधन वापसी मूर्खतापूर्ण बात है! इन उत्तरों में महान सिद्धांत है, लेकिन मुझे लगा कि एक बहुत ही सरल उदाहरण कुछ रंग जोड़ सकता है। फ्रैंक के जवाब को उद्धृत करने के लिए, "माध्य का उपयोग किया जाता है क्योंकि यह डेटा के प्रति संवेदनशील है" और पोर्टफोलियो रिटर्न एक सरल, समझने योग्य स्थिति देता है जहां आप चाहते हैं। (२) "कुल" बनाम "माध्य" के बारे में देखभाल करने के बीच का अंतर बल्कि अस्पष्ट हो सकता है। "क्या मुझे हेज फंड में निवेश करना चाहिए?" इसका उत्तर देने के लिए, शायद मैं यह जानना चाहूंगा कि, "हेज फंड्स की औसत वापसी क्या है?"
मैथ्यू गन

1
(१) मैं सहमत हूँ, जैसा कि कहा गया है; मेरा प्रश्न केवल यह है कि इस उद्देश्य के लिए शिक्षण या शोध साहित्य में माध्यिका का गंभीरता से उल्लेख किया गया है या नहीं। (२) मुझे नहीं लगता कि मेरी बात अस्पष्ट है; यह पहला सवाल है, जो पहले आता है, वह है प्राथमिक रूप से प्राथमिक रूचि का। मैं देख रहा हूं कि "कुल 200 वर्षों के लिए जेल में बंद गिरोह" और मुझे पता है कि वे क्यों छपे हैं, लेकिन यह संक्षेप का एक अजीब तरीका है। इसके विपरीत, आपदाओं की एक श्रृंखला में 200 मारे गए, प्रत्येक में मारे गए 40 के औसत के साथ 5 आपदाओं के बजाय प्राथमिक है। (छोटा) मुद्दा चुन रहा है कि कौन सा सारांश कथन सबसे उपयुक्त है।
निक कॉक्स

@NickCox प्वाइंट लिया। मैं मानता हूं कि आप अपने स्वयं के निवेश के बारे में परवाह करते हैं। हालांकि, पोर्टफोलियो बनाते समय और विशिष्ट प्रतिभूतियों पर पोर्टफोलियो भार तय करते हुए, आप उस सुरक्षा की वापसी के गुणों की देखभाल करने जा रहे हैं। मैं सभी नगरपालिका बांड खरीदने नहीं जा रहा हूं, मैं सीधे कुल के बारे में परवाह नहीं करता हूं, लेकिन मुझे इस बात की परवाह है कि नगरपालिका बांड पर औसत रिटर्न क्या है? यदि मुझे अपने पोर्टफोलियो में कुछ जोड़ना हो तो जोखिम / रिटर्न गुण क्या हैं?
मैथ्यू गन

माना। वह यहां का इलाका है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.