वेरियन की गणना के लिए माध्यिका का उपयोग करना


10

मेरे पास 1-डी यादृच्छिक चर है जो बेहद तिरछा है। इस वितरण को सामान्य करने के लिए, मैं माध्य के बजाय माध्यिका का उपयोग करना चाहता हूं। मेरा सवाल यह है: क्या मैं माध्य के बजाय सूत्र में माध्यिका का उपयोग करके वितरण के विचरण की गणना कर सकता हूं?

यानी मैं बदल सकता हूं

वीआर(एक्स)=Σ[(एक्समैं-n(एक्स))2]/n

साथ में

वीआर(एक्स)=Σ[(एक्समैं-मैंn(एक्स))2]/n

इसके पीछे मेरा तर्क यह है कि चूंकि विचरण एक वितरण की केंद्रीय प्रवृत्ति को फैलाने का एक उपाय है, इसलिए यह कोई समस्या नहीं होनी चाहिए, लेकिन मैं इस तर्क को मान्य करना चाहता हूं।



1
माध्य अपने चर को केन्द्रित करके और फिर MAD (माध्य निरपेक्ष विचलन) द्वारा विभाजित करके, आप एक माध्य मानकीकृत वितरण बना सकते हैं।
माइक हंटर

5
तुम यह केर सकते हो! लेकिन मुझे लगता है कि इसे अत्यधिक गैर-मानक कहना और यह सुझाव देना उचित है कि आपको इसे वापस करने के लिए सिद्धांत और / या सिमुलेशन की आवश्यकता है, न कि आपके अंतर्ज्ञान की। मुझे संदेह है कि यह मानक अनुमानक की तुलना में कम प्रतिरोधी होगा । उदाहरण के लिए, एक सामान्य दाएँ-तिरछे मामले में, माध्य माध्य से कम होगा, इसलिए सबसे बड़ा वर्ग विचलन (मध्यिका से) इसलिए और भी बड़ा होगा! प्रमुख बिंदु यह है कि यदि विचरण बहुत ही अविश्वसनीय है, तो आपको विचरण के विभिन्न संस्करणों की अपेक्षा, प्रसार को अलग तरीके से मापने के बारे में सोचने की आवश्यकता हो सकती है।
निक कॉक्स

1
ऑर्थोगोनल बिंदु: किसी तरह "मतलब" को सामान्य करता है, जैसे (मान -स्थान) / पैमाना, या इसका मतलब सामान्य (गौसियन) के करीब है?
निक कॉक्स

1
यह दृष्टिकोण स्वाभाविक रूप से असंगत है, क्योंकि मध्यिका द्वारा माध्य को प्रतिस्थापित करके बताई गई समस्याओं को प्रसार के एक मजबूत अनुमानक के बजाय विचरण का उपयोग करके बढ़ाया जाता है।
whuber

जवाबों:


9

माध्य चुकता त्रुटि (या L2 मानदंड, यहां देखें या यहां देखें ) को कम करता है, इसलिए माध्य से दूरी को मापने के लिए विचरण के लिए प्राकृतिक विकल्प चुकता त्रुटि का उपयोग करना है ( यहां देखें कि हम इसे वर्ग क्यों बनाते हैं )। दूसरी ओर, माध्य पूर्ण त्रुटि (L1 मानदंड) को कम कर देता है, अर्थात यह एक मान है जो आपके डेटा के "मध्य" में है, इसलिए माध्यिका से पूर्ण दूरी (तथाकथित मेडियन निरपेक्ष विचलन या एमएडी) के रूप में प्रतीत होती है। माध्यिका के चारों ओर परिवर्तनशीलता की डिग्री का बेहतर माप। आप इस धागे में इस संबंध के बारे में अधिक पढ़ सकते हैं ।

इसे छोटा कहने पर, प्रसरण MAD से भिन्न होता है कि वे आपके डेटा के केंद्रीय बिंदु को कैसे परिभाषित करते हैं और यह उस तरीके को प्रभावित करता है कि कैसे हम इसके आसपास के डेटा पॉइंट्स की भिन्नता को मापते हैं। मान बढ़ने से केंद्रीय बिंदु (माध्य) पर आउटलेयर का अधिक प्रभाव पड़ता है, जबकि मध्यिका के मामले में, सभी बिंदुओं पर समान प्रभाव पड़ता है, इसलिए पूर्ण दूरी अधिक उपयुक्त लगती है।

यह सरल सिमुलेशन द्वारा भी दिखाया जा सकता है। यदि आप माध्य और माध्यिका से वर्गों की दूरी की तुलना करते हैं, तो कुल चुकता दूरी माध्य की तुलना में लगभग हमेशा छोटी होती है। दूसरी ओर, कुल निरपेक्ष दूरी औसत दर्जे से छोटी है, फिर माध्य से। सिमुलेशन के संचालन के लिए आर कोड नीचे पोस्ट किया गया है।

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

इस तरह के "विचरण" का अनुमान लगाने के बजाय माध्यिका का उपयोग करने के मामले में, यह उच्च अनुमानों की ओर ले जाएगा, इसका उपयोग करने के बजाय पारंपरिक रूप से किया जाता है।

वैसे, एल 1 और एल 2 मानदंडों के संबंधों को बायेसियन संदर्भ में भी माना जा सकता है, जैसे कि इस धागे में

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.