मानक विचलन में निरपेक्ष मान लेने के बजाय अंतर को वर्ग क्यों करें?
हम माध्य से x के अंतर को वर्ग करते हैं क्योंकि यूक्लिडियन दूरी, स्वतंत्रता की डिग्री के वर्गमूल (आनुपातिक संख्या की संख्या, जनसंख्या माप में) के अनुपात में फैलाव का सबसे अच्छा माप है।
दूरी की गणना
बिंदु 0 से बिंदु 5 तक की दूरी क्या है?
- 5−0=5
- |0−5|=5
- 52−−√=5
ठीक है, यह तुच्छ है क्योंकि यह एक ही आयाम है।
बिंदु 0, 0 से बिंदु 3, 4 पर एक बिंदु के लिए दूरी के बारे में कैसे?
यदि हम केवल एक समय में (शहर के ब्लॉक में) 1 आयाम में जा सकते हैं तो हम बस संख्याओं को जोड़ते हैं। (यह कभी-कभी मैनहट्टन दूरी के रूप में जाना जाता है)।
लेकिन एक बार में दो आयामों में जाने का क्या? तब (पाइथागोरस प्रमेय द्वारा हम सभी हाई स्कूल में सीखे), हम प्रत्येक आयाम में दूरी को वर्ग करते हैं, वर्गों को जोड़ते हैं, और फिर मूल से बिंदु तक की दूरी का पता लगाने के लिए वर्गमूल लेते हैं।
32+42−−−−−−√=25−−√=5
0, 0, 0 से बिंदु 1, 2, 2 पर एक बिंदु से दूरी के बारे में कैसे?
यह तो सिर्फ
12+22+22−−−−−−−−−−√=9–√=3
क्योंकि पहले दो x के लिए दूरी अंतिम x के साथ कुल दूरी की गणना के लिए पैर बनाती है।
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
हम प्रत्येक आयाम की दूरी को चुकाने के नियम का विस्तार करना जारी रख सकते हैं, यह सामान्य करता है जिसे हम यूक्लिडियन दूरी कहते हैं, जैसे कि हाइपरडिनेमेटिक स्पेस में ऑर्थोगोनल माप के लिए:
distance=∑i=1nx2i−−−−−√
और इसलिए ऑर्थोगोनल वर्गों का योग चुकता दूरी है:
distance2=∑i=1nx2i
दूसरे को माप ऑर्थोगोनल (या समकोण पर) क्या बनाता है? शर्त यह है कि दोनों मापों के बीच कोई संबंध नहीं है। हम इन मापों को स्वतंत्र और व्यक्तिगत रूप से वितरित करने के लिए देखेंगे , ( iid )।
झगड़ा
अब जनसंख्या के विचरण के फार्मूले को याद करें (जिससे हम मानक विचलन प्राप्त करेंगे):
σ2=∑i=1n(xi−μ)2n
यदि हमने पहले ही मीनू को घटाकर 0 पर डेटा केंद्रित कर दिया है, तो हमारे पास है:
σ2=∑i=1n(xi)2n
distance2
मानक विचलन
फिर हमारे पास मानक विचलन है, जो केवल विचरण का वर्गमूल है:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
जो कि स्वतंत्रता की डिग्री के वर्गमूल से विभाजित की गई दूरी के बराबर है :
σ=∑i=1n(xi)2−−−−−−−√n−−√
निरपेक्ष विचलन मतलब
मीन एब्सोल्यूट डिविएशन (एमएडी), फैलाव का एक उपाय है जो मैनहट्टन दूरी का उपयोग करता है, या माध्य से अंतर के पूर्ण मूल्यों का योग है।
MAD=∑i=1n|xi−μ|n
फिर, यह मानते हुए कि डेटा केंद्रित है (मतलब घटाया गया) हमारे पास माप की संख्या से विभाजित मैनहट्टन दूरी है:
MAD=∑i=1n|xi|n
विचार-विमर्श
- 2/π−−−√ ) एक सामान्य रूप से वितरित डेटासेट के लिए मानक विचलन के आकार।
- वितरण के बावजूद, औसत विचलन मानक विचलन से कम या बराबर है। एमएडी मानक विचलन के सापेक्ष चरम मूल्यों के साथ सेट किए गए डेटा के फैलाव को समझता है।
- मतलब निरपेक्ष विचलन आउटलेर्स के लिए अधिक मजबूत है (यानी आउटलेर्स का स्टैटिस्टिक्स पर उतना प्रभाव नहीं है जितना वे मानक विचलन पर करते हैं।
- ज्यामितीय रूप से बोलना, यदि माप एक-दूसरे (आईआईडी) के लिए ऑर्थोगोनल नहीं हैं - उदाहरण के लिए, यदि वे सकारात्मक रूप से सहसंबद्ध हैं, तो इसका मतलब है कि पूर्ण विचलन मानक विचलन की तुलना में एक बेहतर वर्णनात्मक आंकड़ा होगा, जो यूक्लिडियन दूरी पर निर्भर करता है (हालांकि यह आमतौर पर ठीक माना जाता है )।
यह तालिका उपरोक्त जानकारी को और अधिक संक्षिप्त तरीके से दर्शाती है:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
टिप्पणियाँ:
क्या आपके पास "औसत निरपेक्षता का मतलब है। सामान्य रूप से वितरित डेटासेट के लिए मानक विचलन का आकार लगभग 8 गुना" है? मैं जो सिमुलेशन चला रहा हूं, वह गलत है।
मानक सामान्य वितरण से एक मिलियन नमूनों के 10 सिमुलेशन यहां दिए गए हैं:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
निष्कर्ष
हम फैलाव के एक माप की गणना करते समय चुकता अंतर पसंद करते हैं क्योंकि हम यूक्लिडियन दूरी का फायदा उठा सकते हैं, जो हमें फैलाव का एक बेहतर विघटनकारी आंकड़ा देता है। जब अधिक अपेक्षाकृत चरम मूल्य होते हैं, तो यूक्लिडियन उस हिसाब के लिए सांख्यिकीय में खाते हैं, जबकि मैनहट्टन दूरी प्रत्येक माप का वजन देती है।