मानक विचलन में निरपेक्ष मान लेने के बजाय अंतर को वर्ग क्यों करें?


408

मानक विचलन की परिभाषा में, हमें माध्य (E) प्राप्त करने के लिए माध्य से अंतर को वर्ग क्यों करना है और अंत में वर्गमूल को वापस लेना है ? क्या हम केवल इसके बजाय अंतर का पूर्ण मूल्य नहीं ले सकते हैं और उन लोगों के अपेक्षित मूल्य (मतलब) प्राप्त कर सकते हैं, और क्या यह डेटा के रूपांतर को भी नहीं दिखाएगा? संख्या वर्ग विधि से अलग होने जा रही है (निरपेक्ष-मूल्य विधि छोटी होगी), लेकिन यह अभी भी डेटा के प्रसार को दिखाना चाहिए। किसी को भी पता है कि हम इस वर्ग दृष्टिकोण को एक मानक के रूप में क्यों लेते हैं?

मानक विचलन की परिभाषा:

σ=E[(Xμ)2].

क्या हम इसके बजाय केवल पूर्ण मूल्य नहीं ले सकते हैं और फिर भी एक अच्छा मापक हो सकते हैं?

σ=E[|Xμ|]


25
एक तरह से, आपके द्वारा प्रस्तावित माप त्रुटि (मॉडल गुणवत्ता) विश्लेषण के मामले में व्यापक रूप से उपयोग किया जाता है - फिर इसे एमएई कहा जाता है, "माध्य त्रुटि"।

8
एक उत्तर को स्वीकार करने में मेरे लिए यह महत्वपूर्ण लगता है कि हम इस बात पर ध्यान दें कि क्या उत्तर परिपत्र है। सामान्य वितरण चुकता त्रुटि शर्तों से विचरण के इन मापों पर आधारित है, लेकिन यह (एक्सएम) ^ 2 ओवर का उपयोग करने का औचित्य नहीं है। एक्सएम |
रसेलपिएरेसी

2
क्या आपको लगता है कि मानक शब्द का अर्थ है कि यह आज मानक है? क्या यह पूछना नहीं है कि मुख्य घटक "प्रिंसिपल" क्यों हैं और माध्यमिक नहीं हैं?
रॉबिन जिरार्ड

51
अब तक की पेशकश की गई हर उत्तर परिपत्र है। वे गणितीय गणनाओं में आसानी पर ध्यान केंद्रित करते हैं (जो कि अच्छा है लेकिन किसी भी तरह से मौलिक नहीं है) या गौसियन (सामान्य) वितरण और ओएलएस के गुणों पर। लगभग 1800 गॉस ने कम से कम वर्गों और विचरण के साथ शुरू किया और सामान्य वितरण से व्युत्पन्न - वहाँ परिपत्रता है। वास्तव में एक मौलिक कारण जिसे किसी भी उत्तर में नहीं लगाया गया है, केंद्रीय सीमा प्रमेय में विचरण द्वारा निभाई गई अद्वितीय भूमिका है । द्विघात हानि को कम करने के निर्णय सिद्धांत में एक और महत्व है।
whuber

2
तालेब मानक विचलन को वापस लेने और औसत निरपेक्ष विचलन का उपयोग करने के लिए Edge.org पर मामला बनाता है ।
एलेक्स होलकोम्ब

जवाबों:


188

यदि मानक विचलन का लक्ष्य एक सममित डेटा सेट के प्रसार को संक्षेप में प्रस्तुत करना है (अर्थात सामान्य रूप से प्रत्येक डेटाम कितनी दूर है), तो हमें परिभाषित करने की एक अच्छी विधि की आवश्यकता है कि उस प्रसार को कैसे मापें।

स्क्वेरिंग के लाभों में शामिल हैं:

  • स्क्वेरिंग हमेशा एक सकारात्मक मूल्य देता है, इसलिए योग शून्य नहीं होगा।
  • स्क्वेरिंग में बड़े अंतरों पर जोर दिया गया है - एक ऐसी सुविधा जो अच्छे और बुरे दोनों के लिए निकलती है (प्रभाव आउटलेयर के बारे में सोचें)।

हालांकि स्क्वेरिंग में फैल के एक उपाय के रूप में एक समस्या है और वह यह है कि इकाइयाँ सभी वर्ग हैं, जबकि हम मूल डेटा के रूप में एक ही यूनिट में फैल को प्राथमिकता दे सकते हैं (चुकता पाउंड, चुकता डॉलर या चुकता सेब के बारे में सोचें) । इसलिए वर्गमूल हमें मूल इकाइयों में लौटने की अनुमति देता है।

मुझे लगता है कि आप कह सकते हैं कि पूर्ण अंतर डेटा के प्रसार के बराबर वजन प्रदान करता है, जबकि स्क्वेरिंग चरम सीमाओं पर जोर देता है। तकनीकी रूप से, हालांकि, जैसा कि अन्य ने बताया है, स्क्वेरिंग बीजगणित को काम करने में बहुत आसान बनाता है और ऐसे गुण प्रदान करता है जो निरपेक्ष विधि से नहीं होते हैं (उदाहरण के लिए, प्रसरण वितरण शून्य के वर्ग के अपेक्षित मान के बराबर है। वितरण का मतलब)

यह नोट करना महत्वपूर्ण है कि कोई कारण नहीं है कि आप पूर्ण अंतर नहीं ले सकते हैं यदि आपकी प्राथमिकता यह है कि आप 'स्प्रेड' को कैसे देखना चाहते हैं (जैसे कि कुछ लोग 5% वैल्यू केलिए कुछ जादुई दहलीज के रूप में कैसे देखते हैं)जब वास्तव में यह स्थिति पर निर्भर है)। वास्तव में, वास्तव में प्रसार को मापने के लिए कई प्रतिस्पर्धी तरीके हैं।p

: मेरा विचार है क्योंकि मैं यह कैसे सांख्यिकी पाइथागोरस प्रमेय से संबंधित है के बारे में सोचना चाहते वर्ग मूल्यों का उपयोग करने के लिए है ... इस भी मदद करता है मुझे याद है कि जब स्वतंत्र यादृच्छिक चर के साथ काम कर रहे, प्रसरण जोड़ने के लिए, मानक विचलन नहीं है। लेकिन यह सिर्फ मेरी व्यक्तिगत व्यक्तिपरक प्राथमिकता है जिसे मैं केवल एक स्मृति सहायता के रूप में उपयोग करता हूं, इस अनुच्छेद को अनदेखा करने के लिए स्वतंत्र महसूस करता हूं।c=a2+b2

बहुत अधिक गहराई से विश्लेषण यहाँ पढ़ा जा सकता है


72
"स्क्वरिंग हमेशा एक सकारात्मक मूल्य देता है, इसलिए योग शून्य नहीं होगा।" और इसलिए पूर्ण मूल्य है।
रॉबिन जिरार्ड

32
@robin जिरार्ड: यह सही है, इसलिए मैंने उस बिंदु से पहले "स्क्वेरिंग के लाभों में शामिल हैं"। मैं उस कथन में पूर्ण मूल्यों के बारे में कुछ भी नहीं कह रहा था। मैं आपकी बात को लेता हूं, हालांकि अगर दूसरों को लगता है कि यह स्पष्ट नहीं है तो मैं इसे हटा / फिर से विचार करूंगा।
टोनी ब्रील

15
मजबूत आँकड़ों का अधिकांश क्षेत्र बाहरी लोगों के लिए अत्यधिक संवेदनशीलता से निपटने का एक प्रयास है जो डेटा प्रसार (तकनीकी रूप से पैमाने या फैलाव) के माप के रूप में विचरण को चुनने का एक परिणाम है। en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
उत्तर में जुड़ा हुआ लेख एक ईश्वर प्रेषित है।
त्रिगटमोट

1
मुझे लगता है कि पाइथागोरस के बारे में पैराग्राफ ऑन द स्पॉट है। आप में एक वेक्टर के रूप में त्रुटि के बारे में सोच सकते के साथ आयाम, एन नमूनों की संख्या जा रहा है। प्रत्येक आयाम में आकार उस नमूने के लिए माध्य से अंतर है। [ ( एक्स 1 - μ ) , ( एक्स 2 - μ ) , ( एक्स 3 - μ ) , ] उस सदिश (पाइथागोरस) की लंबाई सममित वर्गों की जड़ है, अर्थात मानक विचलन। nn[(x1μ),(x2μ),(x3μ),...]
अर्ने ब्रससेर

138

वर्गीय अंतर में अच्छे गणितीय गुण हैं; यह लगातार अलग-अलग है (अच्छा है जब आप इसे कम करना चाहते हैं), यह गाऊसी वितरण के लिए एक पर्याप्त आंकड़ा है, और यह (एल का एक संस्करण) एल 2 मानक है जो अभिसरण और इतने पर साबित करने के लिए काम में आता है।

माध्य निरपेक्ष विचलन (आपके द्वारा सुझाया गया निरपेक्ष मान) का उपयोग फैलाव के माप के रूप में भी किया जाता है, लेकिन यह चुकता त्रुटि के रूप में "अच्छी तरह से व्यवहार" नहीं है।


2
कहा "यह लगातार अलग-अलग है (जब आप इसे कम करना चाहते हैं तो अच्छा है)" क्या आपका मतलब यह है कि निरपेक्ष मूल्य को अनुकूलित करना मुश्किल है?
रॉबिन जिरार्ड

29
@robin: जबकि पूर्ण मान फ़ंक्शन हर जगह निरंतर होता है, इसका पहला व्युत्पन्न नहीं है (x = 0 पर)। इससे विश्लेषणात्मक अनुकूलन अधिक कठिन हो जाता है।
विंस

12
हां, लेकिन आपको इसके वास्तविक विवरणकर्ता के बजाय वास्तविक संख्या का पता लगाना, चुकता त्रुटि हानि के तहत आसान है। 1 आयाम मामले पर विचार करें; आप माध्य द्वारा चुकता त्रुटि का न्यूनतम व्यक्त कर सकते हैं: O (n) संचालन और बंद रूप। आप माध्यिका द्वारा पूर्ण त्रुटि न्यूनतम के मूल्य को व्यक्त कर सकते हैं, लेकिन एक बंद-रूप समाधान नहीं है जो आपको बताता है कि औसत मूल्य क्या है; इसे खोजने के लिए एक प्रकार की आवश्यकता होती है, जो O (n log n) की तरह है। कम से कम चौकोर प्रकार के ऑपरेशन करने के लिए कम से कम चौकोर समाधान होते हैं, निरपेक्ष मूल्य समाधान के लिए आमतौर पर अधिक काम करने की आवश्यकता होती है।
रिच

5
@ रीच: विचरण और मंझला दोनों को रैखिक समय में पाया जा सकता है, और निश्चित रूप से तेजी से नहीं। मेडियन को छंटाई की आवश्यकता नहीं होती है।
नील जी


84

एक तरीका यह है कि आप सोच सकते हैं कि मानक विचलन "माध्य से दूरी" के समान है।

इसकी तुलना यूक्लिडियन स्पेस की दूरी से करें - यह आपको सही दूरी प्रदान करता है, जहां आपने जो सुझाव दिया था (जो, btw, पूर्ण विचलन है ) मैनहट्टन दूरी की गणना की तरह अधिक है ।


17
यूक्लिडियन स्पेस का अच्छा सादृश्य!
c4il

2
सिवाय इसके कि एक आयाम में और l 2 मानदंड समान हैं, क्या वे नहीं हैं? l1l2
n

5
@ n-0101: यह एक आयाम नहीं है, बल्कि आयाम है जहाँ n नमूनों की संख्या है। मानक विचलन और निरपेक्ष विचलन (छोटा) कर रहे हैं एल 2 और एल 1 क्रमशः दूरी, दो अंक के बीच ( एक्स 1 , एक्स 2 , ... , एक्स एन ) और ( μ , μ , ... , μ ) जहां μ मतलब है । nnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
श्रीवत्सआर

1
इसे माध्य से न्यूनतम दूरी के रूप में संशोधित किया जाना चाहिए। यह मूल रूप से पाइथोगोरियन समीकरण है।
जॉन

56

पूर्ण त्रुटि के बजाय मानक विचलन की गणना करने का कारण यह है कि हम त्रुटि को सामान्य रूप से वितरित करने के लिए मान रहे हैं । यह मॉडल का एक हिस्सा है।

मान लीजिए कि आप एक शासक के साथ बहुत छोटी लंबाई माप रहे हैं, तो मानक विचलन त्रुटि के लिए एक खराब मीट्रिक है क्योंकि आप जानते हैं कि आप कभी भी गलती से एक नकारात्मक लंबाई नहीं मापेंगे। एक बेहतर मीट्रिक आपके माप में गामा वितरण को फिट करने में मदद करने के लिए एक होगा:

log(E(x))E(log(x))

मानक विचलन की तरह, यह भी गैर-नकारात्मक और अलग है, लेकिन यह इस समस्या के लिए एक बेहतर त्रुटि है।


3
मुझे आपका जवाब पसंद है। एसडी हमेशा सबसे अच्छा आँकड़ा नहीं होता है।
रॉकसाइंस 3

2
जब मानक विचलन उतार-चढ़ाव के आकार के बारे में सोचने का सबसे अच्छा तरीका नहीं है तो महान प्रति-उदाहरण।
हबर

क्या आपके पास एक सकारात्मक माप प्राप्त करने के लिए मात्रा पर विपरीत संकेत नहीं होना चाहिए अवतल लॉग x के बजाय उत्तल - l o g x का उपयोग करना ? logxlogx
के रूप में

@ नहीं, यह हमेशा पहले से ही सकारात्मक है। यह शून्य है जब सभी नमूने समान हैं, और अन्यथा इसकी परिमाण भिन्नता को मापता है। x
नील जी

आप गलत कर रहे हैं। अवतल के लिए जीE(g(X))g(E(X))g
के रूप में

25

मुझे सबसे अच्छा संतुष्ट करने वाला जवाब यह है कि यह प्राकृतिक रूप से नमूने के सामान्यीकरण से लेकर एन-डायमेंशनल यूक्लिडियन स्पेस तक गिरता है। यह निश्चित रूप से बहस योग्य है कि क्या ऐसा कुछ किया जाना चाहिए, लेकिन किसी भी मामले में:

मान लें आपके माप एक्स मैं प्रत्येक में एक धुरी हैं आर एन । तब आपका डेटा x मैं उस स्थान में एक बिंदु x को परिभाषित करता है। अब आप देख सकते हैं कि डेटा सभी एक-दूसरे के समान हैं, इसलिए आप उन्हें एक ही स्थान पैरामीटर μ के साथ प्रतिनिधित्व कर सकते हैं जो एक्स i = μ द्वारा परिभाषित लाइन पर झूठ बोलने के लिए विवश है । इस लाइन पर अपना डाटापॉइंट प्रोजेक्ट करना आप हो जाता है μ = ˉ एक्स , और अनुमानित बिंदु से दूरी μ 1 वास्तविक डाटापॉइंट है nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

यह दृष्टिकोण भी आप के लिए एक ज्यामितीय व्याख्या हो जाता है ρ = क्योंकि ( ~ एक्स , ~ y )ρ^=cos(x~,y~)


7
यह सही और आकर्षक है। हालांकि, अंत में यह केवल इस सवाल का जवाब दिए बिना सवाल का जवाब देने के लिए प्रकट होता है: अर्थात्, हमें यूक्लिडियन (एल 2) दूरी का उपयोग क्यों करना चाहिए?
whuber

20
@ इस्क्यू मानक विचलन तब तक आम नहीं हो गया जब तक कि 1809 में गॉस ने आरंभिक त्रुटि के बजाय चौकोर त्रुटि का उपयोग करते हुए अपने नामांकित विचलन को एक प्रारंभिक बिंदु के रूप में प्राप्त कर लिया। हालांकि, जो उन्हें शीर्ष पर धकेल दिया (मेरा मानना ​​है) गैल्टन के प्रतिगमन सिद्धांत (जिस पर आप इशारा करते हैं) और एनोवा की क्षमता को वर्गों के विघटित करने की क्षमता है - जो कि पाइथागोरस प्रमेय के प्रतिबंध के लिए है, केवल एक रिश्ते का आनंद लिया L2 मानदंड। इस प्रकार एसडी फिशर के 1925 में "रिसर्च वर्कर्स के लिए सांख्यिकीय तरीके" की वकालत करने के लिए एक प्राकृतिक सर्वव्यापी उपाय बन गया और यहां हम 85 साल बाद हैं।
whuber

13
(+1) @ व्हिबर की नस में जारी, मैं शर्त लगा सकता हूं कि छात्र ने 1908 में एक पेपर प्रकाशित किया था, जिसका शीर्षक था, "मीन की संभावित त्रुटि - हे, दोस्तों, डेनोएनेटर में उस एमएई की जांच करें!" तब आँकड़े अब तक एक पूरी तरह से अलग चेहरा होगा। बेशक, उन्होंने उस तरह का एक पेपर प्रकाशित नहीं किया, और निश्चित रूप से वह नहीं कर सकता था, क्योंकि एमएई के पास उन सभी अच्छे गुणों का घमंड नहीं है जो एस ^ 2 है। उनमें से एक (छात्र से संबंधित) इसका मतलब (सामान्य मामले में) की स्वतंत्रता है, जो निश्चित रूप से रूढ़िवादिता का प्रतिबन्ध है, जो हमें L2 और आंतरिक उत्पाद पर वापस मिलता है।

3
यह उत्तर सोचनीय था और मुझे लगता है कि इसे देखने का मेरा पसंदीदा तरीका है। 1-डी में यह समझना मुश्किल है कि अंतर को बेहतर क्यों माना जाता है। लेकिन कई आयामों (या यहां तक ​​कि सिर्फ 2) में एक आसानी से देख सकता है कि यूक्लिडियन दूरी (स्क्वेरिंग) मैनहट्टन दूरी (मतभेदों के पूर्ण मूल्य का योग) के लिए बेहतर है।
thecity2

1
@whuber क्या आप समझा सकते हैं कि "X μ = μ द्वारा परिभाषित रेखा" का क्या अर्थ है? क्या यह मूल और बिंदु (μ, μ, ..., μ) से होकर गुजरने वाली रेखा है? इसके अलावा, मैं इस बारे में और कहां पढ़ सकता हूं?
आर्क स्टैंटन

18

माध्य से भिन्नता के दो कारण हैं।

  • विचलन को विचलन के 2 वें क्षण के रूप में परिभाषित किया गया है आरवी यहां ( x - μ ) है ) और इस प्रकार क्षण के रूप में वर्ग यादृच्छिक चर की उच्च शक्तियों की अपेक्षाएं हैं।(xμ)

  • पूर्ण मान फ़ंक्शन के विपरीत एक वर्ग होने से एक अच्छा निरंतर और अलग-अलग फ़ंक्शन होता है (निरपेक्ष मान 0 पर अलग नहीं होता है) - जो इसे प्राकृतिक विकल्प बनाता है, विशेष रूप से अनुमान और प्रतिगमन विश्लेषण के संदर्भ में।

  • स्क्वार्ड फॉर्मूलेशन भी स्वाभाविक रूप से सामान्य वितरण के मापदंडों से बाहर हो जाता है।


17

फिर भी एक और कारण (ऊपर के उत्कृष्ट लोगों के अलावा) खुद फिशर से आता है, जिसने दिखाया कि मानक विचलन पूर्ण विचलन से अधिक "कुशल" है। यहाँ, कुशल को इस बात का ध्यान रखना होगा कि एक जनसंख्या से विभिन्न नमूनों पर मूल्य में कितना उतार-चढ़ाव होगा। यदि आपकी आबादी सामान्य रूप से वितरित की जाती है, तो उस आबादी से विभिन्न नमूनों के मानक विचलन, औसतन आपको ऐसे मूल्य देने की प्रवृत्ति रखते हैं, जो एक-दूसरे के समान हैं, जबकि पूर्ण विचलन आपको संख्याएं देगा जो थोड़ा अधिक फैलता है। अब, स्पष्ट रूप से यह आदर्श परिस्थितियों में है, लेकिन इस कारण ने बहुत से लोगों को आश्वस्त किया (गणित साफ होने के साथ), इसलिए अधिकांश लोगों ने मानक विचलन के साथ काम किया।


6
आपका तर्क सामान्य रूप से वितरित किए जा रहे डेटा पर निर्भर करता है। यदि हम "डबल घातीय" वितरण के लिए जनसंख्या मानते हैं, तो पूर्ण विचलन अधिक कुशल है (वास्तव में यह पैमाने के लिए एक पर्याप्त आंकड़ा है)
संभाव्यता

7
हां, जैसा कि मैंने कहा, "यदि आपकी जनसंख्या सामान्य रूप से वितरित की जाती है।"
एरिक सुह

सामान्य वितरण मानने के अलावा फिशर प्रूफ त्रुटि मुक्त माप मानता है। 1% की तरह छोटी त्रुटियों के साथ स्थिति विचलन और औसत पूर्ण विचलन मानक विचलन की तुलना में अधिक कुशल है
juanrga

14

बस लोगों को पता है, एक ही विषय पर एक गणित अतिप्रवाह प्रश्न है।

क्यों है यह तो शांत करने के लिए वर्ग संख्या में मामले के- खोजने-मानक-विचलन

संदेश को दूर ले जाता है कि विचरण के वर्गमूल का उपयोग करने से गणित आसान हो जाता है। इसी तरह की प्रतिक्रिया रिच और रीड द्वारा दी गई है।


3
जब हम अपने सूत्रों और मूल्यों को और अधिक सही मायने में डेटा के सेट को प्रतिबिंबित करना चाहते हैं तो 'ईजीयर मैथ' एक अनिवार्य आवश्यकता नहीं है। कंप्यूटर वैसे भी पूरी मेहनत करते हैं।
दान डब्ल्यू।

3.14 के रूप में पाई को परिभाषित करना गणित को आसान बनाता है, लेकिन यह इसे सही नहीं बनाता है।
जेम्स

13

भिन्नताएं जोड़ योग्य हैं: स्वतंत्र यादृच्छिक चर , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) के लिए X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

ध्यान दें कि यह क्या संभव बनाता है: कहो कि मैं एक उचित सिक्के को 900 बार टॉस करता हूं। मुझे क्या संभावना है कि मुझे जितने सिर मिलेंगे, वह 440 से 455 के बीच के हैं? बस प्रमुखों की अपेक्षित संख्या ( ), और शीर्षों की संख्या ( 225 = 15 2 ) का पता लगाएं, फिर संभावना 450 और मानक विचलन 15 के साथ सामान्य (या गाऊसी) वितरण के साथ संभाव्यता का पता लगाएं 439.5 और 455.5 के बीच है । अब्राहम डी मोइवर ने 18 वीं शताब्दी में सिक्का उछालने के साथ ऐसा किया था, जिससे पहली बार पता चला कि घंटी के आकार का वक्र कुछ के लायक है।450225=15245015439.5455.5


क्या पूर्ण विचलन वैयाकरणों की तरह ही जोड़ नहीं हैं?
russellpierce

6
नही, वे नही हैं।
माइकल हार्डी

10

मुझे लगता है कि पूर्ण विचलन और चुकता विचलन का उपयोग करने के बीच का अंतर एक बार एक चर से आगे बढ़ने पर स्पष्ट हो जाता है और रैखिक प्रतिगमन के बारे में सोचता है। Http://en.wikipedia.org/wiki/Least_absolute_deviations पर एक अच्छी चर्चा है , विशेष रूप से अनुभाग "कम से कम कम से कम विचलन के साथ कम से कम वर्ग", जो http: // www पर ऐपलेट के एक साफ सेट के साथ कुछ छात्र अभ्यास से जोड़ता है। .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html

संक्षेप में, कम से कम पूर्ण विचलन सामान्य से कम वर्गों की तुलना में आउटलेर्स के लिए अधिक मजबूत है, लेकिन यह अस्थिर हो सकता है (यहां तक ​​कि एकल डेटम में छोटा परिवर्तन फिट लाइन में बड़ा बदलाव दे सकता है) और हमेशा एक अनूठा समाधान नहीं होता है - वहां हो सकता है सज्जित लाइनों की एक पूरी श्रृंखला। इसके अलावा कम से कम निरपेक्ष विचलन के लिए पुनरावृत्तियों के तरीकों की आवश्यकता होती है, जबकि साधारण से कम वर्गों में एक सरल बंद-रूप समाधान होता है, हालांकि यह इतना बड़ा सौदा नहीं है जितना कि गॉस और लीजेंड के दिनों में था।


"अद्वितीय समाधान" तर्क काफी कमजोर है, इसका वास्तव में मतलब है कि डेटा द्वारा समर्थित एक से अधिक मूल्य हैं। इसके अतिरिक्त, गुणांक के दंड, जैसे L2, विशिष्टता की समस्या और एक हद तक स्थिरता की समस्या को हल करेगा।
probabilityislogic

10

इसके कई कारण हैं; शायद मुख्य यह है कि यह सामान्य वितरण के पैरामीटर के रूप में अच्छी तरह से काम करता है।


4
मैं सहमत हूँ। यदि आप सामान्य वितरण मान लेते हैं तो फैलाव को मापने का सही तरीका मानक विचलन है । और बहुत सारे वितरण और वास्तविक डेटा लगभग सामान्य हैं।
यूकाज़ ल्यू जूल 20'10

2
मुझे नहीं लगता कि आपको "प्राकृतिक पैरामीटर" कहना चाहिए: सामान्य वितरण के प्राकृतिक पैरामीटर मतलब और सटीक समय हैं। ( en.wikipedia.org/wiki/Natural_parameter )
नील जी

1
@ नीलगाय अच्छी बात; मैं यहाँ "आकस्मिक" अर्थ के बारे में सोच रहा था। मैं कुछ बेहतर शब्द के बारे में सोचूंगा।

8

कई मायनों में, फैलाव को संक्षेप करने के लिए मानक विचलन का उपयोग एक निष्कर्ष पर पहुंच रहा है। आप कह सकते हैं कि एसडी का तात्पर्य है कि माध्य से नीचे की दूरी के समान दूरी के समान उपचार के कारण सममित वितरण। गैर-सांख्यिकीविदों को व्याख्या करने के लिए एसडी आश्चर्यजनक रूप से मुश्किल है। कोई यह तर्क दे सकता है कि गिन्नी के माध्य अंतर में व्यापक अनुप्रयोग है और यह अधिक व्याख्यात्मक है। यह एक केंद्रीय प्रवृत्ति के उपाय के रूप में अपनी पसंद की घोषणा करने की आवश्यकता नहीं है क्योंकि एसडी का उपयोग माध्य के लिए करता है। Gini का औसत अंतर किसी भी दो अलग-अलग टिप्पणियों के बीच औसत पूर्ण अंतर है। यदि यह वास्तव में गॉसियन था तो एसडी के रूप में यह 0.98 के रूप में कुशल होने के साथ मजबूत और आसान होने के कारण व्याख्या करने में आसान है।


2
गिन्नी पर @ फ्रैंक के सुझाव को जोड़ने के लिए, यहां एक अच्छा पेपर है: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 यह फैलाव के विभिन्न उपायों पर जाता है और एक सूचनात्मक ऐतिहासिक परिप्रेक्ष्य भी देता है।
थॉमस स्पीडेल

1
मुझे भी ये विचार पसंद हैं, लेकिन विचरण (और इस तरह एसडी) की एक कम प्रसिद्ध समानांतर परिभाषा है जो उस स्थान के मापदंडों के लिए कोई संदर्भ नहीं बनाती है। भिन्नता मानों के बीच के सभी जोड़ीदार अंतरों के आधे से अधिक माध्य वर्ग है, ठीक उसी तरह जैसे कि जिनि अंतर अंतर सभी जोड़ीदार अंतरों के पूर्ण मूल्यों पर आधारित है।
निक कॉक्स

7

एक वितरण के मानक विचलन का अनुमान लगाने के लिए एक दूरी चुनने की आवश्यकता होती है।
निम्नलिखित में से किसी भी दूरी का उपयोग किया जा सकता है:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

हम आमतौर पर प्राकृतिक यूक्लिडियन दूरी ( ) का उपयोग करते हैं, जो कि हर कोई दैनिक जीवन में उपयोग करता है। वह दूरी जो आप प्रस्तावित करते हैं वह n = 1 है । दोनों अच्छे उम्मीदवार हैं लेकिन वे अलग हैं।n=2n=1

कोई भी का उपयोग करने का निर्णय ले सकता है ।n=3

मुझे यकीन नहीं है कि आप मेरे उत्तर को पसंद करेंगे, दूसरों के विपरीत मेरी बात यह प्रदर्शित करने के लिए नहीं है कि बेहतर है। मुझे लगता है कि यदि आप किसी वितरण के मानक विचलन का अनुमान लगाना चाहते हैं, तो आप बिल्कुल अलग दूरी का उपयोग कर सकते हैं।n=2


6

यह इस बात पर निर्भर करता है कि आप "डेटा के प्रसार" के बारे में क्या बात कर रहे हैं। मेरे लिए यह दो बातें हो सकती हैं:

  1. एक नमूना वितरण की चौड़ाई
  2. किसी दिए गए अनुमान की सटीकता

बिंदु 1 के लिए) सामान्य विचलन के माप के रूप में मानक विचलन का उपयोग करने का कोई विशेष कारण नहीं है, सिवाय इसके कि जब आप एक सामान्य नमूना वितरण करते हैं। माप एक लाप्लास नमूना वितरण के मामले में एक अधिक उपयुक्त उपाय है । मेरा अनुमान है कि मानक विचलन का उपयोग यहाँ बिंदु 2 से किए गए अंतर्ज्ञान के कारण होता है)। संभवतः सामान्य रूप से कम से कम वर्ग मॉडलिंग की सफलता के कारण, जिसके लिए मानक विचलन उपयुक्त उपाय है। शायद इसलिए भी क्योंकि ( एक्स 2 ) की गणना आमतौर पर ई की गणना की तुलना में आसान है ( |E(|Xμ|)E(X2) अधिकांश वितरण के लिए।E(|X|)

अब, बिंदु 2 के लिए) एक विशेष रूप से, लेकिन एक बहुत ही सामान्य मामले में, प्रसार के माप के रूप में विचरण / मानक विचलन का उपयोग करने का एक बहुत अच्छा कारण है। आप इसे लाप्लास सन्निकटन में एक पीछे की ओर देख सकते हैं। डाटा के साथ और पूर्व जानकारी मैं , एक पैरामीटर के लिए पीछे लिखने θ के रूप में:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

मैं का इस्तेमाल किया है संकेत मिलता है कि भाजक पर निर्भर नहीं करता एक डमी चर के रूप में θ । पीछे एक भी अच्छी तरह गोल अधिकतम (यानी भी एक "सीमा" के करीब नहीं) है, तो हम टेलर इसकी अधिकतम के बारे में लॉग संभावना का विस्तार कर सकते θ अधिकतम । यदि हम टेलर विस्तार के पहले दो शब्द लेते हैं जो हमें प्राप्त होते हैं (भेदभाव के लिए प्राइम का उपयोग करके):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

लेकिन हम यहाँ चाहिए, क्योंकि उसी एक "अच्छी तरह से गोल" अधिकतम है, ' ( θ अधिकतम ) = 0 , तो हम हैं:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

यदि हम इस सन्निकटन में प्लग करते हैं तो हमें प्राप्त होता है:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

कौन सा है, लेकिन अंकन के लिए एक सामान्य वितरण, मतलब बराबर के साथ करने के लिए है , और विचरण के बराबरE(θDI)θmax

V(θDI)[h(θmax)]1

( क्योंकि हम एक अच्छी तरह से गोल अधिकतम राशि हमेशा सकारात्मक है)। तो इसका मतलब यह है "नियमित समस्याओं" (जो उनमें से ज्यादातर है) में, विचरण मौलिक मात्रा जिसके लिए अनुमानों की सटीकता को निर्धारित करता है कि θ । इसलिए बड़ी मात्रा में आंकड़ों के आधार पर अनुमान के लिए, मानक विचलन सैद्धांतिक रूप से बहुत अधिक समझ में आता है - यह आपको मूल रूप से वह सब कुछ बताता है जो आपको जानना आवश्यक है। अनिवार्य रूप से एक ही तर्क लागू होता है के साथ बहु-आयामी मामले में (एक ही स्थिति की आवश्यकता के साथ) " ( θ ) जे कश्मीर = ( θ )h(θmax)θ एक हेसियन मैट्रिक्स है। विकर्ण प्रविष्टियाँ यहाँ भी अनिवार्य रूप से भिन्न हैं।h(θ)jk=h(θ)θjθk

अधिकतम संभावना की पद्धति का उपयोग करने वाला अक्सर अनिवार्य रूप से एक ही निष्कर्ष पर आएगा क्योंकि MLE डेटा का भारित संयोजन करता है, और बड़े नमूनों के लिए सेंट्रल लिमिट थ्योरम लागू होता है और मूल रूप से हम लेने पर समान परिणाम प्राप्त करते हैं। | मैं ) = 1 लेकिन साथ θ और θ अधिकतम अदला-बदली: पी ( θ अधिकतम | θ ) एन ( θ , [ - " ( θ अधिकतम ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)
(देखें कि क्या आप अनुमान लगा सकते हैं कि मुझे कौन सा प्रतिमान पसंद है: P)। इसलिए या तो, पैरामीटर आकलन में मानक विचलन प्रसार का एक महत्वपूर्ण सैद्धांतिक उपाय है।

6

"पूर्ण मान लेने" के बजाय "अंतर को क्यों वर्ग करें"? बहुत सटीक उत्तर देने के लिए, साहित्य है जो उन कारणों को अपनाता है जो इस कारण से अपनाया गया था और उन कारणों में से अधिकांश के लिए मामला नहीं है। "क्या हम केवल पूर्ण मूल्य नहीं ले सकते ...?" मैं ऐसे साहित्य से वाकिफ हूं, जिसमें इसका जवाब है हां यह किया जा रहा है और ऐसा करने का तर्क दिया जाता है कि यह फायदेमंद है।

लेखक गोर्ड कहते हैं, पहले, वर्गों का उपयोग करके पहले गणना की सादगी के कारणों के लिए अपनाया गया था, लेकिन उन मूल कारणों में अब पकड़ नहीं है। गोरार्ड कहते हैं, दूसरे, कि ओएलएस को अपनाया गया क्योंकि फिशर ने पाया कि विश्लेषण के नमूनों में ओएलएस का उपयोग करने वालों के मुकाबले छोटे विचलन थे जो पूर्ण अंतर (लगभग कहा गया) का उपयोग करते थे। इस प्रकार, ऐसा लगता है कि कुछ आदर्श परिस्थितियों में ओएलएस के लाभ हो सकते हैं; हालाँकि, गोर्ड ने ध्यान दिया कि कुछ आम सहमति है (और वह फिशर का दावा सहमत है) कि वास्तविक दुनिया की परिस्थितियों में (टिप्पणियों का अपूर्ण माप, गैर-समान वितरण, एक नमूना से बिना किसी जनसंख्या के अध्ययन), वर्गों का उपयोग करना बदतर है। पूर्ण अंतर।

आपके प्रश्न के लिए गोर्ड की प्रतिक्रिया "क्या हम केवल इसके बजाय अंतर का पूर्ण मूल्य नहीं ले सकते हैं और उन लोगों का अपेक्षित मूल्य (मतलब) प्राप्त कर सकते हैं?" हां है। एक और लाभ यह है कि मतभेदों का उपयोग करने से उपायों (त्रुटियों और भिन्नता के उपाय) का उत्पादन होता है जो उन तरीकों से संबंधित हैं जो हम जीवन में उन विचारों का अनुभव करते हैं। गोर्ड कहते हैं कि ऐसे लोगों की कल्पना करें, जो रेस्तरां के बिल को समान रूप से विभाजित करते हैं और कुछ लोग सहज रूप से यह नोटिस कर सकते हैं कि यह तरीका अनुचित है। कोई भी त्रुटियों को चौकोर नहीं करेगा; अंतर बिंदु हैं।

अंत में, पूर्ण अंतरों का उपयोग करते हुए, वह नोट करता है, प्रत्येक अवलोकन को समान रूप से मानता है, जबकि इसके विपरीत मतभेदों को देखते हुए टिप्पणियों को अच्छी तरह से भविष्यवाणी की गई टिप्पणियों की तुलना में खराब रूप से अधिक वजन का अनुमान लगाया गया है, जो कि कुछ टिप्पणियों को कई बार अध्ययन में शामिल करने की अनुमति देता है। संक्षेप में, उनका सामान्य जोर यह है कि वर्गों का उपयोग करने के लिए आज कई जीतने वाले कारण नहीं हैं और इसके विपरीत पूर्ण अंतर का उपयोग करने के फायदे हैं।

संदर्भ:


1
धन्यवाद @Jen, यह मुझे QWERTY कीबोर्ड इतिहास की याद दिलाता है। अरे, QWERTY टाइप करने में इतना समय कैसे लगता है?
toto_tico

5

क्योंकि वर्ग निरपेक्ष मूल्यों की तुलना में अधिक आसानी से कई अन्य गणितीय कार्यों या कार्यों के उपयोग की अनुमति दे सकते हैं।

उदाहरण: वर्गों को एकीकृत किया जा सकता है, विभेदित किया जा सकता है, आसानी से त्रिकोणमितीय, लघुगणक और अन्य कार्यों में उपयोग किया जा सकता है।


2
मुझे आश्चर्य है कि अगर यहाँ एक आत्मनिर्भरता है। हम मिल
probabilityislogic

5

यादृच्छिक चर जोड़ते समय, उनके वितरण सभी वितरणों के लिए जोड़ते हैं। भिन्न (और इसलिए मानक विचलन) लगभग सभी वितरणों के लिए एक उपयोगी उपाय है, और यह किसी भी तरह से गौसी (उर्फ "सामान्य") वितरण तक सीमित नहीं है। यह हमारी त्रुटि माप के रूप में उपयोग करने के पक्ष में है। पूर्ण अंतर के साथ विशिष्टता की कमी एक गंभीर समस्या है, क्योंकि अक्सर समान माप "फिट" की एक अनंत संख्या होती है, और फिर भी स्पष्ट रूप से "बीच में एक" सबसे वास्तविक रूप से इष्ट है। साथ ही, आज के कंप्यूटरों के साथ भी, कम्प्यूटेशनल दक्षता मायने रखती है। मैं बड़े डेटा सेट के साथ काम करता हूं, और सीपीयू समय महत्वपूर्ण है। हालांकि, अवशेषों का कोई भी पूर्ण "सर्वोत्तम" उपाय नहीं है, जैसा कि पिछले कुछ उत्तरों द्वारा बताया गया है। अलग-अलग परिस्थितियां कभी-कभी अलग-अलग उपायों को बुलाती हैं।


2
मैं इस बात पर अडिग हूं कि असममित वितरण के लिए संस्करण बहुत उपयोगी हैं।
फ्रैंक हरेल

"अर्ध-संस्करण" की एक जोड़ी के बारे में क्या, एक ऊपर की ओर, एक नीचे की ओर?
kjetil b halvorsen

3

स्वाभाविक रूप से आप वितरण के फैलाव का वर्णन किसी भी तरह से सार्थक (पूर्ण विचलन, मात्रात्मक, आदि) कर सकते हैं।

एक अच्छा तथ्य यह है कि विचरण दूसरा केंद्रीय क्षण है, और प्रत्येक वितरण विशिष्ट रूप से इसके क्षणों द्वारा वर्णित है यदि वे मौजूद हैं। एक और अच्छा तथ्य यह है कि विचरण किसी भी तुलनात्मक मीट्रिक की तुलना में गणितीय रूप से अधिक सुव्यवस्थित है। एक और तथ्य यह है कि विचरण सामान्य पैरामीरिजेशन के लिए सामान्य वितरण के दो मापदंडों में से एक है, और सामान्य वितरण में केवल 2 गैर-शून्य केंद्रीय क्षण होते हैं जो कि दो बहुत ही पैरामीटर हैं। गैर-सामान्य वितरण के लिए भी यह एक सामान्य ढांचे में सोचने के लिए सहायक हो सकता है।

जैसा कि मैं इसे देखता हूं, मानक विचलन मौजूद है, जैसे कि यह है कि अनुप्रयोगों में विचरण के वर्गमूल नियमित रूप से प्रकट होते हैं (जैसे कि एक यादृच्छिक रूपांतर को मानकीकृत करना), जिसके लिए इसके लिए एक नाम की आवश्यकता होती है।


1
यदि मैं सही तरीके से याद करता हूं, तो लॉग-नॉर्मल डिस्ट्रीब्यूशन विशिष्ट रूप से उसके क्षणों द्वारा परिभाषित नहीं है।
probabilityislogic

1
@probabilityislogic, वास्तव में, यह सच है, देखें en.wikipedia.org/wiki/Log-normal_distribution अनुभाग में "विशेषता समारोह और क्षण उत्पन्न करने वाला कार्य"।
kjetil b halvorsen

1

एक अलग और शायद अधिक सहज दृष्टिकोण है जब आप रैखिक प्रतिगमन बनाम औसतन प्रतिगमन के बारे में सोचते हैं।

E(y|x)=xββ=argminbE(yxb)2

(y|x)=xββ=argminbE|yxb|

दूसरे शब्दों में, निरपेक्ष या चुकता त्रुटि का उपयोग करना है या नहीं यह इस बात पर निर्भर करता है कि आप अपेक्षित मूल्य या औसत मूल्य को मॉडल करना चाहते हैं या नहीं।

yxy

Koenker और Hallock में क्वांटाइल रिग्रेशन पर एक अच्छा टुकड़ा है, जहाँ माध्य प्रतिगमन एक विशेष मामला है: http://master272.com/finance/QR/QRJEP.pdf


0

मेरा अनुमान यह है: अधिकांश आबादी (वितरण) माध्य के चारों ओर एकत्रित होती है। जितना अधिक मूल्य माध्य से है, उतना ही दुर्लभ है। पर्याप्त रूप से व्यक्त करने के लिए कि कैसे "लाइन से बाहर" एक मूल्य है, यह मतलब से इसकी दूरी और इसकी (आम तौर पर बोलने) दुर्लभता की घटना दोनों को ध्यान में रखना आवश्यक है। माध्य से अंतर को चुकाना छोटे मूल्यों के विचलन की तुलना में ऐसा करता है। एक बार जब सभी संस्करण औसत हो जाते हैं, तो वर्गमूल लेने के लिए ठीक है, जो इकाइयों को उनके मूल आयामों पर लौटाता है।


2
यह इस बात की व्याख्या नहीं करता है कि आप केवल अंतर का पूर्ण मूल्य क्यों नहीं ले सकते हैं । ऐसा लगता है कि ज्यादातर आँकड़े 101 छात्रों को वैचारिक रूप से सरल लगते हैं, और यह "औसत से इसकी दूरी और इसकी (सामान्य रूप से बोलने की) दुर्लभता दोनों को ध्यान में रखेगा"।
गुंग

मुझे लगता है कि अंतर का पूर्ण मूल्य केवल माध्य से अंतर को व्यक्त करेगा और इस तथ्य को ध्यान में नहीं रखेगा कि बड़े अंतर सामान्य वितरण के लिए दोगुना विघटनकारी हैं।
सैमुअल बेरी

2
क्यों "दोगुना विघटनकारी" महत्वपूर्ण है और नहीं, कहते हैं, "त्रैमासिक विघटनकारी" या "चौथा विघटनकारी"? ऐसा लगता है कि यह उत्तर मूल प्रश्न को एक समान प्रश्न के साथ बदल देता है।
whuber

0

स्क्वरिंग बड़े विचलन को बढ़ाता है।

यदि आपके नमूने में ऐसे मान हैं जो सभी चार्ट में हैं तो पहले मानक विचलन के भीतर 68.2% लाने के लिए आपके मानक विचलन को थोड़ा व्यापक होना चाहिए। यदि आपका डेटा मीन के आसपास गिरता है तो to तंग हो सकता है।

कुछ का कहना है कि यह गणना को सरल बनाना है। वर्ग के धनात्मक वर्गमूल के प्रयोग से हल हो जाता है जिससे कि तर्क तैरता नहीं है।

|x|=x2

इसलिए यदि बीजगणितीय सादगी लक्ष्य होता तो यह इस तरह दिखता था:

σ=E[(xμ)2]E[|xμ|]

जाहिर है कि इस वर्ग में भी आउटगोइंग त्रुटियों (दोह!) को बढ़ाने का प्रभाव है।


Lp

पहला पैराग्राफ मेरे पतन का कारण था।
एलेक्सिस

3
@Preston Thayne: चूंकि मानक विचलन है नहीं की उम्मीद मूल्य sqrt((x-mu)^2), अपने सूत्र भ्रामक है। इसके अलावा, सिर्फ इसलिए कि स्क्वरिंग में बड़े विचलन को बढ़ाने का प्रभाव होता है, इसका मतलब यह नहीं है कि यह एमएडी से अधिक भिन्नता को प्राथमिकता देने का कारण है । कुछ भी है, तो उस के बाद से अक्सर हम एक तटस्थ संपत्ति है चाहता हूँ कुछ और मजबूत की तरह MAD । अंत में, यह तथ्य कि MAD की तुलना में विचरण अधिक गणितीय रूप से सुगम्य है, गणितीय रूप से एक अधिक गहरा मुद्दा है, तब आपने इस पोस्ट में अवगत कराया है।
स्टीव एस

0

मानक विचलन में निरपेक्ष मान लेने के बजाय अंतर को वर्ग क्यों करें?

हम माध्य से x के अंतर को वर्ग करते हैं क्योंकि यूक्लिडियन दूरी, स्वतंत्रता की डिग्री के वर्गमूल (आनुपातिक संख्या की संख्या, जनसंख्या माप में) के अनुपात में फैलाव का सबसे अच्छा माप है।

दूरी की गणना

बिंदु 0 से बिंदु 5 तक की दूरी क्या है?

  • 50=5
  • |05|=5
  • 52=5

ठीक है, यह तुच्छ है क्योंकि यह एक ही आयाम है।

बिंदु 0, 0 से बिंदु 3, 4 पर एक बिंदु के लिए दूरी के बारे में कैसे?

यदि हम केवल एक समय में (शहर के ब्लॉक में) 1 आयाम में जा सकते हैं तो हम बस संख्याओं को जोड़ते हैं। (यह कभी-कभी मैनहट्टन दूरी के रूप में जाना जाता है)।

लेकिन एक बार में दो आयामों में जाने का क्या? तब (पाइथागोरस प्रमेय द्वारा हम सभी हाई स्कूल में सीखे), हम प्रत्येक आयाम में दूरी को वर्ग करते हैं, वर्गों को जोड़ते हैं, और फिर मूल से बिंदु तक की दूरी का पता लगाने के लिए वर्गमूल लेते हैं।

32+42=25=5

0, 0, 0 से बिंदु 1, 2, 2 पर एक बिंदु से दूरी के बारे में कैसे?

यह तो सिर्फ

12+22+22=9=3

क्योंकि पहले दो x के लिए दूरी अंतिम x के साथ कुल दूरी की गणना के लिए पैर बनाती है।

x12+x222+x32=x12+x22+x32

हम प्रत्येक आयाम की दूरी को चुकाने के नियम का विस्तार करना जारी रख सकते हैं, यह सामान्य करता है जिसे हम यूक्लिडियन दूरी कहते हैं, जैसे कि हाइपरडिनेमेटिक स्पेस में ऑर्थोगोनल माप के लिए:

distance=i=1nxi2

और इसलिए ऑर्थोगोनल वर्गों का योग चुकता दूरी है:

distance2=i=1nxi2

दूसरे को माप ऑर्थोगोनल (या समकोण पर) क्या बनाता है? शर्त यह है कि दोनों मापों के बीच कोई संबंध नहीं है। हम इन मापों को स्वतंत्र और व्यक्तिगत रूप से वितरित करने के लिए देखेंगे , ( iid )।

झगड़ा

अब जनसंख्या के विचरण के फार्मूले को याद करें (जिससे हम मानक विचलन प्राप्त करेंगे):

σ2=i=1n(xiμ)2n

यदि हमने पहले ही मीनू को घटाकर 0 पर डेटा केंद्रित कर दिया है, तो हमारे पास है:

σ2=i=1n(xi)2n

distance2

मानक विचलन

फिर हमारे पास मानक विचलन है, जो केवल विचरण का वर्गमूल है:

σ=i=1n(xiμ)2n

जो कि स्वतंत्रता की डिग्री के वर्गमूल से विभाजित की गई दूरी के बराबर है :

σ=i=1n(xi)2n

निरपेक्ष विचलन मतलब

मीन एब्सोल्यूट डिविएशन (एमएडी), फैलाव का एक उपाय है जो मैनहट्टन दूरी का उपयोग करता है, या माध्य से अंतर के पूर्ण मूल्यों का योग है।

MAD=i=1n|xiμ|n

फिर, यह मानते हुए कि डेटा केंद्रित है (मतलब घटाया गया) हमारे पास माप की संख्या से विभाजित मैनहट्टन दूरी है:

MAD=i=1n|xi|n

विचार-विमर्श

  • 2/π ) एक सामान्य रूप से वितरित डेटासेट के लिए मानक विचलन के आकार।
  • वितरण के बावजूद, औसत विचलन मानक विचलन से कम या बराबर है। एमएडी मानक विचलन के सापेक्ष चरम मूल्यों के साथ सेट किए गए डेटा के फैलाव को समझता है।
  • मतलब निरपेक्ष विचलन आउटलेर्स के लिए अधिक मजबूत है (यानी आउटलेर्स का स्टैटिस्टिक्स पर उतना प्रभाव नहीं है जितना वे मानक विचलन पर करते हैं।
  • ज्यामितीय रूप से बोलना, यदि माप एक-दूसरे (आईआईडी) के लिए ऑर्थोगोनल नहीं हैं - उदाहरण के लिए, यदि वे सकारात्मक रूप से सहसंबद्ध हैं, तो इसका मतलब है कि पूर्ण विचलन मानक विचलन की तुलना में एक बेहतर वर्णनात्मक आंकड़ा होगा, जो यूक्लिडियन दूरी पर निर्भर करता है (हालांकि यह आमतौर पर ठीक माना जाता है )।

यह तालिका उपरोक्त जानकारी को और अधिक संक्षिप्त तरीके से दर्शाती है:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

टिप्पणियाँ:

क्या आपके पास "औसत निरपेक्षता का मतलब है। सामान्य रूप से वितरित डेटासेट के लिए मानक विचलन का आकार लगभग 8 गुना" है? मैं जो सिमुलेशन चला रहा हूं, वह गलत है।

मानक सामान्य वितरण से एक मिलियन नमूनों के 10 सिमुलेशन यहां दिए गए हैं:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

निष्कर्ष

हम फैलाव के एक माप की गणना करते समय चुकता अंतर पसंद करते हैं क्योंकि हम यूक्लिडियन दूरी का फायदा उठा सकते हैं, जो हमें फैलाव का एक बेहतर विघटनकारी आंकड़ा देता है। जब अधिक अपेक्षाकृत चरम मूल्य होते हैं, तो यूक्लिडियन उस हिसाब के लिए सांख्यिकीय में खाते हैं, जबकि मैनहट्टन दूरी प्रत्येक माप का वजन देती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.