मेरा अंतर्ज्ञान यह है कि मानक विचलन है: डेटा के प्रसार का एक उपाय।
आपके पास एक अच्छा बिंदु है कि क्या यह चौड़ा है, या तंग यह इस बात पर निर्भर करता है कि डेटा के वितरण के लिए हमारी अंतर्निहित धारणा क्या है।
कैविएट: जब आपके डेटा का वितरण माध्य के आसपास सममित होता है और सामान्य वितरण की तुलना में भिन्नता होती है, तो प्रसार का एक उपाय सबसे अधिक सहायक होता है। (इसका मतलब है कि यह लगभग सामान्य है।)
इस मामले में जहां डेटा लगभग सामान्य है, मानक विचलन की एक विहित व्याख्या है:
- क्षेत्र: नमूना माध्य +/- 1 मानक विचलन, डेटा का लगभग 68% होता है
- क्षेत्र: नमूना मतलब +/- 2 मानक विचलन, डेटा का लगभग 95% होता है
- क्षेत्र: नमूना माध्य +/- 3 मानक विचलन, डेटा का लगभग 99% होता है
( विकी में पहले ग्राफिक देखें )
इसका मतलब यह है कि यदि हम जानते हैं कि जनसंख्या का औसत 5 है और मानक विचलन 2.83 है और हम मानते हैं कि वितरण लगभग सामान्य है, तो मैं आपको बताऊंगा कि मैं यथोचित रूप से निश्चित हूं कि यदि हम (एक महान) कई अवलोकन करते हैं, तो केवल 5% होगा 0.4 = 5 - 2 * 2.3 से छोटा या 9.6 = 5 + 2 * 2.3 से बड़ा हो।
ध्यान दें कि हमारे विश्वास अंतराल पर मानक विचलन का प्रभाव क्या है? (अधिक प्रसार, अधिक अनिश्चितता)
इसके अलावा, सामान्य मामले में जहां डेटा लगभग सामान्य नहीं है, लेकिन फिर भी सममित है, आप जानते हैं कि इसके लिए कुछ मौजूद हैं :α
- क्षेत्र: नमूना मतलब +/- मानक विचलन, डेटा का लगभग 95% होता हैα
आप या तो उप-नमूने से सीख सकते हैं , या मान सकते हैं और यह आपको अक्सर अपने सिर में गणना करने के लिए अंगूठे का एक अच्छा नियम देता है कि भविष्य में क्या उम्मीद की जाए, या नई टिप्पणियों में से किसके रूप में माना जा सकता है बाहरी कारकों के कारण। (हालांकि चेतावनी को ध्यान में रखें!)α = 2αα = 2
मैं यह नहीं देखता कि आप इसकी व्याख्या कैसे करेंगे। क्या २. Does३ का अर्थ है कि मूल्य बहुत विस्तृत हैं या वे सभी कसकर अर्थ के आसपास गुथे हुए हैं ...
मुझे लगता है कि "व्यापक या तंग" पूछने वाले प्रत्येक प्रश्न में यह भी होना चाहिए: "किसके संबंध में?"। एक सुझाव संदर्भ के रूप में एक प्रसिद्ध वितरण का उपयोग करने के लिए हो सकता है। संदर्भ के आधार पर इस बारे में सोचना उपयोगी हो सकता है: "क्या यह एक सामान्य / पॉइज़न की तुलना में बहुत व्यापक, या तंग है?"।
संपादित करें: टिप्पणियों में एक उपयोगी संकेत के आधार पर, दूरी को मापने के रूप में मानक विचलन के बारे में एक और पहलू।
मानक विचलन की उपयोगिता का एक और अंतर्ज्ञान यह है कि यह नमूना डेटा और इसके माध्य बीच एक दूरी माप है :x 1 , ... , x एन ˉ एक्सरोंएनएक्स1, ... , एक्सएनएक्स¯
रोंएन= 1एनΣएनमैं = १( x)मैं- एक्स¯¯¯)2-------------√
तुलना के रूप में, औसत चुकता त्रुटि (MSE), आंकड़ों में सबसे लोकप्रिय त्रुटि उपायों में से एक के रूप में परिभाषित किया गया है:
MSE = 1nΣnमैं = १( यमैं^- वाईमैं)2
सवाल उठाया जा सकता है कि उपरोक्त दूरी क्यों काम करती है? क्यों चुकता दूरी, और उदाहरण के लिए पूर्ण दूरी नहीं? और हम वर्गमूल क्यों ले रहे हैं?
द्विघात दूरी, या त्रुटि होने से, फ़ंक्शंस का लाभ है कि हम दोनों को अलग कर सकते हैं और आसानी से कम कर सकते हैं। जहां तक वर्गमूल का संबंध है, यह व्याख्या की ओर जोड़ता है क्योंकि यह त्रुटि को हमारे देखे गए डेटा के पैमाने पर वापस परिवर्तित करता है।