एक मानक विचलन क्या है, इसकी गणना कैसे की जाती है और आंकड़ों में इसका उपयोग क्या है?
एक मानक विचलन क्या है, इसकी गणना कैसे की जाती है और आंकड़ों में इसका उपयोग क्या है?
जवाबों:
मानक विचलन एक संख्या है जो डेटा के एक सेट के "प्रसार" या "फैलाव" का प्रतिनिधित्व करता है। प्रसार के लिए अन्य उपाय हैं, जैसे सीमा और विचरण।
यहाँ डेटा के कुछ उदाहरण सेट हैं, और उनके मानक विचलन:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
उपरोक्त डेटा सेट का एक ही मतलब है।
विचलन का अर्थ है "मतलब से दूरी"।
यहाँ "मानक" का अर्थ "मानकीकृत" है, जिसका अर्थ है मानक विचलन और माध्य विचरण के विपरीत समान इकाइयों में हैं।
उदाहरण के लिए, यदि औसत ऊंचाई 2 मीटर है , तो मानक विचलन 0.3 मीटर हो सकता है , जबकि विचरण 0.09 मीटर होगा ।
यह जानना सुविधाजनक है कि डेटा बिंदुओं का कम से कम 75% हमेशा माध्य के 2 मानक विचलन (या वितरण सामान्य होने पर लगभग 95% ) के भीतर होता है।
उदाहरण के लिए, यदि माध्य 100 है, और मानक विचलन 15 है, तो कम से कम 75% मान 70 और 130 के बीच हैं।
यदि वितरण सामान्य होता है, तो 95% मान 70 और 130 के बीच होते हैं।
आम तौर पर, बुद्धि परीक्षण स्कोर सामान्य रूप से वितरित किए जाते हैं और औसतन 100 होते हैं। कोई व्यक्ति जो "बहुत उज्ज्वल है" औसत से दो मानक विचलन है, जिसका अर्थ है 130 का बुद्धि परीक्षण स्कोर।
विकिपीडिया का एक उद्धरण ।
यह दर्शाता है कि "औसत" (मतलब, या अपेक्षित / बजटीय मूल्य) से कितनी भिन्नता है। एक कम मानक विचलन इंगित करता है कि डेटा बिंदु औसत के बहुत करीब होते हैं, जबकि उच्च मानक विचलन इंगित करता है कि डेटा मूल्यों की एक बड़ी रेंज में फैला हुआ है।
एक चर का वर्णन करते समय हम आम तौर पर दो उपायों का उपयोग करके इसे संक्षेप में प्रस्तुत करते हैं: केंद्र का एक माप और प्रसार का एक उपाय। केंद्र के सामान्य उपायों में माध्य, माध्य और मोड शामिल हैं। प्रसार के सामान्य माप में विचरण और इंटरकार्टाइल रेंज शामिल हैं।
माध्य की सूचना दिए जाने पर आमतौर पर उपयोग किए जाने वाले चर (ग्रीक लोअरकेस सिग्मा द्वारा शक्ति दो तक) का उपयोग किया जाता है। विचरण चर का औसत चुकता विचलन है। प्रत्येक अवलोकन से माध्य को घटाकर विचलन की गणना की जाती है। यह चुकता है क्योंकि योग अन्यथा शून्य होगा और स्क्वैरिंग विचलन के सापेक्ष आकार को बनाए रखते हुए इस समस्या को दूर करता है। प्रसार के माप के रूप में भिन्नता का उपयोग करने के साथ समस्या यह है कि यह चुकता इकाइयों में है। उदाहरण के लिए यदि हमारी ब्याज दर को इंच में मापा जाता है, तो विचरण को स्क्वेर्ड-इंच में सूचित किया जाएगा, जो बहुत कम समझ में आता है। मानक विचलन (ग्रीक लोअरकेस सिग्मा द्वारा दर्शाया गया) विचरण का वर्ग-मूल है और मूल इकाइयों में प्रसार का माप लौटाता है।
मानक विचलन का उपयोग करते समय, किसी को बाहरी लोगों से सावधान रहना होगा क्योंकि वे मानक विचलन (और माध्य) को तिरछा करेंगे क्योंकि वे प्रसार के प्रतिरोधी उपाय नहीं हैं। एक साधारण उदाहरण इस संपत्ति का वर्णन करेगा। 13, 14, 16, 23, 26, 28, 33, 39, और 61 के मेरे भयानक क्रिकेट बैटिंग स्कोर का मतलब 28.11 है। यदि हम 61 को एक बहिर्मुखी मानते हैं और इसे हटा देते हैं, तो इसका मतलब 24 होगा।
यहाँ मैं एक आरेख का उपयोग करके इस प्रश्न का उत्तर कैसे दूंगा।
मान लें कि हम 30 बिल्लियों का वजन करते हैं और औसत वजन की गणना करते हैं। फिर हम x अक्ष पर y अक्ष और बिल्ली की पहचान पर भार के साथ एक तितर बितर भूखंड का उत्पादन करते हैं। माध्य भार को क्षैतिज रेखा के रूप में खींचा जा सकता है। हम तब ऊर्ध्वाधर रेखाओं में आकर्षित कर सकते हैं जो प्रत्येक डेटा बिंदु को माध्य रेखा से जोड़ते हैं - ये माध्य से प्रत्येक डेटा बिंदु के विचलन हैं, और हम उन्हें अवशिष्ट कहते हैं। अब, ये अवशेष उपयोगी हो सकते हैं क्योंकि वे हमें डेटा के प्रसार के बारे में कुछ बता सकते हैं: यदि कई बड़े अवशेष हैं, तो बिल्लियाँ द्रव्यमान में बहुत भिन्न होती हैं। इसके विपरीत, यदि अवशिष्ट मुख्य रूप से छोटे होते हैं, तो बिल्लियाँ औसत वजन के आसपास काफी निकट होती हैं। इसलिए अगर हम कुछ मेट्रिक ले सकते हैं जो हमें औसत बताता हैइस डेटा सेट में एक अवशिष्ट की लंबाई, यह यह दर्शाने का एक आसान तरीका होगा कि डेटा में कितना प्रसार है। मानक विचलन, प्रभावी रूप से, औसत अवशिष्ट की लंबाई है।
मैं इस पर से sd के लिए गणना देकर आगे बताऊंगा, यह समझाते हुए कि हम वर्ग और फिर वर्गमूल (मुझे वैभव की संक्षिप्त और मीठी व्याख्या क्यों पसंद है)। तब मैं बाहरी लोगों की समस्याओं का उल्लेख करता, जैसा कि ग्राहम अपने अंतिम पैराग्राफ में करते हैं।
यदि आवश्यक जानकारी माध्य के बारे में डेटा का वितरण है, तो मानक विचलन काम में आता है।
मतलब से प्रत्येक मूल्य के अंतर का योग शून्य है (जाहिर है, चूंकि मूल्य समान रूप से चारों ओर फैले हुए हैं), इसलिए हम प्रत्येक अंतर को सकारात्मक मान में परिवर्तित करने के लिए वर्ग को बदलते हैं, उन्हें जनसंख्या में योग करते हैं, और उनके पास ले जाते हैं वर्गमूल। यह मान तब नमूनों की संख्या (या, जनसंख्या का आकार) से विभाजित होता है। यह मानक विचलन देता है।
एक मानक विचलन एक वितरण के दूसरे केंद्रीय क्षण का वर्गमूल है। वितरण के अपेक्षित मूल्य से एक केंद्रीय क्षण अपेक्षित अंतर है। एक पहला केंद्रीय क्षण आमतौर पर 0 होगा, इसलिए हम दूसरे केंद्रीय क्षण को उनके अनुमानित मान से यादृच्छिक चर की चुकता दूरी के अपेक्षित मान के रूप में परिभाषित करते हैं।
इसे उस पैमाने पर रखने के लिए जो मूल टिप्पणियों के अनुरूप है, हम उस दूसरे केंद्रीय क्षण का वर्गमूल लेते हैं और इसे मानक विचलन कहते हैं।
मानक विचलन जनसंख्या की एक संपत्ति है। यह मापता है कि उस आबादी में औसत "फैलाव" कितना है। क्या सभी अवलोकनों का मतलब के आसपास क्लस्टर किया गया है, या वे व्यापक रूप से फैले हुए हैं?
किसी जनसंख्या के मानक विचलन का अनुमान लगाने के लिए, हम अक्सर उस जनसंख्या के "नमूने" के मानक विचलन की गणना करते हैं। ऐसा करने के लिए, आप उस आबादी से टिप्पणियों को लेते हैं, उन टिप्पणियों के एक माध्य की गणना करते हैं, और फिर उस "नमूना माध्य" से औसत चुकता विचलन के वर्गमूल की गणना करते हैं।
विचरण का निष्पक्ष अनुमान लगाने के लिए, आप वास्तव में नमूना माध्य से औसत चुकता विचलन की गणना नहीं करते हैं, लेकिन इसके बजाय, आप (N-1) से विभाजित करते हैं जहां N आपके नमूने में टिप्पणियों की संख्या है। ध्यान दें कि यह "नमूना मानक विचलन" मानक विचलन का एक निष्पक्ष अनुमानक नहीं है, लेकिन "नमूना मानक विचलन" का वर्ग जनसंख्या के विचरण का एक निष्पक्ष अनुमानक है।
सबसे अच्छा तरीका है जो मैंने समझा है कि मानक विचलन एक हेयर ड्रेसर के बारे में सोचना है! (आपको एक हेयर ड्रेसर से डेटा एकत्र करने और काम करने के लिए इस उदाहरण के लिए उसके बाल काटने की गति को बढ़ाने की आवश्यकता है।)
हेयर ड्रेसर को एक व्यक्ति के बाल काटने में औसतन 30 मिनट लगते हैं।
मान लीजिए कि आप गणना करते हैं (अधिकांश सॉफ्टवेयर पैकेज आपके लिए ऐसा करेंगे) और आप पाते हैं कि मानक विचलन 5 मिनट है। इसका मतलब निम्न है:
मुझे इसके बारे में कैसे पता है? आपको सामान्य वक्र को देखने की जरूरत है, जहां 68% 1 मानक विचलन के भीतर और 96% औसत के 2 मानक विचलन (इस मामले में 30 मिनट) के भीतर आता है। इसलिए आप माध्य से मानक विचलन को जोड़ते या घटाते हैं।
यदि इस मामले में स्थिरता वांछित है, तो मानक विचलन जितना छोटा होगा, उतना ही बेहतर होगा। इस मामले में, हेयर ड्रेसर किसी भी दिए गए क्लाइंट के साथ अधिकतम 40 मिनट तक खर्च करता है। एक सफल सैलून चलाने के लिए आपको तेजी से बाल काटने की जरूरत है!