एक मानक विचलन क्या है?


31

एक मानक विचलन क्या है, इसकी गणना कैसे की जाती है और आंकड़ों में इसका उपयोग क्या है?


7
मुझे नहीं लगता कि इस साइट का उद्देश्य 6 वें ग्रेडर के सवालों का जवाब देना है। और मेरा बच्चा, जब इस तरह के प्रश्न का सामना करना पड़ता है, तो उत्तर के लिए Google होगा। यदि परिभाषा का कोई विशिष्ट हिस्सा है जिसे आप नहीं समझते हैं, तो पूछें। लेकिन इस तरह के एक मूल विषय पर इस तरह के एक अस्पष्ट सवाल इंगित करता है (वैसे भी मेरे लिए) कि पोस्टर ने भी जवाब खोजने की कोशिश नहीं की। आगे क्या होने जा रहा है "एक संख्या क्या है और उनका उपयोग कैसे किया जाता है?"
पीटरआर

9
मुझे लगता है कि यह सवाल ठीक है। वास्तव में, यह क्षेत्र 51 पर विषय के सवाल पर सबसे उत्कीर्ण उदाहरण था। मूल बातें यहाँ ठीक हैं!
पीटर स्मिट

6
सहमत, यह एक वैध सवाल है। यह भी अच्छी तरह से कहा जाता है क्योंकि यह उदाहरण के उपयोग और गणना के लिए पूछता है। निश्चित रूप से साइट का उद्देश्य सभी सवालों के सांख्यिकीय के लिए एक भंडार बनाना है।
जोएल

5
मैं जोएल से सहमत हूं। सांख्यिकी में मानक विचलन एक महत्वपूर्ण अवधारणा है। यदि आप सांख्यिकीय प्रश्न पूछने के बारे में किसी साइट पर इसके बारे में कोई सवाल नहीं पूछ सकते हैं तो क्या यह बेतुका नहीं होगा।
परबरी

4
पूर्व जीवन में एक हाई स्कूल शिक्षक के रूप में, मैं कहूंगा कि मूर्खतापूर्ण प्रश्न नहीं हैं। जिस क्षण आप किसी प्रश्न को अयोग्य मानते हैं, उस क्षण आप सीखने का सबसे शक्तिशाली तरीका निकाल लेते हैं, अर्थात प्रश्न पूछ रहे होते हैं! (मैं नीचे इस सवाल का जवाब देने जा रहा हूं।)
प्रवेश जोश

जवाबों:


30

मानक विचलन एक संख्या है जो डेटा के एक सेट के "प्रसार" या "फैलाव" का प्रतिनिधित्व करता है। प्रसार के लिए अन्य उपाय हैं, जैसे सीमा और विचरण।

यहाँ डेटा के कुछ उदाहरण सेट हैं, और उनके मानक विचलन:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

उपरोक्त डेटा सेट का एक ही मतलब है।

विचलन का अर्थ है "मतलब से दूरी"।

यहाँ "मानक" का अर्थ "मानकीकृत" है, जिसका अर्थ है मानक विचलन और माध्य विचरण के विपरीत समान इकाइयों में हैं।

उदाहरण के लिए, यदि औसत ऊंचाई 2 मीटर है , तो मानक विचलन 0.3 मीटर हो सकता है , जबकि विचरण 0.09 मीटर होगा ।

यह जानना सुविधाजनक है कि डेटा बिंदुओं का कम से कम 75% हमेशा माध्य के 2 मानक विचलन (या वितरण सामान्य होने पर लगभग 95% ) के भीतर होता है।

उदाहरण के लिए, यदि माध्य 100 है, और मानक विचलन 15 है, तो कम से कम 75% मान 70 और 130 के बीच हैं।

यदि वितरण सामान्य होता है, तो 95% मान 70 और 130 के बीच होते हैं।

आम तौर पर, बुद्धि परीक्षण स्कोर सामान्य रूप से वितरित किए जाते हैं और औसतन 100 होते हैं। कोई व्यक्ति जो "बहुत उज्ज्वल है" औसत से दो मानक विचलन है, जिसका अर्थ है 130 का बुद्धि परीक्षण स्कोर।


नील, आपके उत्तर के लिए धन्यवाद, क्या आप कृपया "मानक विचलन" शब्द में भाग "मानक" के बारे में अधिक विवरण में बता सकते हैं। यदि यह उचित है, तो आप "अर्थ की मानक त्रुटि" शब्द में समान "मानक" पर स्पर्श कर सकते हैं। पहले ही, आपका बहुत धन्यवाद।
स्टेन

अपने हाल के संपादन को पुन: देखें: एसडी "मानकीकृत" किस अर्थ में है? आमतौर पर, यह मानकीकरण का आधार बन जाता है , लेकिन खुद को मानकीकृत नहीं किया जाता है (जैसे कि इसके नमूने भिन्नता के कुछ अनुमान द्वारा इसे फिर से व्यवस्थित करना)।
whuber

इसका मतलब के रूप में एक ही इकाई में होने के लिए मानकीकृत किया गया है
नील मैकग्विन

2 मीटर की औसत ऊंचाई के साथ उदाहरण दशमलव के उपयोग की देखभाल करने की आवश्यकता का एक अच्छा उदाहरण है। एक ही उदाहरण सेंटीमीटर में किया जा सकता है जहां 30 सेंटीमीटर का मानक विचलन तार्किक रूप से 900 सेंटीमीटर के विचरण से निकलेगा।
रॉबर्ट जोन्स

मेरी धारणा है कि माप की प्राथमिक इकाइयों में इनसे बचा जाना चाहिए। 0.133 के एक एसडी के परिणामों पर विचार करें जो मीटर में डेसीमीटर, सेंटीमीटर और मिलीमीटर में बदल जाता है। किसी को भी ध्यान देना होगा, कृपया?
रॉबर्ट जोन्स

9

विकिपीडिया का एक उद्धरण ।

यह दर्शाता है कि "औसत" (मतलब, या अपेक्षित / बजटीय मूल्य) से कितनी भिन्नता है। एक कम मानक विचलन इंगित करता है कि डेटा बिंदु औसत के बहुत करीब होते हैं, जबकि उच्च मानक विचलन इंगित करता है कि डेटा मूल्यों की एक बड़ी रेंज में फैला हुआ है।


5

एक चर का वर्णन करते समय हम आम तौर पर दो उपायों का उपयोग करके इसे संक्षेप में प्रस्तुत करते हैं: केंद्र का एक माप और प्रसार का एक उपाय। केंद्र के सामान्य उपायों में माध्य, माध्य और मोड शामिल हैं। प्रसार के सामान्य माप में विचरण और इंटरकार्टाइल रेंज शामिल हैं।

माध्य की सूचना दिए जाने पर आमतौर पर उपयोग किए जाने वाले चर (ग्रीक लोअरकेस सिग्मा द्वारा शक्ति दो तक) का उपयोग किया जाता है। विचरण चर का औसत चुकता विचलन है। प्रत्येक अवलोकन से माध्य को घटाकर विचलन की गणना की जाती है। यह चुकता है क्योंकि योग अन्यथा शून्य होगा और स्क्वैरिंग विचलन के सापेक्ष आकार को बनाए रखते हुए इस समस्या को दूर करता है। प्रसार के माप के रूप में भिन्नता का उपयोग करने के साथ समस्या यह है कि यह चुकता इकाइयों में है। उदाहरण के लिए यदि हमारी ब्याज दर को इंच में मापा जाता है, तो विचरण को स्क्वेर्ड-इंच में सूचित किया जाएगा, जो बहुत कम समझ में आता है। मानक विचलन (ग्रीक लोअरकेस सिग्मा द्वारा दर्शाया गया) विचरण का वर्ग-मूल है और मूल इकाइयों में प्रसार का माप लौटाता है।

मानक विचलन का उपयोग करते समय, किसी को बाहरी लोगों से सावधान रहना होगा क्योंकि वे मानक विचलन (और माध्य) को तिरछा करेंगे क्योंकि वे प्रसार के प्रतिरोधी उपाय नहीं हैं। एक साधारण उदाहरण इस संपत्ति का वर्णन करेगा। 13, 14, 16, 23, 26, 28, 33, 39, और 61 के मेरे भयानक क्रिकेट बैटिंग स्कोर का मतलब 28.11 है। यदि हम 61 को एक बहिर्मुखी मानते हैं और इसे हटा देते हैं, तो इसका मतलब 24 होगा।


1
σ2σ

2

यहाँ मैं एक आरेख का उपयोग करके इस प्रश्न का उत्तर कैसे दूंगा।

मान लें कि हम 30 बिल्लियों का वजन करते हैं और औसत वजन की गणना करते हैं। फिर हम x अक्ष पर y अक्ष और बिल्ली की पहचान पर भार के साथ एक तितर बितर भूखंड का उत्पादन करते हैं। माध्य भार को क्षैतिज रेखा के रूप में खींचा जा सकता है। हम तब ऊर्ध्वाधर रेखाओं में आकर्षित कर सकते हैं जो प्रत्येक डेटा बिंदु को माध्य रेखा से जोड़ते हैं - ये माध्य से प्रत्येक डेटा बिंदु के विचलन हैं, और हम उन्हें अवशिष्ट कहते हैं। अब, ये अवशेष उपयोगी हो सकते हैं क्योंकि वे हमें डेटा के प्रसार के बारे में कुछ बता सकते हैं: यदि कई बड़े अवशेष हैं, तो बिल्लियाँ द्रव्यमान में बहुत भिन्न होती हैं। इसके विपरीत, यदि अवशिष्ट मुख्य रूप से छोटे होते हैं, तो बिल्लियाँ औसत वजन के आसपास काफी निकट होती हैं। इसलिए अगर हम कुछ मेट्रिक ले सकते हैं जो हमें औसत बताता हैइस डेटा सेट में एक अवशिष्ट की लंबाई, यह यह दर्शाने का एक आसान तरीका होगा कि डेटा में कितना प्रसार है। मानक विचलन, प्रभावी रूप से, औसत अवशिष्ट की लंबाई है।

मैं इस पर से sd के लिए गणना देकर आगे बताऊंगा, यह समझाते हुए कि हम वर्ग और फिर वर्गमूल (मुझे वैभव की संक्षिप्त और मीठी व्याख्या क्यों पसंद है)। तब मैं बाहरी लोगों की समस्याओं का उल्लेख करता, जैसा कि ग्राहम अपने अंतिम पैराग्राफ में करते हैं।


1

यदि आवश्यक जानकारी माध्य के बारे में डेटा का वितरण है, तो मानक विचलन काम में आता है।

मतलब से प्रत्येक मूल्य के अंतर का योग शून्य है (जाहिर है, चूंकि मूल्य समान रूप से चारों ओर फैले हुए हैं), इसलिए हम प्रत्येक अंतर को सकारात्मक मान में परिवर्तित करने के लिए वर्ग को बदलते हैं, उन्हें जनसंख्या में योग करते हैं, और उनके पास ले जाते हैं वर्गमूल। यह मान तब नमूनों की संख्या (या, जनसंख्या का आकार) से विभाजित होता है। यह मानक विचलन देता है।


".हम प्रत्येक अंतर को अलग करते हैं ...." हम नकारात्मक मूल्यों से भी छुटकारा पाने के लिए पूर्ण मूल्य ले सकते हैं। तो एक बेहतर तरीका क्यों अपनाया जा रहा है क्योंकि हमें अंत में एक वर्गमूल लेना है? बस विचलन के पूर्ण मूल्यों का योग क्यों नहीं?
दिलीप सरवटे

यह एक देखा? लिंक
वैभव गर्ग

45

1
@DilipSarwate, सभी उचित सम्मान के साथ, प्रमाण द्वारा प्रमाण मुझे प्रभावित नहीं करता है। यह कि "इसलिए" "आधिकारिक" है कि "मैं नहीं बल्कि उपेक्षा" एक स्ट्रॉ-मैन है। किसी भी कथन में विवरण का स्तर झुकाव और / या एक दिए गए संदर्भ में उसी के शैक्षणिक महत्व के अनुरूप है। मुझे लगता है कि एक व्यक्ति जो पूछ रहा है "एक मानक विचलन क्या है, यह कैसे है .... आगे?" उसी की कठोर गणितीय परिभाषाओं से बोझिल होने की इच्छा नहीं कर सकते। सरलीकरण जानबूझकर किया गया है और, मैं आपको आश्वस्त करने का प्रयास करता हूं, न कि जागरूक होने का परिणाम।
वैभव गर्ग

1
और क्या, प्रार्थना बताओ, है .. "इसलिए हम वर्ग ..." प्राधिकरण द्वारा एक सबूत के अलावा जो आपको प्रभावित नहीं करता है? कोई तार्किक कारण नहीं है कि स्क्वेरिंग स्वचालित रूप से समस्या का समाधान है जैसा कि आपके "इसलिए" का तात्पर्य है।
दिलीप सरवटे

1

मैं इसे इस तरह से सोचना पसंद करता हूं: मानक विचलन औसत से औसत दूरी है । यह गणितीय रूप से उपयोगी की तुलना में अधिक वैचारिक रूप से उपयोगी है, लेकिन इसे बिना बताए समझाने का एक अच्छा तरीका है।


0

एक मानक विचलन एक वितरण के दूसरे केंद्रीय क्षण का वर्गमूल है। वितरण के अपेक्षित मूल्य से एक केंद्रीय क्षण अपेक्षित अंतर है। एक पहला केंद्रीय क्षण आमतौर पर 0 होगा, इसलिए हम दूसरे केंद्रीय क्षण को उनके अनुमानित मान से यादृच्छिक चर की चुकता दूरी के अपेक्षित मान के रूप में परिभाषित करते हैं।

इसे उस पैमाने पर रखने के लिए जो मूल टिप्पणियों के अनुरूप है, हम उस दूसरे केंद्रीय क्षण का वर्गमूल लेते हैं और इसे मानक विचलन कहते हैं।

मानक विचलन जनसंख्या की एक संपत्ति है। यह मापता है कि उस आबादी में औसत "फैलाव" कितना है। क्या सभी अवलोकनों का मतलब के आसपास क्लस्टर किया गया है, या वे व्यापक रूप से फैले हुए हैं?

किसी जनसंख्या के मानक विचलन का अनुमान लगाने के लिए, हम अक्सर उस जनसंख्या के "नमूने" के मानक विचलन की गणना करते हैं। ऐसा करने के लिए, आप उस आबादी से टिप्पणियों को लेते हैं, उन टिप्पणियों के एक माध्य की गणना करते हैं, और फिर उस "नमूना माध्य" से औसत चुकता विचलन के वर्गमूल की गणना करते हैं।

विचरण का निष्पक्ष अनुमान लगाने के लिए, आप वास्तव में नमूना माध्य से औसत चुकता विचलन की गणना नहीं करते हैं, लेकिन इसके बजाय, आप (N-1) से विभाजित करते हैं जहां N आपके नमूने में टिप्पणियों की संख्या है। ध्यान दें कि यह "नमूना मानक विचलन" मानक विचलन का एक निष्पक्ष अनुमानक नहीं है, लेकिन "नमूना मानक विचलन" का वर्ग जनसंख्या के विचरण का एक निष्पक्ष अनुमानक है।


6
यह एक अविश्वसनीय रूप से अस्पष्ट प्रतिक्रिया है। कृपया अंग्रेजी में लिखने का प्रयास करें।
नील मैकगिगन

1
संभावित हो। एक व्यक्ति है जो इस प्रश्न को एक व्यक्ति से पूछ रहा है जो सड़क पर चला गया, या एक व्यक्ति जिसने कम से कम एक सांख्यिकी पुस्तक खोली है। किसी को मानक विचलन बताना सिर्फ वर्जन की वर्गमूल है, इस सवाल का पूरी तरह से सामना करना है।
बाल्टीमार्क

-1

सबसे अच्छा तरीका है जो मैंने समझा है कि मानक विचलन एक हेयर ड्रेसर के बारे में सोचना है! (आपको एक हेयर ड्रेसर से डेटा एकत्र करने और काम करने के लिए इस उदाहरण के लिए उसके बाल काटने की गति को बढ़ाने की आवश्यकता है।)

हेयर ड्रेसर को एक व्यक्ति के बाल काटने में औसतन 30 मिनट लगते हैं।

मान लीजिए कि आप गणना करते हैं (अधिकांश सॉफ्टवेयर पैकेज आपके लिए ऐसा करेंगे) और आप पाते हैं कि मानक विचलन 5 मिनट है। इसका मतलब निम्न है:

  • हेयर ड्रेसर 25 मिनट और 35 मिनट के भीतर अपने ग्राहकों के 68% बाल काट देता है
  • हेयर ड्रेसर ने 20 से 40 मिनट के भीतर अपने 96% ग्राहकों के बाल काट दिए

मुझे इसके बारे में कैसे पता है? आपको सामान्य वक्र को देखने की जरूरत है, जहां 68% 1 मानक विचलन के भीतर और 96% औसत के 2 मानक विचलन (इस मामले में 30 मिनट) के भीतर आता है। इसलिए आप माध्य से मानक विचलन को जोड़ते या घटाते हैं।

यदि इस मामले में स्थिरता वांछित है, तो मानक विचलन जितना छोटा होगा, उतना ही बेहतर होगा। इस मामले में, हेयर ड्रेसर किसी भी दिए गए क्लाइंट के साथ अधिकतम 40 मिनट तक खर्च करता है। एक सफल सैलून चलाने के लिए आपको तेजी से बाल काटने की जरूरत है!


मुझे नहीं लगता कि आप अपने जवाब का सबूत देते हैं। आपको यहाँ कुछ विरोधाभासी जानकारी मिली है। देखें कि क्या आप मेरे संपादन से सहमत हैं, ठीक है?
rolando2

1
आपने केवल सामान्य वितरण के मामले में मानक विचलन की व्याख्या का वर्णन किया है। '68% नियम 'और (और 95% नियम) केवल सामान्य रूप से वितरित डेटा के लिए लागू होते हैं। कम से कम राज्य है कि दो गोली बिंदु केवल सच हैं अगर बाल कटवाने के समय एक सामान्य वितरण का पालन करते हैं।
मैक्रो

मैक्रो, मैंने सामान्य वक्र का उल्लेख किया है और यह एक दिया है कि यदि आप सामान्य वक्र का उपयोग करते हैं, तो डेटा एक सामान्य वितरण का पालन करेगा।
अधेश जोश

@ rolando2 मुझे समझ में नहीं आ रहा है कि अधेश के स्पष्टीकरण में क्या गलत है
अमरदल

@Amarald - क्या आपने संपादन से पहले और बाद के संस्करणों को देखने के लिए "31 जनवरी को 1:06 बजे" पर क्लिक किया है? मुझे लगता है कि जवाब के बाद मजबूत होता है, हालांकि मैक्रो एक महत्वपूर्ण बिंदु भी बनाता है।
रोलांडो 2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.