क्या मानक विचलन पूरी तरह से गलत है? आप हाइट्स, काउंट्स और आदि (सकारात्मक संख्या) के लिए std की गणना कैसे कर सकते हैं?


13

मान लीजिए कि मैं ऊंचाई (सेमी में) की गणना कर रहा हूं और संख्या शून्य से अधिक होनी चाहिए।

यहाँ नमूना सूची है:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

इस उदाहरण में, सामान्य वितरण के अनुसार, 99.7% मान औसत से विचलन के the 3 गुना के बीच होना चाहिए। हालांकि, यहां तक ​​कि दो बार मानक विचलन नकारात्मक हो जाता है:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

हालाँकि, मेरी संख्या सकारात्मक होनी चाहिए। इसलिए उन्हें 0. से ऊपर होना चाहिए। मैं नकारात्मक संख्याओं को अनदेखा कर सकता हूं, लेकिन मुझे संदेह है कि मानक विचलन का उपयोग करके संभावनाओं की गणना करने का यह सही तरीका है।

क्या कोई मुझे यह समझने में मदद कर सकता है कि क्या मैं इसका सही तरीके से उपयोग कर रहा हूं? या क्या मुझे एक अलग विधि चुनने की आवश्यकता है?

वैसे तो ईमानदार होना, गणित ही गणित है। यह सामान्य वितरण है या नहीं, इससे कोई फर्क नहीं पड़ता। यदि यह अहस्ताक्षरित संख्याओं के साथ काम करता है, तो इसे सकारात्मक संख्याओं के साथ भी काम करना चाहिए! क्या मै गलत हु?

EDIT1: हिस्टोग्राम जोड़ा गया

अधिक स्पष्ट होने के लिए, मैंने अपना वास्तविक डेटा हिस्टोग्राम जोड़ा है यहाँ छवि विवरण दर्ज करें

EDIT2: कुछ मूल्य

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
मुझे लगता है कि यहां गलतफहमी यह है कि एक वितरण जो केवल सकारात्मक संख्याएं हो सकती है, वह सामान्य नहीं है, इसलिए आपके द्वारा लागू 99.7% नियम लागू नहीं होता है। दूसरा, (नमूना) मानक विचलन सूत्र से, आप देख सकते हैं कि किसी भी मूल मूल्य के सकारात्मक होने पर कोई शर्त नहीं है - तो यह गलत क्यों होना चाहिए? यह हो सकता है कि इसका गलत तरीके से उपयोग किया जाता है , लेकिन आँकड़े ज्यादातर अज्ञेयवादी हैं और इसे बिना दिमाग के लागू नहीं किया जाना चाहिए।
मोमो

8
68-95-99.7 नियम, @Momo की सुंदरता यह है कि यह कई निश्चित रूप से गैर-सामान्य वितरणों पर भी लागू होता है । इस स्थिति में 50% संख्या माध्य के 1 sd के भीतर और 100% माध्य के 2 sds के भीतर हैं। निरीक्षण करें कि 68% सटीक रूप से 50% और 95% सटीक रूप से अनुमान लगाता है कि हम ऐसे छोटे डेटासेट की अपेक्षा करने वाले विचलन के भीतर 100% अनुमान लगाते हैं। इस प्रकार, यह उदाहरण अंगूठे के नियम का वर्णन करता है, भले ही यह अपने छोटे आकार के कारण थोड़ा असंबद्ध हो।
whuber

2
मैं सहमत हूँ। मुझे "तो 99.7% नियम आप राज्य नहीं करता है को यह ठीक करने दें जरूरी लागू करें"। यहां भ्रम की स्थिति इसे अंगूठे के एक नियम से अधिक के रूप में लागू होती है और आपकी बारीकियों के संदर्भ में नहीं "हम उम्मीद करेंगे कि विचलन के भीतर"। ओपी अंतिम टिप्पणी सिर्फ यही दर्शाता है।
मोमो

4
क्या शीर्षक को "सकारात्मक होने के लिए 68-95-99.7 नियम लागू करने के लिए" जैसे कुछ को बदलना चाहिए? मुझे लगता है कि प्रश्न की भावना को अधिक पकड़ लेता है। (यह इस तरह की समस्या नहीं है कि मानक विचलन की गणना की जा रही है, जो कि शीर्षक से पता चलता है, बल्कि संभावनाओं को खोजने के लिए इसका उपयोग किया जा रहा है।)
सिल्वरफ़िश

4
मानक विचलन "गलत" नहीं है। जो कम सटीक है वह सामान्य चीजों के रूप में व्यवहार कर रहा है जो नहीं हैं; सामान्यता द्वारा निहित मानक विचलन की संख्या के बाहर का अनुपात हमेशा अन्य वितरणों के लिए सटीक नहीं होगा। निरंतर असमान वितरण के लिए, दो-पक्षीय अंतराल के करीब 2 मानक विचलन अक्सर बहुत ही उचित होते हैं, लेकिन दूर पूंछ की संभावनाओं में बहुत अधिक सापेक्ष त्रुटियां हो सकती हैं।
Glen_b -Reinstate Monica

जवाबों:


23

यदि आपकी संख्या केवल सकारात्मक हो सकती है, तो एक सामान्य वितरण के रूप में उन्हें मॉडलिंग करना आपके उपयोग के मामले के आधार पर वांछनीय नहीं हो सकता है, क्योंकि सामान्य वितरण सभी वास्तविक संख्याओं पर समर्थित है।

शायद आप एक एक्सपोनेंशियल डिस्ट्रीब्यूशन के रूप में ऊँचाई बढ़ाना चाहते हैं, या हो सकता है कि यह एक सामान्य डिस्ट्रीब्यूशन है?

संपादित करें: आपके डेटा को देखने के बाद, यह वास्तव में ऐसा लगता है जैसे यह एक घातीय वितरण को अच्छी तरह से फिट कर सकता है! आप उदाहरण के लिए, अधिकतम संभावना वाले दृष्टिकोण को ले कर पैरामीटर का अनुमान लगा सकते हैं ।λ


10
पहला वाक्य सामान्य रूप से सही नहीं है: कई मात्राएं जो सख्ती से सकारात्मक होती हैं, उन्हें अक्सर एक सामान्य वितरण द्वारा अनुमानित किया जा सकता है। यदि 0 से नीचे की संभाव्यता द्रव्यमान बहुत कम है, तो यह सभी व्यावहारिक उद्देश्यों के लिए मायने नहीं रखता है। इस विशेष मामले में, यह निश्चित रूप से सही है।
COOLSerdash

13
-1 यह उत्तर एक सांख्यिकीय मॉडल क्या है और इसका सामान्य रूप से वितरण के साथ डेटा मॉडल करने का वास्तव में क्या अर्थ है, इस बारे में व्यापक रूप से आयोजित (और imho pernicious) गलत धारणा को दर्शाता है। वास्तव में, अगर हमें विश्वास है कि यह पोस्ट क्या कहती है, तो यह सामान्य वितरण के साथ एक द्विपद वितरण को अनुमानित करने के लिए "निश्चित रूप से गलत" होगा - लेकिन यह ऐतिहासिक रूप से सामान्य और व्यापक रूप से सामान्य वितरण का व्यापक उपयोग है! : (संपादित करें मैं downvote हटा दिया है क्योंकि आप एक अधिक सही और उपयोगी है कि में मूल दावा संशोधित।)
whuber

4
यह इस बात पर निर्भर करता है कि आप "श्रेष्ठ" से क्या मतलब रखते हैं। एक मॉडल की लागत का हिस्सा इसे लागू करने के लिए क्या होता है, में निहित है। यदि आप एक काट-छाँट किए गए सामान्य मॉडल को अपनाते हैं, तो आप संभवतः त्वरित, आसान और संभवतः सुंदर सटीक विश्लेषणात्मक गणनाओं के बजाय बहुत सारे कस्टम संख्यात्मक गणनाओं के लिए खुद को प्रतिबद्ध कर रहे हैं। एक मॉडल का एक अन्य उद्देश्य अंतर्दृष्टि प्रदान करना है : एक सोचता है, "अगर प्रकृति कम से कम लगभग इन मान्यताओं की तरह व्यवहार करती है, तो उन धारणाओं से क्या परिणाम हो सकते हैं?" अक्सर, एक साधारण अनुमान के साथ इस तरह के निष्कर्ष बनाना आसान होता है।
whuber

2
@ शुभंकर: "खूबसूरती से सटीक" के बाद मैंने मानसिक रूप से "गलत" जोड़ा। माफ़ करना। बेशक, प्रति बॉक्स में "लेकिन उपयोगी" भी।
स्टीफन कोलासा

2
हालांकि डेटा में गैर-पूर्णांक मान शामिल हैं?
केविन ली

19

"मेरे मामले में 68-95-99.7 लागू करने का सही तरीका क्या है?"

एक ही उम्मीद करनी चाहिए कि कवरेज के लिए अंगूठे का नियम ठीक वैसे ही लागू हो जब आप (1) पूरी (अनंत) आबादी या सैद्धांतिक संभावना वितरण को देख रहे हों , और (2) वितरण बिल्कुल सामान्य हो

यदि आप सामान्य रूप से सामान्य वितरण से भी आकार 20 का यादृच्छिक नमूना लेते हैं, तो आप हमेशा यह नहीं पाएंगे कि 95% डेटा (20 वस्तुओं में से 19) मतलब के 2 (या 1.960) मानक विचलन के भीतर है। वास्तव में, यह गारंटी नहीं दी गई है कि 20 में से 19 आइटम 1.960 आबादी के मानक विचलन के भीतर झूठ बोलेंगे, और न ही 20 में से 19 आइटम सैंपल माध्य के 1.960 नमूना मानक विचलन के भीतर निहित हैं।

यदि आप एक वितरण से डेटा का एक नमूना लेते हैं जो सामान्य रूप से वितरित नहीं किया जाता है, तो एक बार फिर से 68-95-99.7 नियम को लागू करने की उम्मीद नहीं होगी। लेकिन यह ऐसा करने के लिए काफी करीब आ सकता है, खासकर अगर नमूना आकार बड़ा है ("99.7% कवरेज" नियम-ऑफ-थम्ब विशेष रूप से 1000 से नीचे के नमूने के आकार के साथ सार्थक नहीं हो सकता है) और वितरण यथोचित सामान्यता के करीब है। सिद्धांत रूप में बहुत सारे डेटा जैसे कि ऊँचाई या वजन एक सामान्य वितरण से नहीं आ सकता है या यह एक छोटा, लेकिन गैर-शून्य होगा, उनके नकारात्मक होने की संभावना है। फिर भी, लगभग सममित और असमान वितरण के साथ डेटा के लिए, जहां मिडिलिंग मान अधिक सामान्य होते हैं और संभावना में उच्च या निम्न मान कम हो जाते हैं, व्यावहारिक वितरण के लिए सामान्य वितरण का मॉडल पर्याप्त हो सकता है।यदि मेरा हिस्टोग्राम घंटी के आकार का वक्र दिखाता है, तो क्या मैं कह सकता हूं कि मेरा डेटा सामान्य रूप से वितरित किया गया है?

1/k2kमाध्य से मानक विचलन। यह गारंटी देता है कि कम से कम 75% डेटा माध्य के दो मानक विचलन के भीतर और तीन मानक विचलन के भीतर 89% है। लेकिन वे आंकड़े सिर्फ सैद्धांतिक रूप से गारंटीकृत न्यूनतम हैं। कई मोटे तौर पर घंटी के आकार के वितरण के लिए, आप पाएंगे कि दो-मानक विचलन कवरेज का आंकड़ा 95% से 75% के करीब आता है, और इसलिए सामान्य वितरण से "अंगूठे का नियम" अभी भी उपयोगी है। दूसरी ओर, यदि आपका डेटा एक वितरण से आता है जो बेल-आकार के पास कहीं नहीं है, तो आप एक वैकल्पिक मॉडल ढूंढने में सक्षम हो सकते हैं जो डेटा का बेहतर वर्णन करता है और एक अलग कवरेज नियम है।

(68-95-99.7 नियम के बारे में अच्छी बात यह है कि यह किसी भी सामान्य वितरण पर लागू होता है , चाहे इसका मतलब या मानक विचलन के लिए इसके मापदंडों की परवाह किए बिना। इसी तरह, चेबशेव की असमानता मापदंडों की परवाह किए बिना लागू होती है, या वितरण भी, हालांकि केवल कवरेज के लिए कम सीमा देता है। लेकिन अगर आप लागू करते हैं, उदाहरण के लिए, एक सामान्य या तिरछा सामान्य मॉडल, तो "68-95-99.7" कवरेज का एक सरल समकक्ष नहीं है, क्योंकि यह वितरण के मापदंडों पर निर्भर करेगा। ।)


7

क्या कोई मुझे यह समझने में मदद कर सकता है कि क्या मैं इसका सही तरीके से उपयोग कर रहा हूं?

ओह, यह आसान है। नहीं, आप इसका सही उपयोग नहीं कर रहे हैं।

सबसे पहले, आप एक छोटे डेटा सेट का उपयोग कर रहे हैं। इस आकार के सेट से सांख्यिकीय व्यवहार को छेड़ने की कोशिश करना निश्चित रूप से संभव है, लेकिन आत्मविश्वास की सीमाएं (अहम) बल्कि बड़ी हैं। छोटे डेटा सेट के लिए, अपेक्षित वितरण से विचलन कोर्स के लिए बराबर है, और सेट जितना छोटा होता है समस्या उतनी ही अधिक होती है। याद रखें, "कानून का कानून न केवल सबसे अपमानजनक संयोगों की अनुमति देता है, इसके लिए उन्हें आवश्यकता होती है।"

इससे भी बदतर, आपके द्वारा उपयोग किया जा रहा विशेष डेटा सेट सामान्य वितरण की तरह नहीं दिखता है। इसके बारे में सोचो - .498 के एक मतलब के साथ आपको दो नमूने 0.1 से नीचे मिले, और तीन और .748 या उससे अधिक। फिर आपको .17 और .22 के बीच 3 बिंदुओं का एक समूह मिला है। इस विशेष डेटा सेट को देखते हुए और यह तर्क देते हुए कि यह सामान्य वितरण होना चाहिए, प्रोक्रिस्टियन तर्क का एक बहुत अच्छा मामला है। क्या यह आपको घंटी की तरह दिखता है? यह पूरी तरह से संभव है कि बड़ी आबादी एक सामान्य, या संशोधित सामान्य, वितरण का पालन करती है, और एक बड़ा नमूना आकार मुद्दे को संबोधित करेगा, लेकिन मैं इस पर दांव नहीं लगाऊंगा, खासकर आबादी के बारे में अधिक जानकारी के बिना।

मैं कहता हूं कि सामान्य रूप से संशोधित, चूंकि केविन ली ने बताया है, तकनीकी रूप से एक सामान्य वितरण में सभी वास्तविक संख्याएं शामिल हैं। जैसा कि उनके जवाब में टिप्पणियों में भी बताया गया था, यह एक सीमित सीमा पर इस तरह के वितरण को लागू करने और उपयोगी परिणाम प्राप्त करने से नहीं रोकता है। जैसा कि कहा जाता है, "सभी मॉडल गलत हैं। कुछ उपयोगी हैं।"

लेकिन यह विशेष डेटा सेट केवल एक सामान्य वितरण (यहां तक ​​कि एक सीमित सीमा पर) का उल्लेख करने जैसा नहीं लगता है, विशेष रूप से अच्छा विचार है। अगर आपके 10 डेटा पॉइंट्स .275, .325, .375, .425, .475, .525, .575, .625, .675, (.725 का मतलब), जैसे दिखते हैं, तो क्या आप एक सामान्य वितरण मानेंगे?


मैंने अपनी आवश्यकताओं और समस्या को समझाने में सक्षम होने के लिए एक यादृच्छिक डेटा का उपयोग किया है
डॉन कोडर

1
@DonCoder रैंडम डेटा (जब तक कि आप इसे किसी तरह से ट्विक नहीं करते) समान वितरण का पालन करेंगे, न कि सामान्य वितरण का।
बैरीकेटर

5
कुछ वितरण से यादृच्छिक डेटा उत्पन्न करने की आवश्यकता होती है। आपने किसे चुना?
पीटर फ्लोम -

मैंने अपने वास्तविक डेटा का हिस्टोग्राम जोड़ा है
डॉन कोडर

2

टिप्पणियों में से एक में आप कहते हैं कि आपने "यादृच्छिक डेटा" का उपयोग किया है लेकिन आप क्या वितरण से नहीं कहते हैं। यदि आप मनुष्यों की ऊंचाइयों के बारे में बात कर रहे हैं, तो वे लगभग सामान्य रूप से वितरित किए जाते हैं, लेकिन आपका डेटा दूरस्थ रूप से मानव ऊंचाइयों के लिए उपयुक्त नहीं है - तुम्हारा एक सेमी के अंश हैं!

और आपका डेटा दूरस्थ रूप से सामान्य नहीं है। मैं अनुमान लगा रहा हूं कि आपने 0 और 1. की सीमा के साथ एक समान वितरण का उपयोग किया है और आपने बहुत छोटा नमूना तैयार किया है। आइए एक बड़े नमूने के साथ प्रयास करें:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

इसलिए, कोई भी डेटा माध्य से 2 sd से परे नहीं है, क्योंकि यह डेटा की सीमा से परे है। और 1 एसडी के भीतर का हिस्सा लगभग 0.56 होगा।


1

अक्सर, जब आपके पास एक बाधा होती है कि आपके नमूने सभी सकारात्मक होने चाहिए, तो यह देखने के लिए आपके डेटा के लघुगणक को देखने के लायक है कि क्या आपके वितरण को एक असामान्य वितरण द्वारा अनुमानित किया जा सकता है।


1

एक मानक विचलन गणना माध्य के सापेक्ष है। क्या आप उन संख्याओं के लिए मानक विचलन लागू कर सकते हैं जो हमेशा सकारात्मक होते हैं? पूर्ण रूप से। यदि आप अपने नमूना सेट में प्रत्येक मान में 1000 जोड़ते हैं, तो आपको समान मानक विचलन मान दिखाई देगा, लेकिन आपने स्वयं को शून्य से अधिक श्वास कक्ष प्रदान किया होगा।

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

हालाँकि, आपके डेटा में एक मनमाना स्थिरांक जोड़ना सतही है। इतने छोटे सेट के लिए मानक विचलन का उपयोग करते समय, आपको अपरिष्कृत आउटपुट की अपेक्षा करनी होगी। ऑटो-फोकस कैमरा लेंस जैसे मानक विचलन पर विचार करें: जितना अधिक समय (डेटा) आप इसे देंगे, तस्वीर उतनी ही स्पष्ट होगी। यदि आप 1000000 डेटा बिंदुओं को ट्रैक करते हैं, तो आपका मतलब और मानक विचलन 10 के समान ही रहता है, तो मैं आपके प्रयोग की वैधता पर सवाल उठाना शुरू कर सकता हूं।


1

आपका हिस्टोग्राम दर्शाता है कि सामान्य वितरण एक अच्छा फिट नहीं है। आप लॉगानॉर्मल या कुछ और जो विषम और सख्ती से सकारात्मक हो सकता है


1

मुख्य बिंदु यह है कि हम में से बहुत आलसी * हैं, और सामान्य वितरण हमारे लिए आलसी लोगों के साथ काम करने के लिए सुविधाजनक है। सामान्य वितरण का उपयोग करके गणना करना आसान है और इसमें अच्छी गणितीय नींव है। जैसे कि यह डेटा पर काम करने के लिए एक "मॉडल" है। यह मॉडल अक्सर आश्चर्यजनक रूप से अच्छी तरह से काम करता है, और कभी-कभी अपने चेहरे पर सपाट हो जाता है।

यह बहुत स्पष्ट है कि आपके नमूने डेटा में एक सामान्य वितरण का संकेत नहीं देते हैं। तो आपके लिए दुविधा का समाधान एक अलग "मॉडल" चुनना है, और एक अलग वितरण के साथ काम करना है। वेइबुल वितरण दिशा में हो सकता है, अन्य हैं।

  • वास्तव में डेटा को जानने और बेहतर मॉडल का चयन करने में आलसी नहीं जब आवश्यक हो।

0

मूल रूप से आप इंटरवल डेटा के विपरीत अनुपात डेटा का उपयोग कर रहे हैं। भूगोलविज्ञानी हर समय इस बात से गुजरते हैं कि किसी विशिष्ट स्थान पर वार्षिक वर्षा के लिए S / D की गणना करते समय (ला सिविक सेंटर में 100 अंक के नमूने बिंदु) या बर्फबारी (Big Bear Lake पर 100+ वर्ष की बर्फबारी के नमूने)। हमारे पास केवल सकारात्मक संख्याएं हो सकती हैं, बस यही तरीका है।


0

मौसम विज्ञान में, हवा की गति के वितरण इस तरह से बहुत कुछ दिखते हैं। परिभाषा के अनुसार हवा की गति भी गैर-नकारात्मक होती है।

इसलिए आपके मामले में, मैं निश्चित रूप से वीबुल वितरण को देखूंगा


0

आप "सामान्य वितरण के अनुसार" से शुरू करते हैं जब आपका डेटा स्पष्ट रूप से सामान्य वितरित नहीं होता है, तो यह पहली समस्या है। आप कहते हैं "यह सामान्य वितरण है या नहीं, इससे कोई फर्क नहीं पड़ता।" जो निरपेक्ष बकवास है। यदि आपका डेटा सामान्य वितरित नहीं है, तो आप सामान्य वितरित डेटा के बारे में बयानों का उपयोग नहीं कर सकते।

और आप बयान को गलत बताते हैं। "99.7% तीन मानक विचलन के भीतर होना चाहिए"। और आपके डेटा का 99.7% वास्तव में तीन मानक विचलन के भीतर था । इससे भी बेहतर, यह दो मानक विचलन के भीतर 100% था। अतः कथन सत्य है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.