क्या गैर-नकारात्मक डेटा का मानक विचलन औसत से अधिक हो सकता है?


15

मेरे पास कुछ त्रिकोणीय 3D मेष हैं। त्रिकोण क्षेत्रों के आँकड़े हैं:

  • न्यूनतम 0.000
  • अधिकतम 2341.141
  • मीन 56.317
  • Std dev 98.720

तो, क्या इसका मतलब मानक विचलन के बारे में विशेष रूप से उपयोगी है या सुझाव है कि इसकी गणना करने में कीड़े हैं, जब आंकड़े ऊपर की तरह काम करते हैं? क्षेत्र निश्चित रूप से सामान्य रूप से वितरित होने से बहुत दूर हैं।

और जैसा कि किसी ने नीचे अपनी प्रतिक्रियाओं में उल्लेख किया है, इस बात ने मुझे वास्तव में आश्चर्यचकित कर दिया कि यह संख्याओं के लिए केवल एक एसडी लेता है ताकि संख्याएं नकारात्मक हो जाएं और इस तरह कानूनी डोमेन से बाहर हो जाएं।

धन्यवाद


4
डेटासेट में नमूना मानक विचलन १०० है जबकि माध्य ५२ - व्याख्या है जो आप देखते हैं। {2,2,2,202}10052
whuber

5
एक परिचित (कुछ के लिए) उदाहरण के लिए, किसी का एक घंटे के लिए लाठी खेलने का औसत परिणाम $ 25 नकारात्मक हो सकता है, लेकिन $ 100 (चित्रण के लिए संख्या) के मानक विचलन के साथ। भिन्नता का यह बड़ा गुणांक किसी के लिए यह सोचने में आसान बनाता है कि वे वास्तव में जितने बेहतर हैं, उससे बेहतर हैं।
माइकल मैकगोवन

अनुवर्ती प्रश्न काफी जानकारीपूर्ण भी है: यह पर का एक सेट (गैर नकारात्मक डेटा) एसडी सीमा देता है, मतलब दिया।
whuber

जवाबों:


9

ऐसा कुछ भी नहीं है जो बताता है कि मानक विचलन को औसत से कम या अधिक होना चाहिए। डेटा के एक सेट को देखते हुए आप औसत को समान रख सकते हैं लेकिन एक सकारात्मक संख्या को उचित रूप से जोड़ / घटाकर मानक विचलन को एक मनमाना डिग्री में बदल सकते हैं ।

@ व्हिबर के उदाहरण डेटासेट का उपयोग उसकी टिप्पणी से लेकर प्रश्न: {2, 2, 2, 202} तक। जैसा कि @whuber ने कहा है: माध्य 52 है और मानक विचलन 100 है।

अब, डेटा के प्रत्येक तत्व को निम्नानुसार क्रमबद्ध करें: {22, 22, 22, 142}। माध्य अभी भी 52 है लेकिन मानक विचलन 60 है।


1
यदि आप प्रत्येक तत्व में जोड़ते हैं , तो आप स्थान पैरामीटर को बदलते हैं , अर्थात माध्य। आप स्केल फैक्टर (अपने मतलब शून्य है) के साथ गुणा करके फैलाव (यानी मानक विचलन) बदलते हैं।
डिर्क एडल्डबुलेटेल

@DirkEddelbuettel आप सही हैं। मैंने जवाब तय किया और स्पष्टता के लिए एक उदाहरण प्रदान किया।
व्रती

2
मैं उदाहरण का पालन नहीं करता। नए डेटासेट स्पष्ट रूप से मूल मूल्यों में से प्रत्येक से "सकारात्मक संख्या को जोड़ने या घटाना" मूल से नहीं लिया गया है।
whuber

3
मैं इसे संपादित नहीं कर सकता क्योंकि मुझे नहीं पता कि आप क्या कहना चाह रहे हैं। आप मनमाने ढंग से किसी डेटासेट में संख्या से प्रत्येक के लिए अलग मान जोड़ सकते हैं, तो आप केवल का एक सेट बदल रहे हैं की एक पूरी तरह से अलग सेट में मान n मूल्यों। मैं नहीं देखता कि यह प्रश्न या आपके शुरुआती पैराग्राफ के लिए भी कितना प्रासंगिक है। मुझे लगता है कि कोई भी इस बात को अनुदान देगा कि इस तरह के बदलाव से माध्य और एसडी बदल सकते हैं, लेकिन यह हमें नहीं बताता है कि क्यों नॉनगनेटिव डेटा के एक सेट का एसडी अपने मतलब के किसी भी सकारात्मक मल्टीपल हो सकता है। nn
whuber

2
आप सही हैं: उद्धृत कथन मेरा है और यह आपके उत्तर में प्रकट नहीं होता है। (यह सही और प्रासंगिक होने के लिए होता है, हालांकि। :-) एक बिंदु जो मैं प्राप्त करने की कोशिश कर रहा हूं, वह यह है कि एसडी को बदलने की क्षमता केवल यही है कि इस सवाल का जवाब नहीं है। एसडी को कितना बदला जा सकता है (सभी डेटा को गैर-नकारात्मक रखते हुए)? मैंने जो दूसरा बिंदु बनाने की कोशिश की है, वह यह है कि आपके उदाहरण में डेटा में इस तरह के परिवर्तन करने की एक सामान्य, पूर्वानुमेय प्रक्रिया का वर्णन नहीं है। इससे यह मनमाना दिखाई देता है, जो ज्यादा मदद का नहीं है।
whuber

9

बेशक, ये स्वतंत्र पैरामीटर हैं। आप आर (या एक और उपकरण जिसे आप पसंद कर सकते हैं) में सरल अन्वेषण सेट कर सकते हैं।

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

इसी तरह, आप उस डेटा को मानकीकृत करते हैं जो आप मीन को घटाकर और मानक विचलन द्वारा विभाजित करके देख रहे हैं।

संपादित करें और @ व्हिबर के विचार के बाद, यहां डेटा सेटों में से एक अनंत है जो आपके चार मापों के करीब आता है:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

मुझे यकीन नहीं है कि मैं आपकी बात समझता हूं। वे वास्तव में स्वतंत्र नहीं हैं क्योंकि एक डेटा बिंदु को बदलकर मतलब बदल सकता है और इस तरह मानक विचलन भी बदल सकता है। क्या मैंने किसी बात का गलत मतलब निकाला?
व्रती

यह देखते हुए कि त्रिभुज क्षेत्र ऋणात्मक नहीं हो सकते हैं (जैसा कि प्रश्न में उद्धृत न्यूनतम मूल्य से पुष्टि की गई है), एक ऐसे उदाहरण की आशा करेगा जिसमें पूरी तरह से गैर-नकारात्मक संख्या हो।
whuber

(+1) संपादन संपादित करें: 52.15 :-) के 536 प्रतिकृति का उपयोग करने का प्रयास करें।
whuber

अच्छा लगा 536 प्रतिनिधि। एक द्विआधारी खोज करना चाहिए था :)
डिर्क एडल्डबुलेटेल

@ डर्क "ये स्वतंत्र पैरामीटर हैं", उस मामले पर विचार करें जब एक बर्नौली है। विचरण और माध्य स्वतंत्र नहीं हैं: v a r ( X ) = p ( 1 - p ) । एक यादृच्छिक चर पर विचार करें 100 > एक्स > 0 , अधिकतम संभव विचरण है ( 50 ) 2 अब अगर आप एक के बराबर होना मतलब बल (यानी की तुलना में कम 50 ) अधिकतम अंतर से बड़ा नहीं हो सकता है 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 । गाऊसी की तुलना में प्रकृति में बंधे हुए चर के अधिक उदाहरण हैं? 99/100(1)2+(1/100)992
रॉबिन जिरार्ड

7

मुझे यकीन नहीं है कि क्यों @Andy इस परिणाम पर आश्चर्यचकित है, लेकिन मुझे पता है कि वह अकेला नहीं है। न ही मुझे यकीन है कि डेटा की सामान्यता इस तथ्य के साथ क्या करना है कि एसडी मतलब से अधिक है। एक डेटा सेट उत्पन्न करना काफी सरल है जो सामान्य रूप से वितरित किया जाता है जहां यह मामला है; वास्तव में, मानक सामान्य का अर्थ है 0, sd 1. 1. sd> माध्य के साथ सभी सकारात्मक मूल्यों का एक सामान्य रूप से वितरित डेटा सेट प्राप्त करना कठिन होगा; वास्तव में, यह संभव नहीं होना चाहिए (लेकिन यह नमूना आकार पर निर्भर करता है और आप किस सामान्यता का परीक्षण करते हैं ... बहुत छोटे नमूने के साथ, अजीब चीजें होती हैं)

हालाँकि, एक बार जब आप सामान्यता के निर्धारण को हटा देते हैं, जैसा कि @Andy ने किया, तो कोई कारण नहीं है कि sd बड़ा या छोटा होना चाहिए, मतलब सभी सकारात्मक मूल्यों के लिए भी। एक एकल रूपरेखा यह करेगी। जैसे

x <- runif (100, 1, 200) x <- c (x, 2000)

११३ का मतलब देता है और १ ९ s का एसडी (बीज पर निर्भर करता है, निश्चित रूप से)।

लेकिन एक बड़ा सवाल यह है कि यह लोगों को आश्चर्यचकित क्यों करता है।

मैं आंकड़े नहीं सिखाता, लेकिन मुझे आश्चर्य है कि जिस तरह से आँकड़ों के बारे में पढ़ाया जाता है वह इस धारणा को सामान्य बनाता है।


मैंने कभी आंकड़ों का अध्ययन नहीं किया है, सिर्फ इंजीनियरिंग गणित की कुछ इकाइयों ने और वह तीस साल पहले थी। काम के अन्य लोग, जिनके बारे में मुझे लगा कि वे डोमेन को बेहतर तरीके से समझते हैं, खराब डेटा का प्रतिनिधित्व करने के बारे में बात कर रहे हैं "मतलब से दूर std devs की संख्या"। तो, यह "सिखाये जाने वाले" की तुलना में "std dev का आमतौर पर उल्लेख किया गया है" के बारे में अधिक है :-)
एंडी डेंट

@ और मतलब से बड़ी संख्या में एसटीडी होने का मतलब है कि चर शून्य से काफी अलग नहीं है। फिर यह संदर्भ पर निर्भर करता है (यह यादृच्छिक चर का अर्थ है) लेकिन कुछ मामलों में आप उन को दूर करना चाह सकते हैं?
रॉबिन जिरार्ड

@Peter डिर्क के लिए मेरी टिप्पणी देखें, यह कुछ संदर्भ में "आश्चर्य" समझा सकता है। वास्तव में मैंने कुछ समय के लिए आँकड़ा पढ़ाया है और जिस आश्चर्य की बात आप कर रहे हैं वह मैंने कभी नहीं देखी। वैसे भी, मैं स्टूडेंट पसंद करता हूं जो हर चीज से हैरान हैं मुझे पूरा यकीन है कि यह एक अच्छा एपिस्टेमोलोजिकल पोजिशन है (बेहिसाब आश्चर्य की स्थिति से बेहोश करने की तुलना में बेहतर है :))।
रॉबिन जिरार्ड

@AndyDent "खराब" डेटा, मेरे लिए, डेटा का मतलब है जो गलत तरीके से रिकॉर्ड किया गया है। माध्य से दूर डेटा आउटलेयर हैं। उदाहरण के लिए, मान लीजिए कि आप लोगों की ऊंचाइयों को माप रहे हैं। यदि आप मुझे मापते हैं और 5'7 के बजाय 7'5 'के रूप में मेरी ऊंचाई रिकॉर्ड करते हैं, तो यह खराब डेटा है। यदि आप याओ मिंग को मापते हैं और उसकी ऊँचाई को 7'5 रिकॉर्ड करते हैं ", तो यह एक बाहरी लेकिन बुरा डेटा नहीं है। इस तथ्य के बावजूद कि यह माध्य (6 एसडी की तरह कुछ) से बहुत दूर है
पीटर फ़्लॉम - बहाल मोनिका

@ पैटर फ्लोर्न, हमारे मामले में, हमारे पास आउटलेयर हैं जिनसे हम छुटकारा पाना चाहते हैं क्योंकि वे त्रिकोणों का प्रतिनिधित्व करते हैं जो कि जाल को संसाधित करने वाली एल्गोरिदमिक समस्याओं का कारण होगा। वे आपके अर्थ में "खराब डेटा" भी हो सकते हैं यदि वे दोषपूर्ण स्कैनिंग उपकरणों या अन्य स्वरूपों से रूपांतरण द्वारा बनाए गए थे। इस डेटा के बारे में अधिक दिलचस्प बातों में से एक यह है कि हमारे पास दोनों सिरों पर "खराब डेटा" है, लेकिन छोटे लोग इस मतलब से दूर नहीं हैं।
एंडी डेंट

6

बस एक सामान्य बात यह भी कहा कि, एक पथरी के नजरिए से, और एक्स 2( एक्स ) एक्स से संबंधित हैं जेन्सेन की असमानता , यह मानते हुए दोनों अभिन्न मौजूद हैं, एक्स 2( एक्स ) एक्स { x ( एक्स ) x } 2

xf(x)dx
x2f(x)dx
इस सामान्य असमानता को देखते हुए, कुछ भी विचरण को मनमाने ढंग से बड़े होने से नहीं रोकता है। गवाहविद्यार्थी t- वितरणके साथ ν स्वतंत्रता की डिग्री, एक्स ~ टी ( ν , μ , σ ) और ले Y = | एक्स | जिसका दूसरा पल के दूसरे पल रूप में ही है एक्स , [ | एक्स | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X जबν>2। तो यह अनंत होजाता हैजबν2 सेनीचे चला जाता है, जबकिYका अर्थν>1तक सीमित रहता है।
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
कृपया प्रश्न में nonnegative मानों के लिए स्पष्ट प्रतिबंध पर ध्यान दें ।
whuber

छात्र उदाहरण आसानी से निरपेक्ष-मूल्य-में-छात्र-वितरण के उदाहरण में अनुवादित हो जाता है ...
शीआन

1
लेकिन इसका मतलब बदल जाता है, ज़ाहिर है :-)। सवाल एसडी और माध्य (इसके शीर्षक देखें) के बीच संबंध की चिंता करता है। मैं यह नहीं कह रहा हूँ कि तुम गलत हो; मैं सिर्फ (संक्षेप में) यह सुझाव दे रहा हूं कि आपका जवाब, कम काम के साथ, अधिक सीधे प्रश्न को संबोधित कर सकता है।
whuber

@whuber: ठीक है, मैंने उपर्युक्त मान पर विचार करने के लिए ऊपर संपादन किया है (मैंने पूर्ण मान का अर्थ भी निकाला है लेकिन <a href=" cermade.dauphine.fr/~xian/meanabs.pdf"> यह अनुचित है </ / ए> ...)
शीआन

3

शायद ओपी हैरान है कि माध्य - 1 एसडी एक नकारात्मक संख्या है (विशेषकर जहां न्यूनतम 0 है)।

यहाँ दो उदाहरण हैं जो स्पष्ट कर सकते हैं।

मान लें कि आपके पास 20 प्रथम ग्रेडरों की एक कक्षा है, जहां 18 6 साल के हैं, 1 5 है, और 1 7. 7. अब 49 वर्षीय शिक्षक में जोड़ें। औसत आयु 8.0 है, जबकि मानक विचलन 9.402 है।

आप सोच रहे होंगे: इस वर्ग के लिए एक मानक विचलन पर्वतमाला -1.402 से लेकर 17.402 वर्ष तक है। आपको आश्चर्य हो सकता है कि एसडी में एक नकारात्मक उम्र शामिल है, जो अनुचित लगता है।

आपको नकारात्मक आयु (या कम से कम 0.0 से कम फैली 3 डी भूखंड) के बारे में चिंता करने की ज़रूरत नहीं है। सहज रूप से, आपके पास अभी भी माध्य के 1 एसडी के भीतर लगभग दो-तिहाई डेटा है। (आपके पास वास्तव में माध्य के 2 एसडी के भीतर 95% डेटा है।)

जब डेटा गैर-सामान्य वितरण पर ले जाता है, तो आपको इस तरह के आश्चर्यजनक परिणाम दिखाई देंगे।

दूसरा उदाहरण। अपनी किताब, फूल्ड इन रैंडमनेस , नसीम तालेब ने आंखों पर पट्टी बांधने की लंबाई के एक ब्लाइंडफोल्ड आर्चर शूटिंग के प्रयोग को स्थापित किया। आर्चर +90 डिग्री और -90 डिग्री के बीच शूट कर सकता है।

हर बार एक बार में, तीर तीर को दीवार के समानांतर गोली मार देगा, और यह कभी नहीं टकराएगा। विचार करें कि संख्या के वितरण के रूप में तीर लक्ष्य से कितनी दूर है। इस परिदृश्य के लिए मानक विचलन inifinte होगा।


1 एसडी के भीतर डेटा के बारे में 2/3 का नियम सामान्य डेटा के लिए है। लेकिन कक्षा का डेटा स्पष्ट रूप से गैर-सामान्य है (भले ही यह छोटे नमूने के आकार के कारण सामान्यता के लिए कुछ परीक्षण पास करता है)। तालेब का उदाहरण बहुत ही भयानक है। यह एक चर के खराब संचालन का एक उदाहरण है। के रूप में लिया गया है, दोनों का मतलब है और एसडी अनंत होगा। लेकिन यह बकवास है। "तीर कितनी दूर तक जाता है" - मेरे लिए, वह दूरी है। तीर, कोई फर्क नहीं पड़ता कि कैसे निकाल दिया जाता है, कहीं न कहीं उतरेगा। वहां से दूरी को लक्ष्य तक मापें। कोई और अधिक अनन्तता नहीं।
पीटर फ्लोम -

1
हाँ, ओपी ने मुझे पहली बार देखे जाने के दौरान पर्याप्त आश्चर्यचकित किया - 1 एसडी नकारात्मक हो गया था कि मैंने एक्सेल से डेटा का उपयोग करके यूनिट परीक्षणों का एक नया सेट लिखा था, कम से कम मेरे एल्गोरिथ्म की पुष्टि करने के लिए समान मानों की गणना कर रहा था। क्योंकि एक्सेल को सिर्फ एक आधिकारिक स्रोत होना चाहिए, है ना?
एंडी डेंट

@ पेटर 2/3 नियम (68-95-99.7% नियम का हिस्सा) डेटासेट की एक विशाल विविधता के लिए अच्छा है, उनमें से कई गैर-सामान्य हैं और यहां तक ​​कि मामूली तिरछे लोगों के लिए भी। (नियम सममित डैटसेट के लिए काफी अच्छा है।) एसडी की गैर-समरूपता और माध्य नहीं हैं। " तालेब का उदाहरण उन कुछ गैर-अंतर्विरोधी स्थितियों में से एक है जहां कॉची वितरण स्पष्ट रूप से डेटा-जनरेशन प्रक्रिया को नियंत्रित करता है। एसडी की असीमता दीवार को गायब करने की संभावना से नहीं बल्कि वास्तविक हिट के वितरण से प्राप्त होती है।
whuber

1
@ मैं आपकी पहली बात से वाकिफ था, जो एक अच्छी बात है। मैं आपके दूसरे बिंदु पुनः तालेब से असहमत हूँ। यह मुझे एक और वंचित उदाहरण की तरह लगता है।
पीटर Flom - को पुनः स्थापित मोनिका

3

X

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
with α,β>0, is almost surely positive. Choose any mean m>0 and any standard deviation s>0. As long as they are positive, it does not matter if m>s or m<s. Putting α=m2/s2 and β=m/s2, the mean and standard deviation of X are E[X]=α/β=m and Var[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.