मानक त्रुटि और मानक विचलन के बीच अंतर


96

मैं मानक त्रुटि और मानक विचलन के बीच अंतर को समझने के लिए संघर्ष कर रहा हूं। वे कैसे भिन्न हैं और आपको मानक त्रुटि को मापने की आवश्यकता क्यों है?


7
एक त्वरित टिप्पणी, एक उत्तर नहीं क्योंकि दो उपयोगी पहले से मौजूद हैं: मानक विचलन यादृच्छिक चर (ओं) के वितरण (वितरण) की एक संपत्ति है। इसके बजाय मानक त्रुटि एक विशिष्ट नमूने पर माप से संबंधित है। ब्रह्मांड और आपके नमूने के बीच अंतर को धुंधला करने पर दोनों भ्रमित हो सकते हैं।
फ्रांसेस्को

जवाबों:


31

प्रश्न के उत्तर को पूरा करने के लिए, ओकराम ने मानक त्रुटि को संबोधित किया, लेकिन इसे मानक विचलन के विपरीत नहीं किया और नमूना आकार पर निर्भरता का उल्लेख नहीं किया। अनुमानक के लिए एक विशेष मामले के रूप में नमूना माध्य पर विचार करें। माध्य के लिए मानक त्रुटि जहाँσ/nσजनसंख्या मानक विचलन है। इसलिए इस उदाहरण में हम स्पष्ट रूप से देखते हैं कि नमूना आकार बढ़ने के साथ मानक त्रुटि कैसे घट जाती है। मानक विचलन का उपयोग अक्सर व्यक्तिगत टिप्पणियों को संदर्भित करने के लिए किया जाता है। इसलिए मानक विचलन व्यक्तिगत टिप्पणियों की परिवर्तनशीलता का वर्णन करता है जबकि मानक त्रुटि अनुमानक की परिवर्तनशीलता दिखाती है। अच्छे आकलनकर्ता सुसंगत हैं जिसका अर्थ है कि वे वास्तविक पैरामीटर मान में परिवर्तित होते हैं। जब उनकी मानक त्रुटि घटकर 0 हो जाती है क्योंकि नमूना आकार बढ़ जाता है तो अनुमानक सुसंगत हो जाते हैं जो ज्यादातर मामलों में होता है क्योंकि मानक त्रुटि 0 पर जाती है जैसा कि हम नमूना मतलब के साथ स्पष्ट रूप से देखते हैं।


3
पुन: "... सुसंगत जिसका अर्थ है कि उनकी मानक त्रुटि 0 तक घट जाती है" - यह सच नहीं है। क्या आपको यह चर्चा याद है: आंकड़े . stackexchange.com/questions/31036/… ?
मैक्रो

1
हां, मुझे असामान्य अपवादों की चर्चा याद है और जब मैंने सवाल का जवाब दिया तो मैं इसके बारे में सोच रहा था। लेकिन सवाल मानक त्रुटियों के बारे में था और सरलीकृत शब्दों में अच्छा पैरामीटर अनुमान संगत है और उनके मानक त्रुटियां 0 तक होती हैं जैसा कि नमूना माध्य के मामले में होता है।
माइकल चेरिक जूल 15'12

4
मैं आपकी टिप्पणी से सहमत हूं - नमूना माध्य मानक त्रुटि 0 पर जाता है और नमूना माध्य सुसंगत है। लेकिन इसकी मानक त्रुटि शून्य होने का परिणाम (या इसके बराबर) इस तथ्य के अनुरूप नहीं है कि यह सुसंगत है, जो कि आपका उत्तर कहता है।
मैक्रों

3
@ मैक्रो जवाब में सुधार किया जा सकता है जो मैंने करने का फैसला किया। मुझे लगता है कि ओपी के साथ बहुत तकनीकी नहीं होना महत्वपूर्ण है क्योंकि योग्यता के अनुसार सब कुछ जटिल और भ्रमित हो सकता है। लेकिन सादगी के लिए तकनीकी सटीकता का बलिदान नहीं किया जाना चाहिए। इसलिए मुझे लगता है कि जिस तरह से मैंने अपने संपादन में इसे संबोधित किया है वह ऐसा करने का सबसे अच्छा तरीका है।
माइकल चेरिक

9
मैं मानता हूं कि जब तक बिल्कुल जरूरी न हो तकनीकी महत्वपूर्ण नहीं है। मेरी एकमात्र टिप्पणी यह ​​थी कि, एक बार जब आप पहले से ही सुसंगतता की अवधारणा (एक तकनीकी अवधारणा) का चयन कर लेते हैं, तो उत्तर को समझने में आसान बनाने के नाम पर इसका गलत उपयोग करने में कोई फायदा नहीं है। मुझे लगता है कि आपका संपादन मेरी टिप्पणियों को संबोधित करता है।
मैक्रों

51

यहाँ एक और अधिक व्यावहारिक (और गणितीय नहीं) उत्तर है:

  • एसडी (मानक विचलन) बिखराव की मात्रा निर्धारित करता है - मान एक दूसरे से कितना भिन्न होता है।
  • एसईएम (माध्य की मानक त्रुटि) यह निर्धारित करती है कि आप जनसंख्या के सही अर्थ को कितनी सही तरह से जानते हैं। इसमें एसडी और सैंपल साइज दोनों का ध्यान रखा जाता है।
  • एसडी और एसईएम दोनों एक ही इकाइयों में हैं - डेटा की इकाइयाँ।
  • एसईएम, परिभाषा के अनुसार, एसडी से हमेशा छोटा होता है।
  • आपके नमूने बड़े होने पर SEM छोटा हो जाता है। यह समझ में आता है, क्योंकि एक बड़े नमूने का मतलब एक छोटे नमूने के मतलब की तुलना में वास्तविक आबादी के करीब होने की संभावना है। एक विशाल नमूने के साथ, आप बहुत अधिक सटीकता के साथ माध्य के मूल्य को जान पाएंगे, भले ही डेटा बहुत बिखरे हुए हों।
  • जब आप अधिक डेटा प्राप्त करते हैं तो SD अनुमानित रूप से नहीं बदलता है। एक नमूने से आप जिस एसडी की गणना करते हैं, वह समग्र आबादी के एसडी का सबसे अच्छा संभावित अनुमान है। जैसे ही आप अधिक डेटा एकत्र करते हैं, आप अधिक सटीकता के साथ जनसंख्या के एसडी का आकलन करेंगे। लेकिन आप अनुमान नहीं लगा सकते हैं कि एक बड़े नमूने से एसडी एक छोटे नमूने से एसडी से बड़ा या छोटा होगा। (यह एक सरलीकरण है, बिल्कुल सच नहीं है। नीचे टिप्पणी देखें।)

ध्यान दें कि मानक त्रुटियां लगभग किसी भी पैरामीटर के लिए गणना की जा सकती हैं जो आप डेटा से गणना करते हैं, न कि केवल मतलब। वाक्यांश "मानक त्रुटि" थोड़ा अस्पष्ट है। ऊपर दिए गए बिंदु केवल माध्य की मानक त्रुटि को संदर्भित करते हैं।

( ग्राफपैड स्टेटिस्टिक्स गाइड से जो मैंने लिखा था।)


11
+1 स्पष्ट, उपयोगी सलाह के लिए। लेकिन कुछ स्पष्टीकरण क्रम में हैं, जिनमें से सबसे महत्वपूर्ण आखिरी गोली के लिए जाता है: मैं आपको एक एसडी भविष्यवाणी खेल को चुनौती देना चाहूंगा। हम एक सामान्य वितरण के iid नमूनों के एसडी का निरीक्षण करते हैं । मैं भविष्यवाणी करूंगा कि क्या SD नमूनों के बाद उच्च या निम्न होने जा रहा है , कहते हैं। यदि आप सही हैं तो आप मुझे एक डॉलर का भुगतान करें, अन्यथा मैं आपको एक डॉलर का भुगतान करता हूं। (! सही खेलने के साथ - जो मैं तुम्हें यह पता लगाने के लिए आमंत्रित करते - इस खेल की उम्मीद मेरे लिए सकारात्मक है, के बारे में के रूप में उच्च हो रही है डॉलर जब ।)n100n.18n=2
whuber

4
@ दर्शक: बेशक आप सही हैं। यह भिन्नता (SD वर्ग) है जो आपके द्वारा अधिक डेटा जोड़ने पर अनुमानित रूप से परिवर्तित नहीं होगी। नमूना आकार बढ़ने पर SD थोड़ा बड़ा हो जाएगा, खासकर जब आप छोटे नमूनों से शुरू करते हैं। नमूना परिवर्तन के रूप में SEM में परिवर्तन की तुलना में यह परिवर्तन छोटा है।
हार्वे मोटुलस्की

@ हर्वेमोतुलस्की: एसडी क्यों बढ़ता है?
एंड्रयू

बड़े नमूनों के साथ, नमूना विचरण जनसंख्या विचरण के काफी करीब होगा, इसलिए नमूना एसडी जनसंख्या एसडी के करीब होगा। छोटे नमूनों के साथ, नमूना प्रसरण औसत रूप से जनसंख्या के विचरण के बराबर होगा, लेकिन विसंगतियां अधिक बड़ी होंगी। यदि रूपांतरों के रूप में सममित है, तो वे एसडी के रूप में विषम होंगे। उदाहरण: जनसंख्या भिन्नता 100 है। दो नमूना संस्करण 80 या 120 (सममित) हैं। नमूना SD 10 का होना चाहिए, लेकिन 8.94 या 10.95 होगा। औसत
संस्करण

43

Let आपकी रुचि का पैरामीटर है, जिसके लिए आप अनुमान लगाना चाहते हैं। ऐसा करने के लिए, आपके पास , अनुमान प्राप्त करने के लिए कुछ तकनीक के साथ-साथ टिप्पणियों का एक नमूना उपलब्ध है । इस अंकन में, मैंने स्पष्ट किया है कि पर निर्भर करता है । वास्तव में, यदि आपके पास एक और नमूना था, , तो आप किसी अन्य अनुमान, साथ समाप्त हो जाते । यह एक यादृच्छिक चर का अहसास कराता है जिसे मैं दर्शाता हूं।θx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^। इस यादृच्छिक चर को एक अनुमानक कहा जाता है। मानक त्रुटि की (= अनुमान) है मानक विचलन की (= यादृच्छिक चर)। इसमें यह जानकारी होती है कि आप अपने अनुमान के बारे में कितने आश्वस्त हैं। यदि यह बड़ा है, तो इसका मतलब है कि अगर आप एक और नमूना तैयार कर चुके होते तो आप बिलकुल अलग अनुमान प्राप्त कर सकते थे। मानक अंतराल का उपयोग विश्वास अंतराल के निर्माण के लिए किया जाता है।θ^(x)θ^


1
क्या अनुमान की मानक त्रुटि अनुमानित चर के मानक विचलन के बराबर है?
यूरी

6

(ध्यान दें कि मैं माध्य की मानक त्रुटि पर ध्यान केंद्रित कर रहा हूं, जो मुझे विश्वास है कि प्रश्नकर्ता भी था, लेकिन आप किसी भी नमूने के लिए एक मानक त्रुटि उत्पन्न कर सकते हैं)

मानक त्रुटि मानक विचलन से संबंधित है लेकिन वे एक ही चीज नहीं हैं और नमूना आकार में वृद्धि उन्हें एक साथ करीब नहीं बनाती है। बल्कि, यह उन्हें अलग बनाता है। नमूना का मानक विचलन जनसंख्या मानक विचलन के करीब हो जाता है क्योंकि नमूना आकार बढ़ता है लेकिन मानक त्रुटि नहीं।

कभी-कभी आस-पास की शब्दावली थोड़ी मोटी हो जाती है।

जब आप एक नमूना इकट्ठा करते हैं और उस नमूने के मानक विचलन की गणना करते हैं, तो नमूना आकार में बढ़ता है मानक विचलन का अनुमान अधिक से अधिक सटीक होता है। यह आपके प्रश्न से लगता है कि आप क्या सोच रहे थे। लेकिन यह भी विचार करें कि नमूना का मतलब औसत पर आबादी के करीब होने का मतलब है। मानक त्रुटि को समझने के लिए यह महत्वपूर्ण है।

मानक त्रुटि इस बारे में है कि यदि आपको किसी दिए गए आकार के कई नमूने मिले तो क्या होगा। यदि आप 10 का नमूना लेते हैं तो आप माध्य का कुछ अनुमान लगा सकते हैं। फिर आप 10 और नए माध्य अनुमान का एक और नमूना लेते हैं, और इसी तरह। उन नमूनों के साधनों का मानक विचलन मानक त्रुटि है। यह देखते हुए कि आपने अपना प्रश्न प्रस्तुत किया है, अब आप शायद यह देख सकते हैं कि यदि N अधिक है, तो मानक त्रुटि छोटी है, क्योंकि नमूनों के साधनों का वास्तविक मूल्य से बहुत अधिक विचलन होने की संभावना कम होगी।

कुछ के लिए जो चमत्कारिक लगता है कि आपने एक नमूने से यह गणना की है। इसलिए, आप क्या कर सकते हैं रिश्ते को प्रदर्शित करने के लिए सिमुलेशन के माध्यम से एक मानक त्रुटि बूटस्ट्रैप है। R में ऐसा दिखेगा:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

आप पाएंगे कि पिछले दो कमांड एक ही नंबर (लगभग) उत्पन्न करते हैं। आप n, m और s मानों को अलग-अलग कर सकते हैं और वे हमेशा एक दूसरे के बहुत करीब आएंगे।


मुझे यह वास्तव में उपयोगी लगा, पोस्ट करने के लिए धन्यवाद। क्या तब मानक त्रुटि को "नमूना वितरण के मानक विचलन" के रूप में वर्णित करना उचित होगा? नमूना वितरण आपके कोड ब्लॉक में y ऊपर है? यह मुझे भ्रमित करता है, नमूना मापदंडों एसडी और नमूना वितरण मापदंडों के साथ मतलब है।
डॉग फर

1
यदि आप इस मामले के लिए नमूना साधन निर्दिष्ट करने के लिए अपना शब्द बदल देते हैं, तो हाँ।
जॉन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.