इस अंश में यह क्यों कहा गया है कि आमतौर पर मानक विचलन का निष्पक्ष आकलन प्रासंगिक नहीं है?


14

मैं मानक विचलन के निष्पक्ष अनुमान की गणना और मेरे द्वारा पढ़े गए स्रोत की गणना पर पढ़ रहा था

(...) कुछ महत्वपूर्ण स्थितियों को छोड़कर, कार्य के आँकड़ों के अनुप्रयोगों के लिए बहुत कम प्रासंगिकता है क्योंकि इसकी ज़रूरत को मानक प्रक्रियाओं से बचा जाता है, जैसे महत्व परीक्षण और आत्मविश्वास अंतराल का उपयोग, या बायेसियन विश्लेषण का उपयोग करके।

मैं सोच रहा था कि क्या कोई इस कथन के पीछे के तर्क को स्पष्ट कर सकता है, उदाहरण के लिए क्या विश्वास अंतराल गणना के भाग के रूप में मानक विचलन का उपयोग नहीं करता है? इसलिए, विश्वास अंतराल एक पक्षपाती मानक विचलन से प्रभावित नहीं होगा?

संपादित करें:

अब तक के उत्तर के लिए धन्यवाद, लेकिन मुझे यकीन नहीं है कि मैं उनके लिए कुछ तर्क का पालन करता हूं इसलिए मैं एक बहुत ही सरल उदाहरण जोड़ूंगा। मुद्दा यह है कि अगर स्रोत सही है, तो फिर मेरे निष्कर्ष से उदाहरण के लिए कुछ गलत है और मैं किसी को यह इंगित करना चाहूंगा कि पी-मान मानक विचलन पर कैसे निर्भर करता है

मान लीजिए कि एक शोधकर्ता यह परीक्षण करना चाहता है कि उसके शहर में एक परीक्षण पर पांचवें ग्रेडर का औसत स्कोर 76 के राष्ट्रीय औसत 0.05 के महत्व के स्तर से भिन्न है या नहीं। शोधकर्ता ने बेतरतीब ढंग से 20 छात्रों के अंकों का नमूना लिया। नमूना मानक 8.87 के एक नमूना मानक विचलन के साथ 80.85 था। इसका अर्थ है: t = (80.85-76) / (8.87 / sqrt (20)) = 2.44। एक टी-टेबल का उपयोग तब गणना करने के लिए किया जाता है कि 19 df के साथ 2.44 पर दो-पूंछ की संभाव्यता मान 0.025 है। यह हमारे 0.05 के महत्व स्तर से नीचे है इसलिए हम अशक्त परिकल्पना को अस्वीकार करते हैं।

इस उदाहरण में, क्या पी-वैल्यू (और शायद आपका निष्कर्ष) इस पर निर्भर नहीं करेगा कि आपने अपने नमूना मानक विचलन का अनुमान कैसे लगाया?


2
यह अजीब लगता है, जिस कारण से आप देते हैं। शायद आप हमें पैराग्राफ दे सकते हैं इससे पहले कि हम कुछ याद कर रहे हैं? एक चीज जो पूर्वाग्रह को बड़ा नहीं बनाती है वह यह है कि यह बहुत महत्वहीन हो जाता है क्योंकि नमूना का आकार बड़ा हो जाता है, और संभवतः अन्य सभी समस्याओं की तुलना में सामग्री नहीं है जैसे कि मॉडल गलत-विनिर्देश जो हमारे पास सामान्य रूप से है - लेकिन यह कारण नहीं है आपके स्रोत में दिया गया।
पीटर एलिस

1
@PeterEllis, यह वास्तव में "मानक विचलन का निष्पक्ष अनुमान" ( en.wikipedia.org/wiki/Unbiased_estimation_of_standard_dementation ) पर विकिपीडिया पृष्ठ से है ।
BYS2

जवाबों:


17

मैं इस पर Glen_b से सहमत हूं। हो सकता है कि बिंदु को और अधिक स्पष्ट करने के लिए मैं कुछ शब्द जोड़ सकूं। यदि डेटा एक अज्ञात वितरण के साथ एक सामान्य वितरण (iid स्थिति) से आता है, तो टी आँकड़ों को महत्वपूर्ण अंतराल है जो विश्वास अंतराल उत्पन्न करने और परिकल्पना परीक्षण करने के लिए उपयोग किया जाता है। केवल एक चीज जो उस निष्कर्ष के लिए मायने रखती है, वह है, अशक्त परिकल्पना (महत्वपूर्ण मूल्य निर्धारित करने के लिए) और विकल्प के तहत (शक्ति और नमूना निर्धारित करने के लिए) इसका वितरण। वे क्रमशः केंद्रीय और गैर-केंद्रीय टी वितरण हैं। अब एक पल एक नमूना समस्या के लिए विचार करते हुए, टी परीक्षण में एक सामान्य वितरण के माध्यम के लिए एक परीक्षण के रूप में इष्टतम गुण भी हैं। अब नमूना विचरण जनसंख्या विचरण का एक निष्पक्ष अनुमानक है, लेकिन इसका वर्गमूल जनसंख्या मानक विचलन का एक अनुमानित आकलनकर्ता है। यह नहीं है' टी बात यह है कि यह द्विआधारी अनुमानक मूल मात्रा के हर में प्रवेश करता है। अब यह एक भूमिका निभाता है कि यह एक सुसंगत अनुमानक है। यही कारण है कि टी वितरण मानक को सामान्य दृष्टिकोण करने की अनुमति देता है क्योंकि नमूना आकार अनन्तता में जाता है। लेकिन किसी भी निश्चित के लिए पक्षपाती होना परीक्षण के अच्छे गुणों को प्रभावित नहीं करता है।n

मेरी राय में निष्पक्षता सांख्यिकी वर्गों में अधिकता से अधिक है। सटीकता और आकलनकर्ताओं की निरंतरता वास्तविक गुण हैं जो जोर देने योग्य हैं।

अन्य समस्याओं के लिए जहां पैरामीट्रिक या गैरपारंपरिक तरीके लागू किए जाते हैं, मानक विचलन का एक अनुमान भी सूत्र में दर्ज नहीं होता है।


7
यह अनुमान पर निर्भर करता है लेकिन केवल एक ही अनुमान है जिसके लिए स्वतंत्रता की 19 डिग्री के साथ टी लागू होती है और यह अनुमान नमूना विचरण के सामान्य अनुमान का वर्गमूल है। यदि आप मानक विचलन के एक अलग अनुमान का उपयोग करते हैं तो आपके पास अशक्त परिकल्पना के तहत परीक्षण सांख्यिकीय के लिए एक अलग संदर्भ वितरण है। यह टी नहीं है।
माइकल आर। चेरिक जूल

2
@ BYS2: ध्यान दें कि आपके द्वारा दिए गए उदाहरण में निर्मित अंतराल के संदर्भ में, नमूना मानक विचलन को एक स्केल फैक्टर से गुणा करके कुछ भी नहीं बदलता है (उदाहरण के लिए, इसे निष्पक्ष बनाने के लिए)। इस मामले में परीक्षण सांख्यिकीय का वितरण (थोड़ा) बदल जाएगा, लेकिन CI का निर्माण बिल्कुल उसी तरह होगा! अब, यदि आपने कुछ "सुधार" किए जो कि स्वयं डेटा पर निर्भर थे, तो इससे कुछ अलग (सामान्य) होगा। ग्लेन के उत्तर के तहत मेरी टिप्पणी देखें।
कार्डिनल

4
@ BYS2: सामान्य मॉडल के मामले में -statistic का उपयोग करते हुए, CI और p -value के बीच एक अच्छा पत्राचार होता है । तो, यदि आप एक ज्ञात स्थिरांक द्वारा नमूना मानक विचलन को "पुनर्विक्रय" करते हैं , तो पी- पॉवेल नहीं बदलेगा। Let: उदाहरण के लिए ~ टी बी = ( ˉ एक्स - μ ) / ( σ ) = टी / b तय के लिए > 0 । फिर, पी ( ~ टी बी > यू टी > यूtppT~b=(X¯μ)/(bσ^)=T/bb>0 और इतने महत्वपूर्ण मान ~ टी बी , α = टी α , यानी, उन दोनों के बीच एक एक-से-एक पत्राचार है। क्या इसका कोई मतलब है?
P(T~b>u)=P(T>bu)
t~b,α=btα
कार्डिनल

1
कोई भी कार्डिनल सही ढंग से इंगित नहीं करता है कि मानक विचलन के एक अलग अनुमान का अनिवार्य रूप से उपयोग करने के लिए एक निरंतर द्वारा टी सांख्यिकीय को गुणा करना संभव है। परीक्षण आँकड़ा का अब वितरण नहीं है। यह स्थिरांक के कारण थोड़ा अलग वितरण है। माध्य b के कारक से बदल जाता है और इसी तरह मानक विचलन होता है। जब आप परीक्षण सांख्यिकीय के लिए महत्वपूर्ण मूल्य की गणना के बारे में जाते हैं तो यह उचित रूप से बदलता है जैसा कि वह ऊपर प्रदर्शित करता है।
माइकल आर। चेर्निक

1
@ BYS2 हां यह सही है।
माइकल आर। चेरिक जूल

5

एक टी-स्टेटिस्टिक की तरह, एक निर्णायक मात्रा के आधार पर गणना की गई अंतराल पर विचार करें। मानक विचलन के लिए अनुमानक का औसत मूल्य वास्तव में इसमें नहीं आता है - अंतराल सांख्यिकीय के वितरण पर आधारित है। इसलिए यह कथन जहां तक ​​जाता है, सही है।


1
हां, लेकिन क्या सांख्यिकीय का वितरण उसके मानक विचलन पर निर्भर नहीं करता है जो ज्यादातर मामलों में अज्ञात है इसलिए आपको एक अनुमानक का उपयोग करने की आवश्यकता है?
BYS2

4
(+1) ग्लेन। @ BYS2: यहां कुछ प्रमुख बिंदु हैं। सबसे पहले, यदि हमारे पास एक महत्वपूर्ण मात्रा है, तो यह आत्मविश्वास सेट बनाने के लिए एक बहुत ही सुविधाजनक साधन प्रदान करता है, लेकिन वे अक्सर मौजूद नहीं होते हैं। एक महत्वपूर्ण मात्रा का संपूर्ण बिंदु यह है कि वितरण विशुद्ध रूप से ज्ञात मात्रा पर निर्भर करता है । दूसरा, महत्वपूर्ण मात्रा अंतर्निहित मॉडल से आंतरिक रूप से जुड़ी होती है। यदि डेटा ग्रहण किए गए मॉडल से विचलित होता है, तो परीक्षण आँकड़ा का वितरण भी हो सकता है और एक महत्वपूर्ण मात्रा के रूप में इसका लक्षण वर्णन उतना प्रासंगिक नहीं हो सकता है। :)
कार्डिनल

4

व्याख्या हमेशा हिस्सा अटकलें हैं, लेकिन मुझे लगता है कि निहित अर्थ यह है कि अक्सर आप मानक विचलन का आकलन किए बिना इच्छित परिणाम प्राप्त कर सकते हैं। दूसरे शब्दों में, मुझे लगता है कि लेखक उन स्थितियों का उल्लेख कर रहा है जहां आप पक्षपाती अनुमान के बजाय मानक विचलन का कोई अनुमान नहीं लगाते हैं।

उदाहरण के लिए, यदि आप एक संपूर्ण वितरण के अनुमान का निर्माण कर सकते हैं, तो आप मानक विचलन का उपयोग किए बिना आत्मविश्वास अंतराल की गणना कर सकते हैं। वास्तव में, कई (गैर-सामान्य) के लिए मानक विचलन स्वयं वितरित करता है (और मतलब) आत्मविश्वास अंतराल के अनुमान की गणना करने के लिए पर्याप्त नहीं है। अन्य मामलों में, जैसे कि एक संकेत परीक्षण , आपको मानक विचलन के लिए एक अनुमान की आवश्यकता नहीं है।

(बेशक, पूर्ण वितरण के निष्पक्ष अनुमान का निर्माण करना गैर-तुच्छ है , और बायेसियन आंकड़ों में पूर्वाग्रह को स्पष्ट रूप से पूर्व के माध्यम से पेश करना काफी सामान्य है।)


1
अंतिम पैराग्राफ से आपके लिए जो कुछ मतलब था, उस पर पूरी तरह से विस्तार करना दिलचस्प हो सकता है। उदाहरण के लिए, यदि मैं हाथ में सांख्यिकीय के वितरण से नमूना कर सकता हूं, तो अनुभवजन्य सीएफडी वितरण फ़ंक्शन के एक निष्पक्ष निष्पक्ष अनुमान पैदा करने के लिए एक बहुत आसान, सरल साधन प्रदान करता है। :)
कार्डिनल

1
@cardinal True, but this assumes that you can sample from the distribution of the statistic. This is not always possible. For instance, consider the statistic maxiXi. It turns out it is impossible to construct an unbiased estimator for maxiXi, even if we can obtain unbiased samples for each Xi.
MLS

1
To be clear: Xi is just a random variable, and I assumed that i can take at least 2 different values (i.e., there are at least two variables). Otherwise, unbiased estimates for maxiXi are not so hard to construct :)
MLS

2
This is true and close to the point I was trying to draw out. The first sentence of the last paragraph is referring to constructing an unbiased estimate of a nonlinear statistical functional from, e.g., a single random sample. This is quite different from constructing an unbiased estimate of a full distribution from a random sample of the function itself. :-)
cardinal
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.