सुना [...] कि अवशिष्ट के एक उच्च सकारात्मक कर्टोसिस सटीक परिकल्पना परीक्षण और आत्मविश्वास अंतराल (और इसलिए सांख्यिकीय अनुमान के साथ समस्याओं) के लिए समस्याग्रस्त हो सकता है। क्या यह सच है और, यदि हां, तो क्यों?
कुछ प्रकार की परिकल्पना परीक्षण के लिए, यह सच है।
क्या अवशिष्टों के उच्च धनात्मक कर्टोसिस यह संकेत नहीं देते हैं कि अवशिष्ट के अधिकांश भाग अवशिष्ट 0 के निकट हैं और इसलिए कम बड़े अवशिष्ट मौजूद हैं?
नहीं।
ऐसा लगता है कि आप कर्टोसिस के साथ विचरण की अवधारणा को स्वीकार कर रहे हैं। यदि विचरण छोटा था, तो अधिक छोटे अवशिष्टों और कम बड़े अवशिष्टों की प्रवृत्ति एक साथ आएगी। कल्पना करें कि हम कर्टोसिस को बदलते समय मानक विचलन को लगातार बनाए रखते हैं (इसलिए हम निश्चित रूप से विचलन के बजाय कुर्तोसिस में परिवर्तन के बारे में बात कर रहे हैं)।
विभिन्न भिन्नताओं की तुलना करें (लेकिन एक ही कुर्तोसिस):
अलग-अलग कुर्तोसिस के साथ लेकिन एक ही रूपांतर:
( इस पोस्ट से चित्र )
एक उच्च कर्टोसिस कई मामलों में माध्य से अधिक छोटे विचलन के साथ जुड़ा हुआ है - सामान्य वितरण के साथ आपको मिलने वाले अधिक छोटे अवशिष्ट .. लेकिन एक ही मूल्य पर मानक विचलन रखने के लिए, हमारे पास और भी होना चाहिए बड़े अवशिष्ट (क्योंकि अधिक छोटे अवशिष्ट होने से माध्य छोटे से विशिष्ट दूरी बना लेते हैं)। दोनों बड़े अवशेषों और छोटे अवशेषों में से अधिक प्राप्त करने के लिए, आपके पास कम "विशिष्ट आकार" के अवशेष होंगे - जो कि औसत मानक विचलन के बारे में हैं।‡
‡ यह इस बात पर निर्भर करता है कि आप " " को कैसे परिभाषित करते हैं; आप बस बहुत से बड़े अवशेषों को नहीं जोड़ सकते हैं और विचरण को स्थिर रख सकते हैं, आपको इसकी भरपाई के लिए कुछ चाहिए - लेकिन "छोटे" के कुछ दिए गए उपाय के लिए आप उस विशेष उपाय को बढ़ाए बिना कुर्तियों को बढ़ाने के तरीके पा सकते हैं। (उदाहरण के लिए, उच्च कर्टोसिस अपने आप ही उच्च शिखर का मतलब नहीं रखता है)
जब आप विचरण स्थिरांक रखते हैं, तो उच्च कर्टोसिस अधिक बड़े अवशिष्टों के साथ जाता है।
[आगे, कुछ मामलों में, छोटे अवशिष्टों की सांद्रता वास्तव में सबसे बड़े अवशिष्टों के अतिरिक्त अंश से अधिक समस्या का कारण बन सकती है - यह इस बात पर निर्भर करता है कि आप किन चीजों को देख रहे हैं।]
वैसे भी, आइए एक उदाहरण देखें। एक-नमूना टी-परीक्षण और 10 के एक नमूना आकार पर विचार करें।
यदि हम शून्य परिकल्पना को अस्वीकार करते हैं, जब टी-स्टेटिस्टिक का निरपेक्ष मूल्य 2.262 से बड़ा है, तो जब अवलोकन स्वतंत्र होते हैं, तो सामान्य रूप से सामान्य वितरण से वितरित किया जाता है, और परिकल्पित माध्य वास्तविक जनसंख्या का मतलब है, हम शून्य को अस्वीकार कर देंगे। 5% समय की परिकल्पना।
सामान्य से काफी अधिक कर्टोसिस के साथ एक विशेष वितरण पर विचार करें: हमारी आबादी के 75% में उनके मूल्य एक सामान्य वितरण से खींचे गए हैं और शेष 25% में मानक मान विचलन के साथ सामान्य वितरण से उनके मूल्य 50 गुना बड़े हैं।
यदि मैंने सही गणना की है, तो यह 12 के कुर्तोसिस (9 के अतिरिक्त कुर्तोसिस) से मेल खाती है। परिणामस्वरूप वितरण सामान्य की तुलना में बहुत अधिक है और भारी पूंछ है। घनत्व की तुलना नीचे सामान्य घनत्व से की जाती है - आप उच्च शिखर को देख सकते हैं, लेकिन आप वास्तव में बाईं छवि में भारी पूंछ नहीं देख सकते हैं, इसलिए मैंने घनत्वों के लघुगणक को भी प्लॉट किया है, जो नीचे के निचले हिस्से को फैलाता है छवि और शीर्ष को संपीड़ित करता है, जिससे चोटी और पूंछ दोनों को देखना आसान हो जाता है।
वास्तविक इस वितरण के लिए महत्व स्तर यदि आप के साथ एक "5%" एक नमूना टी परीक्षण बाहर ले जाने के 0.9% नीचे है। यह बहुत नाटकीय है, और बिजली की वक्र को काफी हद तक नीचे खींचता है।n=10
(आपको आत्मविश्वास अंतराल के कवरेज पर भी काफी प्रभाव दिखाई देगा।)
ध्यान दें कि समान कुर्तोसिस के साथ एक अलग वितरण का महत्व स्तर पर एक अलग प्रभाव पड़ेगा।
तो अस्वीकृति दर नीचे क्यों जाती है? इसका कारण यह है कि भारी पूंछ कुछ बड़े आउटलेर्स की ओर ले जाती है, जो कि मानक विचलन पर थोड़ा बड़ा प्रभाव डालती है, जितना कि इसका मतलब है; यह टी-स्टेटिस्टिक को प्रभावित करता है क्योंकि यह -1 और 1 के बीच अधिक टी-वैल्यू की ओर जाता है, इस प्रक्रिया में महत्वपूर्ण क्षेत्र में मूल्यों के अनुपात को कम करता है।
यदि आप एक नमूना लेते हैं जो एक सामान्य वितरण से आने के साथ बहुत सुसंगत दिखता है, जिसका अर्थ केवल परिकल्पित अर्थ से काफी ऊपर है, तो यह महत्वपूर्ण है, और फिर आप अवलोकन को ऊपर से मतलब के ऊपर ले जाते हैं और इसे और भी दूर खींचते हैं (अर्थात, माध्य को से भी बड़ा बनाते हैं ), आप वास्तव में टी-स्टेटिस्टिक को छोटा बनाते हैं ।H0
चलो मैं तुम्हें दिखाता हूँ। यहाँ 10 आकार का एक नमूना है:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
कल्पना करें कि हम इसे (एक-नमूना-परीक्षण) के विरुद्ध परीक्षण करना चाहते हैं । यह पता चला है कि यहां नमूना का मतलब 2.68 है और नमूना मानक विचलन 0.9424 है। आपको 2.282 का टी-स्टेटिस्टिक मिलता है - केवल 5% परीक्षण (0.0484 का पी-मूल्य) के लिए अस्वीकृति क्षेत्र में।H0:μ=2
अब उस सबसे बड़े मान को 50 करें:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
स्पष्ट रूप से हम माध्य को ऊपर खींचते हैं, इसलिए इसे पहले की तुलना में अधिक अंतर का संकेत देना चाहिए, है ना? खैर, नहीं, यह नहीं है। टी-स्टेटिस्टिक नीचे जाता है । यह अब 1.106 है, और पी-मूल्य काफी बड़ा है (30% के करीब)। क्या हुआ? ठीक है, हमने माध्य (7.257 तक) खींच लिया, लेकिन मानक विचलन 15 से अधिक था।
मानक विचलन, आउटलेर्स की तुलना में थोड़ा अधिक संवेदनशील होते हैं - जब आप एक आउटलेयर में डालते हैं, तो आप एक-नमूना टी-स्टेटिस्टिक को 1 या -1 की ओर धकेलते हैं।
यदि कई बाहरी लोगों का मौका होता है, तो बहुत कुछ ऐसा ही होता है, जो कभी-कभी विपरीत दिशाओं में भी हो सकते हैं (जिस स्थिति में मानक विचलन और भी अधिक बढ़ जाता है, जबकि माध्य पर प्रभाव एक बाह्य की तुलना में कम हो जाता है), इसलिए टी-स्टेटिस्टिक 0 के करीब जाने के लिए जाता है।
इसी तरह का सामान कई अन्य सामान्य परीक्षणों के साथ चलता है जो सामान्यता का अनुमान लगाते हैं - उच्च कर्टोसिस भारी पूंछ के साथ जुड़ा हुआ है, जिसका अर्थ है कि अधिक आउटलेयर, जिसका अर्थ है कि मानक विचलन साधनों के सापेक्ष फुलाया जाता है और इसलिए मतभेद आप उठाते हैं। परीक्षण पर आउटलेर के प्रभाव से "दलदली" पाने के लिए। यानी कम बिजली।