क्यों जब हमारे पास गैर-सामान्य रूप से वितरित त्रुटियां हैं, तो हमारे महत्व के बयानों की वैधता से समझौता किया जाता है? आत्मविश्वास अंतराल बहुत चौड़ा या संकीर्ण क्यों होगा?
विश्वास अंतराल इस तरह से आधारित है कि अंश और हर को एक टी-स्टेटिस्टिक में वितरित किया जाता है।
सामान्य डेटा के साथ एक टी-स्टेटिस्टिक के अंश का सामान्य वितरण होता है और भाजक के वर्ग का वितरण (जो तब एक विचरण होता है) एक विशेष रूप से कई चि-वर्गीय वितरण होता है। जब अंश और भाजक भी स्वतंत्र होते हैं (जैसा कि केवल सामान्य डेटा के मामले में होगा, यह देखते हुए कि अवलोकन स्वयं स्वतंत्र हैं), पूरे आंकड़े का एक टी-वितरण है।
इसका मतलब यह है कि एक t-आँकड़ा जैसे एक महत्वपूर्ण मात्रा होगी (इसका वितरण इस बात पर निर्भर नहीं करता है कि सही ढलान गुणांक क्या है, और यह अज्ञात का एक कार्य है ), जो इसे आत्मविश्वास अंतराल के निर्माण के लिए उपयुक्त बनाता है ... और ये अंतराल तब वांछित निर्माण प्राप्त करने के लिए अपने निर्माण में -क्वांटाइल्स का उपयोग करेंगे ।β^−βsβ^βt
यदि डेटा कुछ अन्य वितरण से थे, तो आंकड़े का वितरण नहीं होगा। उदाहरण के लिए, यदि यह भारी पूंछ वाला होता है, तो टी-डिस्ट्रीब्यूशन थोड़ा हल्का टेल्ड होता है (आउटलाइंग अवलोकनों को अंश से अधिक हर को प्रभावित करता है)। यहाँ एक उदाहरण है। दोनों मामलों में, हिस्टोग्राम 10,000 प्रतिगमन के लिए है:
बाईं ओर हिस्टोग्राम तब होता है जब डेटा सशर्त रूप से सामान्य होते हैं, n = 30 (और इस मामले में, जहां )। वितरण जैसा दिखता है वैसा ही होना चाहिए। दाईं ओर का हिस्टोग्राम उस स्थिति के लिए है जब सशर्त वितरण सही तिरछा और भारी-पूंछ वाला होता है, और हिस्टोग्राम बाहर बहुत कम मान दिखाता है - वितरण सामान्य डेटा के लिए सैद्धांतिक वितरण की तरह नहीं है क्योंकि सांख्यिकी में अब वितरण नहीं है।β=0(−2,2)
एक 95% टी-अंतराल (जिसमें हमारे नमूने में 95% ढलान शामिल होना चाहिए) -2.048 से 2.048 तक चलता है। सामान्य डेटा के लिए, इसमें वास्तव में 10000 नमूना ढलानों का 95.15% शामिल था। तिरछे डेटा के लिए इसमें 99.91% शामिल हैं।