रैखिक प्रतिगमन में छात्र या सामान्य वितरण का उपयोग कब करें?


10

मैं कुछ समस्याओं को देख रहा हूं, और कुछ में, गुणांक का परीक्षण करने के लिए, कभी-कभी मैं छात्रों को वितरण का उपयोग करते हुए देखता हूं, और कभी-कभी मैं सामान्य वितरण देखता हूं। नियम क्या है?


3
यह एक उत्तर नहीं है, लेकिन ध्यान दें कि -distribution सामान्य वितरण के दृष्टिकोण के रूप में डिग्री-ऑफ-फ्रीडम पैरामीटर बड़ा होता है। पिछले , विशेष रूप से अधिकांश परिकल्पना-परीक्षण रूपरेखाओं में कोई सराहनीय अंतर नहीं है। सीमित व्यवहार "ऊपर से" इस अर्थ में है कि यदि और , तोकी तुलना में बहुत बड़ा है। ν ν 30 टी ~ टी ν जेड ~ एन ( 0 , 1 ) | टी |tνν30TtνZN(0,1)|T||Z|
कार्डिनल

जवाबों:


15

सामान्य वितरण कई सार्थक सांख्यिकीय समस्याओं में बड़ा नमूना वितरण है जिसमें केंद्रीय सीमा प्रमेय के कुछ संस्करण शामिल हैं: आपके पास (लगभग) जानकारी के स्वतंत्र टुकड़े हैं जिन्हें उत्तर में आने के लिए जोड़ा जा रहा है। यदि पैरामीटर अनुमान asymptotically सामान्य हैं, तो उनके कार्य भी asymptotically सामान्य (नियमित मामलों में) होंगे।

दूसरी ओर, छात्र वितरण आईआईडी सामान्य प्रतिगमन त्रुटियों की अधिक प्रतिबंधात्मक स्थितियों के तहत लिया गया है। यदि आप इस धारणा को खरीद सकते हैं, तो आप रैखिक प्रतिगमन में परिकल्पना के परीक्षण के लिए इस्तेमाल किए जा रहे डिडिएशन को खरीद सकते हैं । इस वितरण का उपयोग सामान्य वितरण के उपयोग की तुलना में व्यापक आत्मविश्वास अंतराल प्रदान करता है। इसका वास्तविक अर्थ यह है कि छोटे नमूनों में, आपको अनिश्चितता के अपने माप, प्रतिगमन मतलब चुकता त्रुटि या अवशिष्ट के मानक विचलन, का अनुमान लगाने की आवश्यकता है । (बड़े नमूनों में, आपके पास बहुत सी जानकारी है जैसे कि आप इसे जानते हैं, इसलिए डिडिएशन सामान्य वितरण को कम करता है।)टी σ टीttσt

परिमित नमूनों के साथ भी कुछ अवसर रैखिक प्रतिगमन में होते हैं, जहाँ छात्र वितरण को उचित नहीं ठहराया जा सकता है। वे प्रतिगमन त्रुटियों पर दूसरे आदेश की शर्तों के उल्लंघन से संबंधित हैं; अर्थात्, वे (1) निरंतर विचरण, और (2) स्वतंत्र हैं। यदि इन मान्यताओं का उल्लंघन किया जाता है, और आप हेटेरोसेडस्टिक के लिए इकर / श्वेत आकलनक का उपयोग करके अपनी मानक त्रुटियों को ठीक करते हैं , लेकिन स्वतंत्र अवशिष्ट; या क्रमिक रूप से सहसंबद्ध त्रुटियों के लिए न्यूए-वेस्ट अनुमानक, या मानक त्रुटियां क्लस्टर्डक्लस्टर-सहसंबद्ध डेटा के लिए, ऐसा कोई तरीका नहीं है जिससे आप छात्र वितरण के लिए उचित औचित्य को खींच सकें। हालांकि, स्पर्शोन्मुख सामान्यता तर्क (अनुगामी सरणियों और इस तरह) के एक उपयुक्त संस्करण को नियोजित करके, आप सामान्य सन्निकटन को सही ठहरा सकते हैं (हालांकि आपको ध्यान में रखना चाहिए कि आपका आत्मविश्वास अंतराल बहुत कम हो जाएगा)।


1
(+1) मुझे निहितार्थ पसंद है, तीसरे पैराग्राफ के उद्घाटन में, अनंत (गैर- "परिमित") नमूनों के साथ रैखिक प्रतिगमन किया जाता है!
whuber

@whuber: :) मेरी किताबों में, अगर यह सामान्य है, तो यह CLT या कुछ एसिम्प्टोटिक पर निर्भर होना चाहिए। अन्यथा, यह के रूप में ज्यादा भावना के रूप में बनाता है यह
StasK

6

मुझे एक सामान्य वितरण और एक गामा वितरण के मिश्रण के रूप में छात्र टी वितरण का प्रतिनिधित्व पसंद है:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

ध्यान दें कि गामा वितरण का अर्थ और इस वितरण का विचलन । इसलिए हम टी-डिस्ट्रीब्यूशन को निरंतर विचरण धारणा को "समान" विचरण धारणा के सामान्यीकरण के रूप में देख सकते हैं। मूल रूप से नियंत्रित करता है कि हम समान को कैसे भिन्न होने की अनुमति देते हैं। आप इसे "यादृच्छिक भारित" प्रतिगमन के रूप में भी देखते हैं, क्योंकि हम उपरोक्त अभिन्न का उपयोग "छिपे हुए चर" प्रतिनिधित्व के रूप में कर सकते हैं:वी [ ρ | ν ] = E[ρ|ν]=1 νV[ρ|ν]=2νν

yi=μi+eiρi

जहाँ और सभी चर स्वतंत्र। वास्तव में यह मूल रूप से टी-डिस्ट्रीब्यूशन की परिभाषा है, क्योंकिρ मैं ~ जी एक मीटर मीटर एक ( νeiN(0,σ2)Gamma(ν)ρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

आप देख सकते हैं कि यह परिणाम सामान्य की तुलना में छात्र t वितरण को "मजबूत" क्यों बनाता है क्योंकि एक बड़े मूल्य या एक छोटे से मूल्य के कारण बड़ी त्रुटि हो सकती है । अब becuase सभी टिप्पणियों के लिए सामान्य है, लेकिन ith एक के लिए विशिष्ट है, निष्कर्ष निकालने के लिए सामान्य "सामान्य ज्ञान" बात यह है कि छोटे लिए प्रमाण देते हैं । इसके अतिरिक्त, यदि आप रैखिक प्रतिगमन करने के लिए थे, तो आप पाएंगे कि ith अवलोकन के लिए वजन है, यह मानते हुए कि ज्ञात है:σ 2 ρ मैं σ 2 ρ मैं ρ मैं μ मैं = एक्स टी मैं बीटा ρ मैं ρ मैंyiμiσ2ρiσ2ρiρiμमैं=एक्समैंटीβρमैंρमैं

β^=(Σमैंρमैंएक्समैंएक्समैंटी)-1(Σमैंρमैंएक्समैंyमैं)

तो एक छोटे लिए साक्ष्य का गठन जिसका अर्थ है कि ith अवलोकन कम वजन का होता है। इसके अतिरिक्त, एक छोटा "बाहरी" - एक अवलोकन जो भविष्यवाणी की गई है / बाकी की तुलना में बहुत बेहतर है - बड़े लिए साक्ष्य का गठन । इसलिए इस अवलोकन को प्रतिगमन में अधिक भार दिया जाएगा। यह इस बात के अनुरुप है कि कोई व्यक्ति सहज रूप से एक अच्छा या एक अच्छा डेटा बिंदु के साथ क्या करेगा।ρ मैंρमैंρमैं

ध्यान दें कि इन चीजों को तय करने के लिए कोई "नियम" नहीं है, हालांकि इस सवाल का मेरा और अन्य जवाब कुछ परीक्षणों को खोजने के लिए उपयोगी हो सकता है जो आप परिमित विचरण पथ के साथ कर सकते हैं (छात्र t स्वतंत्रता से कम या बराबर की डिग्री के लिए अनंत भिन्नता है। दो को)।


+1: यह सही लगता है, लेकिन मुझे नहीं लगता कि आपको एक सामान्य और गामा वितरण का मिश्रण कहना चाहिए, बल्कि एक सामान्य-गामा-सामान्य यौगिक वितरण और यह कहकर इस निर्माण को प्रेरित करना कि सामान्य-गामा वितरण सामान्य वितरण से पहले संयुग्म।
नील जी

हां, मिश्रण के बारे में बताया गया है - हालांकि मैं इसे अभी ठीक करने के लिए गैर-अनाड़ी तरीके के बारे में नहीं सोच सकता। ध्यान दें कि यह फ़ॉर्म वितरणों को संयुग्मित करने के लिए अद्वितीय नहीं है - उदाहरण के लिए यदि हम एक उल्टे घातांक पीडीएफ के साथ गामा पीडीएफ को प्रतिस्थापित करते हैं, तो हमें लैप्लस वितरण मिलता है। यह सामान्य वितरण को मजबूत करने के रूप में कम से कम वर्गों के बजाय "कम से कम पूर्ण विचलन" की ओर जाता है। अन्य वितरण अन्य "सुदृढ़ीकरण" की ओर ले जाएंगे - शायद छात्र टी के रूप में विश्लेषणात्मक रूप से सुंदर नहीं हैं।
प्रायोरिसोलॉजिक

यदि X एक मानक सामान्य यादृच्छिक चर है और U स्वतंत्रता की ν डिग्री के साथ एक ची-वर्ग यादृच्छिक यादृच्छिक चर है, तो एक छात्र है t (ν) यादृच्छिक चर। यहाँएक्स(यू/ν)
कार्ल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.