रैखिक प्रतिगमन के लिए टी-टेस्ट को समझना


17

मैं एक लीनियर रिग्रेशन पर कुछ परिकल्पना परीक्षण करने के लिए काम करने की कोशिश कर रहा हूं (अशक्त परिकल्पना कोई संबंध नहीं है)। मैं जिस विषय पर चलता हूं, उस पर हर गाइड और पेज टी-टेस्ट का उपयोग करता हुआ प्रतीत होता है। लेकिन मुझे समझ में नहीं आता है कि रेखीय प्रतिगमन के लिए टी-टेस्ट वास्तव में क्या मतलब है। एक टी-टेस्ट, जब तक कि मेरे पास पूरी तरह से गलत समझ या मानसिक मॉडल नहीं है, का उपयोग दो आबादी की तुलना करने के लिए किया जाता है। लेकिन प्रतिगामी और प्रतिगामी समान आबादी के नमूने नहीं हैं, और शायद एक ही इकाई के भी नहीं हो सकते हैं, इसलिए उनकी तुलना करने का कोई मतलब नहीं है।

तो, एक रैखिक प्रतिगमन पर एक टी-टेस्ट का उपयोग करते समय, यह क्या है जो हम वास्तव में कर रहे हैं?

जवाबों:


37

आप शायद दो सैंपल t टेस्ट के बारे में सोच रहे हैं, क्योंकि अक्सर t वितरण सबसे पहले स्थान पर आता है। लेकिन वास्तव में सभी t टेस्ट का मतलब है कि टेस्ट स्टेटिस्टिक के लिए रेफरेंस डिस्ट्रीब्यूशन एक t डिस्ट्रीब्यूशन है। अगर ZN(0,1) और S2χd2 के साथ Z और S2 स्वतंत्र, तो

ZS2/dtd
परिभाषा के द्वारा। मैं इस बात पर जोर देने के लिए लिख रहा हूं किtवितरण सिर्फ एक नाम है जो इस अनुपात के वितरण को दिया गया था क्योंकि यह बहुत ऊपर आता है, और इस फॉर्म के कुछ भीtवितरण होगा। दो नमूना टी परीक्षण के लिए, इस अनुपात में प्रकट होता है क्योंकि अशक्त तहत साधन में अंतर एक शून्य मतलब गाऊसी और स्वतंत्र Gaussians के लिए विचरण अनुमान एक स्वतंत्र हैχ2(स्वतंत्रता के माध्यम से दिखाया जा सकता हैबसु की प्रमेय जो इस तथ्य का उपयोग करता है कि गाऊसी नमूने में मानक भिन्नता का अनुमान जनसंख्या के अर्थ के लिए सहायक है, जबकि नमूना का मतलब पूर्ण और उसी मात्रा के लिए पर्याप्त है)।

रैखिक प्रतिगमन के साथ हम मूल रूप से एक ही चीज प्राप्त करते हैं। वेक्टर रूप β^N(β,σ2(XTX)1) । चलो Sj2=(XTX)jj1 और भविष्यवक्ताओं मान X गैर यादृच्छिक कर रहे हैं। अगर हम जानते थे कि σ2 हम होगा β j - 0

β^j0σSjN(0,1)
अशक्त के तहतH0:βj=0तो हम वास्तव में एक जेड परीक्षण होगा। लेकिन एक बार हम अनुमानσ2हम एक साथ अंतχ2यादृच्छिक चर कि, हमारे सामान्य मान्यताओं के तहत, पता चला है हमारे आंकड़े के स्वतंत्र होने के लिए β जेऔर फिर हम एक मिलटीवितरण।β^jt

यहाँ इस बात का विवरण दिया गया है: मान । दे एच = एक्स ( एक्स टी एक्स ) - 1 एक्स टी होना टोपी मैट्रिक्स हमारे पास 2 = ( मैं - एच ) y 2 = y टी ( मैं - एच ) y एच बेकार है इसलिए हमारे पास वास्तव में अच्छा परिणाम है yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H के साथ गैर केन्द्रीयता पैरामीटर δ = β टी एक्स टी ( मैं - एच ) एक्स β = β टी ( एक्स टी एक्स - एक्स टी एक्स ) β = 0 है, तो वास्तव में यह एक महत्वपूर्ण है χ 2 के साथ एन - पी
yT(IH)y/σ2χnp2(δ)
δ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2npस्वतंत्रता की डिग्री (यह कोचरन के प्रमेय का एक विशेष मामला है )। मैं X के कॉलम की संख्या को दर्शाने के लिए का उपयोग कर रहा हूं , इसलिए यदि X का एक कॉलम इंटरसेप्ट देता है तो हमारे पास p - 1 नॉन-इंटरसेप्ट प्रेडिक्टर होगा। कुछ लेखक पी का उपयोग गैर-अवरोधक भविष्यवाणियों की संख्या के रूप में करते हैं, इसलिए कभी-कभी आप वहां स्वतंत्रता की डिग्री में n - p - 1 जैसा कुछ देख सकते हैं , लेकिन यह सब एक ही बात है।pXXp1pnp1

इसी का परिणाम है कि , तो σ 2 : = 1E(eTe/σ2)=npकाम करता है की एक आकलनकर्ता के रूप में महानσ2σ^2:=1npeTeσ2

इसका मतलब है कि β j एक मानक गाऊसी का अनुपात है, जो अपनी स्वतंत्रता की डिग्री से विभाजित ची वर्ग के लिए है। इसे समाप्त करने के लिए, हमें स्वतंत्रता दिखाने की आवश्यकता है और हम निम्नलिखित परिणाम का उपयोग कर सकते हैं:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

परिणाम: के लिए और matrices एक और बी में आर एलZNk(μ,Σ)AB और आर मीटर × कश्मीर क्रमश:एकजेडऔरबीजेडहैं स्वतंत्र यदि और केवल यदिएकΣ बी टी =0(इस अभ्यास है 58 (जून)जून शाओ के गणितीय सांख्यिकी केअध्याय 1 में।Rl×kRm×kAZBZAΣBT=0

हम β = ( एक्स टी एक्स ) - 1 एक्स टी y और = ( मैं - एच ) y जहां y ~ एन ( एक्स β , σ 2 मैं ) । इस का मतलब है ( एक्स टी एक्स ) - 1 एक्स टीσ 2 मैं ( मैं - एच ) टी = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) तो बीटा, और इसलिए बीटाटी

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

नतीजा यह है अब हम जानते हैं है β j वांछित के रूप में (ऊपर मान्यताओं के सभी के तहत)।

β^jσ^Sjtnp

यहाँ उस परिणाम का प्रमाण है। चलो हो(एल+मी)×कश्मीरमैट्रिक्स stacking द्वारा गठितएककी चोटी परबी। फिर सीजेड= (जेड)C=(AB)(l+m)×kAB जहां सीΣसीटी=(

CZ=(AZBZ)N((AμBμ),CΣCT)
सीजेडबहुविविध गाऊसी है और यह एक अच्छी तरह से ज्ञात नतीजा यह है कि एक मल्टीवेरिएट गाऊसी के दो घटक स्वतंत्र हैं तभी अगर वे uncorrelated हैं, तो हालतएकΣबीटी=0पता चला है कि वास्तव में घटकों के बराबर होने काएकजेडऔरबीजेड
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZAΣBT=0AZBZCZ


3
+1 हमेशा अपने उत्तर को पढ़ने का आनंद लें।
Haitao Du

9

@ चाकोने का जवाब बहुत अच्छा है। लेकिन यहाँ एक बहुत ही कम nonmathematical संस्करण है!

चूंकि लक्ष्य एक पी मूल्य की गणना करना है, इसलिए आपको सबसे पहले एक शून्य परिकल्पना को परिभाषित करने की आवश्यकता है। लगभग हमेशा, यह है कि ढलान वास्तव में क्षैतिज है इसलिए ढलान (बीटा) के लिए संख्यात्मक मान 0.0 है।

आपके डेटा से ढलान फिट नहीं है 0.0। क्या यह विसंगति यादृच्छिक संयोग के कारण है या अशक्त परिकल्पना गलत होने के कारण है? आप कभी भी इसका उत्तर नहीं दे सकते, लेकिन निश्चित रूप से, P मान एक तरह से एक उत्तर पाने का एक तरीका है।

प्रतिगमन कार्यक्रम ढलान के एक मानक त्रुटि की रिपोर्ट करता है। टी अनुपात की गणना अपने मानक त्रुटि से विभाजित ढलान के रूप में करें। दरअसल, यह मानक त्रुटि से विभाजित (ढलान माइनस नल हाइपोथिसिस ढलान) है, लेकिन शून्य परिकल्पना ढलान लगभग हमेशा शून्य है।

अब आपके पास अनुपात है। स्वतंत्रता की डिग्री की संख्या (df) डेटा बिंदुओं की संख्या को प्रतिगमन (रेखीय प्रतिगमन के लिए दो) द्वारा फिट किए गए मापदंडों की संख्या के बराबर होती है।

उन मूल्यों (टी और डीएफ) के साथ आप एक ऑनलाइन कैलकुलेटर या टेबल के साथ पी मान निर्धारित कर सकते हैं।

यह अनिवार्य रूप से एक नमूना-परीक्षण है, एक काल्पनिक मूल्य (शून्य परिकल्पना) के साथ एक मनाया गणना मूल्य (ढलान) की तुलना करता है।


4
असली सवाल यह है कि यह "अनिवार्य रूप से एक-नमूना-टी-टेस्ट" क्यों है, और मैं यह नहीं देखता कि यह आपके उत्तर से कैसे स्पष्ट हो सकता है ...
अमीबा का कहना है कि मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.