मानकीकरण और छात्रीकरण में क्या अंतर है?


21

क्या ऐसा है कि मानकीकरण में विचरण को जाना जाता है जबकि छात्रकरण में इसे ज्ञात नहीं है और इसलिए इसका अनुमान है? धन्यवाद।


2
आप अपने प्रश्न के संदर्भ को स्पष्ट करना चाह सकते हैं। किस तरह का मानकीकरण, किस तरह का छात्रीकरण? इन मूल्यों का क्या उपयोग किया जा रहा है?
रुसलपिएर्स

3
यदि आप अवशेषों के बारे में पूछ रहे हैं , तो शब्दावली (अहम) मानकीकृत नहीं है । अलग-अलग लेखक एक ही चीज़ के लिए अलग-अलग नामों का उपयोग करते हैं, और कभी-कभी - और सबसे अधिक दुख की बात है, अलग-अलग चीज़ों के लिए एक ही नाम। वहाँ मैं क्या कहता हूँ (i) स्केल किए गए अवशिष्ट ( , कुछ लेखकों द्वारा मानकीकृत अवशिष्ट कहा जाता है ); (ii) आंतरिक रूप से छात्र अवशिष्ट ( कुछ लेखकों / संकुल द्वारा मानकीकृत , दूसरों द्वारा छात्रों को मानकीकृत ); (iii) बाहरी रूप से छात्र / (yy^i)/s
छात्रा से

जवाबों:


20

एक संक्षिप्त पुनरावृत्ति। एक मॉडल को देखते हुए , जहां है , और , जहां "हैट मैट्रिक्स" है। अवशिष्ट जनसंख्या भिन्नता अज्ञात है और इसका अर्थ , वर्गाकार त्रुटि से हो सकता है।एक्स n × पी β = ( एक्स ' एक्स ) - 1 एक्स ' y y = एक्स β = एक्स ( एक्स ' एक्स ) - 1 एक्स ' y = एच वाई एच = एक्स ( एक्स ' एक्स ) - 1 एक्स '= y -y=Xβ+εXn×pβ^=(XX)1Xyy^=Xβ^=X(XX)1Xy=HyH=X(XX)1Xσ2एमएस

e=yy^=yHy=(IH)y
σ2MSE

अर्धवृत्ताकार अवशिष्ट को रूप में परिभाषित किया गया है , लेकिन चूंकि अवशेषों का विचरण और X दोनों पर निर्भर करता है , उनका अनुमानित विचरण है: \ widehat V (e_i) = एमएसई (1-h_ {ii}) जहां h_ {ii} है मैं टोपी मैट्रिक्स के वें विकर्ण तत्व। σ2एक्सवी(मैं)=एमएस(1-एचमैंमैं)मैंमैंमैं

ei=eiMSE
σ2X
V^(ei)=MSE(1hii)
hiii

मानकीकृत अवशिष्ट, जिन्हें आंतरिक रूप से छात्र अवशिष्ट भी कहा जाता है , हैं:

ri=eiMSE(1hii)

हालाँकि एकल और गैर स्वतंत्र हैं, इसलिए में वितरण नहीं हो सकता है । फिर प्रक्रिया th अवलोकन को हटाने के लिए, शेष अवलोकनों के लिए प्रतिगमन फ़ंक्शन को फिट करें , और new प्राप्त करें जिसे द्वारा निरूपित किया जा सकता है । अंतर: को हटाए गए अवशिष्ट कहा जाता है । एक समतुल्य अभिव्यक्ति जिसके लिए एक आवश्यकता नहीं है: नए और को और द्वारा एम एस आर मैं टी मैं n - 1 y y मैं ( मैं ) d मैं = y मैं - y मैं ( मैं ) d मैं = मैंeiMSEritin1y^y^i(i)

di=yiy^i(i)
XMSEX(i)MSE(i)iti=di
di=ei1hii
XMSEX(i)MSE(i) , क्योंकि वे th अवलोकन पर निर्भर नहीं करते हैं , हमें मिलता है: के लिए कहा जाता है studentized (हटाया गया) बच गया , या बाह्य छात्र अवशिष्टiटीमैं
ti=diMSE(i)1hii=eiMSE(i)(1hii)tnp1
ti

कुटनेर एट अल।, एप्लाइड रैखिक सांख्यिकीय मॉडल , अध्याय 10 देखें।

संपादित करें: मुझे कहना होगा कि रिप्रिज द्वारा उत्तर एकदम सही है। मैंने सोचा था कि ओपी मानकीकृत और छात्र अवशिष्ट के बारे में था (और मानकीकृत अवशिष्ट प्राप्त करने के लिए जनसंख्या मानक विचलन द्वारा विभाजित करना मुझे बिल्कुल अजीब लगा), लेकिन मैं गलत था। मुझे उम्मीद है कि मेरा जवाब ओटी होने पर भी किसी की मदद कर सकता है।


2
... और यह जवाब एक प्रतिगमन समीकरण से छात्र के अवशेषों को परिभाषित करने में सही है। एक समान मानकीकृत अवशिष्ट की कोई परिभाषा नहीं है। रिग्रेशन फ्रेमवर्क पूछे गए प्रश्न पर लागू नहीं होता है। लेकिन यह अभी भी एक मूल्यवान योगदान है; +1
russellpierce

2
@ सही, आप सही हैं: जैसे ही मैंने "छात्रकरण" पढ़ा, मैंने "अवशिष्ट" भी पढ़ा, लेकिन वे केवल मेरे दिमाग में थे ;-) क्षमा करें। मैंने आखिरी क्लिक के बाद ही अपना निरीक्षण देखा है।
सर्जियो

9

सामाजिक विज्ञान में यह आम तौर पर कहा जाता है कि Studentizated स्कोर नमूना प्रसरण / मानक विचलन (से जनसंख्या विचरण / मानक विचलन के आकलन के लिए विद्यार्थी का / Gosset की गणना का उपयोग करता है )। इसके विपरीत, मानकीकृत स्कोर (एक संज्ञा, एक विशेष प्रकार का आँकड़ा, Z स्कोर) को जनसंख्या मानक विचलन (? ) का उपयोग करने के लिए कहा जाता है ।σsσ

हालाँकि, ऐसा प्रतीत होता है कि खेतों में कुछ पारिभाषिक अंतर हैं (कृपया इस उत्तर पर टिप्पणी देखें)। इसलिए, इन अंतरों को बनाने में सावधानी के साथ आगे बढ़ना चाहिए। इसके अलावा, छात्र स्कोर को शायद ही कभी ऐसे कहा जाता है और एक आम तौर पर प्रतिगमन के संदर्भ में 'छात्रों के मूल्यों' को देखता है। @ शेरगियो ने अपने उत्तर में उन प्रकार के छात्र हटाए गए अवशेषों के बारे में विवरण प्रदान किया है।


2
विकिपीडिया जोड़ता है, "इस शब्द का उपयोग एक ही डिग्री के एक और आंकड़े द्वारा उच्च-डिग्री वाले आंकड़े के मानकीकरण के लिए भी किया जाता है: उदाहरण के लिए, तीसरे केंद्रीय क्षण का एक अनुमान नमूना मानक विचलन के घन द्वारा विभाजित करके मानकीकृत किया जाएगा। "
निक स्टनर

2
मुझे लगता है कि यह कहना सुरक्षित होगा कि छात्रकरण मानकीकरण का रूप है यदि जनसंख्या भिन्नता अज्ञात है। यह अधिक सामान्य, मोटे तौर पर इस्तेमाल किए जाने वाले शब्द के बारे में एक भ्रामक कथन के बजाय एक तकनीकी, पारिभाषिक बिंदु का रूप लेता है।
निक स्टनर

2
@ वाउचर: प्रश्न का संदर्भ बुनियादी था, इसलिए मैंने एक मूल उत्तर दिया। स्टैंडर्ड स्कोर (जेड) परिचयात्मक आँकड़े गणना कर रहे हैं और उन्हें दिया जाता है। कभी-कभी आपके पास वास्तव में जनसंख्या मानक विचलन होता है (उदाहरण के लिए 10 लोगों की गैर-लापता डेटा जनगणना)। σ
रुसलपिएर्स

2
@ यह एक अच्छा संकल्प की तरह लगता है, यह देखते हुए कि विभिन्न प्राधिकरण "मानकीकरण" का व्यापक रूप से उपयोग करते हैं, लेकिन कोई भी (एएफएआईके) कभी भी "छात्र" का इतने व्यापक अर्थ में उपयोग नहीं करता है।
whuber

2
@rpierce दूसरी पुस्तक (फ़्रीडमैन, पिसानी, और पर्स) लगभग 40 वर्षों से है, पाँच (बड़े पैमाने पर अपरिवर्तित) संस्करणों के माध्यम से, और यूसी बर्कले के परिचय आँकड़े पाठ्यक्रम के लिए पाठ के रूप में जीवन शुरू किया। इसमें सार्वजनिक स्वास्थ्य ही नहीं बल्कि सभी बोधगम्य क्षेत्रों को शामिल किया गया है। दूसरी ओर, इसकी एक ताकत यह है कि छोटे, निरर्थक या अत्यधिक तकनीकी अंतरों पर जोर देने से बचें, इसलिए हालांकि यह आम तौर पर आंकड़ों के लिए एक अच्छा मार्गदर्शक है, लेकिन यह आर्कन मामलों को निपटाने के लिए निर्भर नहीं किया जा सकता है।
whuber

3

मुझे इस प्रश्न का उत्तर देने में बहुत देर हो गई है !!। लेकिन इसका जवाब देने का इतना विनम्र प्रयास बहुत सरल भाषा में जवाब नहीं मिला।

हम मानकीकरण क्यों करते हैं? कल्पना कीजिए कि आपके पास दो मॉडल हैं- अध्ययन के आँकड़ों पर बिताए समय की मात्रा से पागलपन की भविष्यवाणी करते हैं जबकि अन्य भविष्यवाणी आँकड़ों पर समय की मात्रा के साथ लॉग (पागलपन) करते हैं।

यह समझना कठिन होगा कि अवशिष्ट दोनों अलग-अलग इकाइयों में हैं। इसलिए हम उन्हें मानकीकृत करते हैं। (जेड-स्कोर के समान सिद्धांत)

मानकीकृत अवशिष्ट: - जब अवशिष्ट को मानक विचलन के अनुमान से विभाजित किया जाता है। सामान्य तौर पर अगर निरपेक्ष मान> 3 तो यह चिंता का कारण है।

हम इसका उपयोग मॉडल में आउटलेर की जांच करने के लिए करते हैं।

छात्र अवशिष्ट: हम मॉडल की स्थिरता का अध्ययन करने के लिए इसका उपयोग करते हैं।

प्रक्रिया सरल है। हम मॉडल से व्यक्तिगत परीक्षण मामले को हटाते हैं और नए अनुमानित मूल्य का पता लगाते हैं। नए मूल्य और मूल मनाया मूल्य के बीच अंतर को मानक त्रुटि को विभाजित करके मानकीकृत किया जा सकता है। यह मान स्टूडेंटाइज्ड रेजिड्यूअल है

अधिक जानकारी के लिए R - http://www.statisticshell.com/html/dsur.html का उपयोग करके स्टैटिक्स की खोज करना


1

विकिपीडिया पर https://en.wikipedia.org/wiki/Normalization_(statistics) का अच्छा अवलोकन है :

मानक स्कोर : जनसंख्या पैरामीटर ज्ञात होने पर त्रुटियों को सामान्य करना। आम तौर पर वितरित की जाने वाली आबादी के लिए अच्छी तरह से काम करता हैXμσ

छात्र के टी-स्टेटिस्टिक : जनसंख्या मापदंडों के अज्ञात होने पर (अनुमानित) अवशिष्ट को सामान्य करना।XX¯s

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.