आश्रित चर की सामान्यता = अवशिष्टों की सामान्यता?


34

यह मुद्दा हर समय अपने बदसूरत सिर को पीछे करने के लिए लगता है, और मैं इसे आंकड़ों और विवेक की अपनी समझ के लिए इसे खत्म करने की कोशिश कर रहा हूं!)।

सामान्य रैखिक मॉडल (टी-टेस्ट, एनोवा, प्रतिगमन आदि) की धारणाओं में "सामान्यता की धारणा" शामिल है, लेकिन मैंने पाया है कि यह शायद ही कभी स्पष्ट रूप से वर्णित है।

मैं अक्सर आँकड़ों की पाठ्यपुस्तकों / मैनुअल / इत्यादि के बारे में बताता हूं कि "सामान्यता की धारणा" प्रत्येक समूह (यानी, श्रेणीबद्ध एक्स चर) पर लागू होती है , और हमें प्रत्येक समूह के लिए सामान्यता से प्रस्थान की जांच करनी चाहिए ।

प्रश्न :

  1. क्या धारणा Y के मूल्यों या Y के अवशेषों को संदर्भित करती है ?

  2. किसी विशेष समूह के लिए , क्या वाई मूल्यों के एक दृढ़ता से गैर-सामान्य वितरण (जैसे, तिरछा) होना संभव है, लेकिन वाई के अवशेषों का लगभग (या कम से कम अधिक सामान्य) वितरण ?

    अन्य स्रोतों का वर्णन है कि धारणा मॉडल के अवशेषों से संबंधित है (ऐसे मामलों में जहां समूह हैं, जैसे टी-टेस्ट / एनोवा), और हमें इन अवशेषों की सामान्यता के प्रस्थान की जांच करनी चाहिए (यानी, केवल QQ प्लॉट / परीक्षण चलाने)।

  3. के लिए बच गया की सामान्य करता है मॉडल के लिए बच गया की सामान्य मतलब समूहों ? दूसरे शब्दों में, क्या हमें केवल मॉडल अवशिष्ट (कई ग्रंथों में निर्देशों के विपरीत) की जांच करनी चाहिए?

    इसे एक संदर्भ में रखने के लिए, इस काल्पनिक उदाहरण पर विचार करें:

    • मैं दो आबादी (एक्स) के बीच पेड़ की ऊंचाई (वाई) की तुलना करना चाहता हूं।
    • एक आबादी में वाई का वितरण सही ढंग से तिरछा है (यानी, अधिकांश पेड़ छोटे, बहुत कम), जबकि दूसरा वस्तुतः सामान्य है
    • सामान्य रूप से वितरित जनसंख्या में ऊँचाई कुल मिलाकर अधिक है (सुझाव है कि 'वास्तविक' अंतर हो सकता है)।
    • डेटा के परिवर्तन से पहली आबादी के वितरण में पर्याप्त सुधार नहीं होता है।
  4. सबसे पहले, क्या यह अलग-अलग ऊंचाई के वितरण को देखते हुए समूहों की तुलना करने के लिए वैध है?

  5. मैं यहां "सामान्यता की धारणा" कैसे कर सकता हूं? याद रखें कि एक जनसंख्या में ऊँचाई सामान्य रूप से वितरित नहीं होती है। क्या मैं दोनों आबादी के लिए अलग-अलग या मॉडल (टी-टेस्ट) के लिए अवशेषों की जांच करता हूं ?


कृपया उत्तरों में संख्या के अनुसार प्रश्नों का संदर्भ दें, अनुभव ने मुझे दिखाया है कि लोग खो गए हैं या आसानी से टूट गए हैं (विशेषकर मुझे!)। ध्यान रखें मैं कोई सांख्यिकीविद् नहीं हूँ; हालांकि मेरे पास एक उचित वैचारिक (यानी, तकनीकी नहीं!) आंकड़ों की समझ है।

पुनश्च, मैंने अभिलेखागार की खोज की है और निम्नलिखित सूत्र पढ़े हैं जिन्होंने मेरी समझ को मजबूत नहीं किया है:


2
" प्रश्न 1) क्या धारणा Y के मूल्यों या Y के अवशिष्टों का उल्लेख करती है? " - कड़ाई से बोलना, न तो , हालांकि दूसरा वह चीज है जिसे आप जांचते हैं । क्या सामान्य माना जाता है या तो अप्रमाणित त्रुटियां हैं , या भविष्यवाणियों के प्रत्येक संयोजन पर वाई के सशर्त वितरण समान हैं । वाई के बिना शर्त वितरण को सामान्य नहीं माना जाता है।
Glen_b -Reinstate मोनिका

1
+1 (कई) थ्रेड्स को व्यवस्थित करने और समेकित करने के प्रयास के लिए धन्यवाद, जिसमें यह मुद्दा उठता है; यह निश्चित रूप से एक अक्सर पूछे जाने वाले प्रश्न है।
whuber

इस सवाल के लिए मैं आपको धन्यवाद देना चाहूंगा। विषय वस्तु के लिए दोनों इसे संबोधित कर रहे हैं और यह कितनी अच्छी तरह से संगठित और जुड़ा हुआ है। मुझे पता है कि आपने यह बहुत पहले पूछा था लेकिन यह सिर्फ एक बहुत अच्छा सवाल है!
हम्म्

जवाबों:


14

एक बिंदु जो आपकी समझ में मदद कर सकता है:

यदि सामान्य रूप से वितरित किया जाता है और a और b स्थिरांक हैं, तो y = x -xaby=xab भी आम तौर पर वितरित किया जाता है (लेकिन संभवतः अलग मतलब और विचरण के साथ)।

चूंकि अवशिष्ट केवल y मान होते हैं, अनुमानित माध्य (मानकीकृत अवशिष्ट भी मानक त्रुटि के अनुमान से विभाजित होते हैं) तब यदि y मान सामान्य रूप से वितरित किए जाते हैं, तो अवशिष्ट समान रूप से और दूसरे तरीके से होते हैं। इसलिए जब हम सिद्धांत या मान्यताओं के बारे में बात करते हैं तो इससे कोई फर्क नहीं पड़ता कि हम किस बारे में बात करते हैं क्योंकि एक का अर्थ दूसरे से है।

तो सवालों के लिए यह होता है:

  1. हाँ, दोनों या तो
  2. नहीं, हालाँकि (अलग-अलग y- मान अलग-अलग तरीकों से मानदंडों से आएंगे जो एक साथ समूहीकृत होने पर उन्हें गैर-सामान्य दिख सकते हैं)
  3. अवशिष्टों की सामान्यता का अर्थ है समूहों की सामान्यता, हालांकि कुछ मामलों में समूहों द्वारा अवशेषों या y- मूल्यों की जांच करना अच्छा हो सकता है (पूलिंग गैर-सामान्यता को अस्पष्ट कर सकती है जो एक समूह में स्पष्ट है) या अन्य मामलों में सभी को एक साथ देखना (पर्याप्त अवलोकन नहीं) प्रति समूह निर्धारित करने के लिए, लेकिन आप सभी मिलकर बता सकते हैं)।
  4. यह इस बात पर निर्भर करता है कि आपकी तुलना का मतलब क्या है, आपका नमूना आकार कितना बड़ा है और "अनुमानित" पर आपकी भावनाएँ। परिणामों पर परीक्षणों / अंतराल के लिए सामान्य धारणा की आवश्यकता होती है, आप मॉडल को फिट कर सकते हैं और बिंदु अनुमानों का वर्णन कर सकते हैं कि सामान्यता है या नहीं। केंद्रीय सीमा प्रमेय का कहना है कि यदि नमूना आकार काफी बड़ा है तो अनुमान लगभग सामान्य होंगे भले ही अवशेष न हों।
  5. यह इस बात पर निर्भर करता है कि आप किस प्रश्न का उत्तर देने की कोशिश कर रहे हैं और किस तरह "अनुमानित" आपके साथ खुश हैं।

एक और बिंदु जो समझना महत्वपूर्ण है (लेकिन अक्सर सीखने में भ्रमित होता है) यह है कि यहां 2 प्रकार के अवशेष हैं: सैद्धांतिक अवशिष्ट जो मनाया मूल्यों और सच्चे सैद्धांतिक मॉडल के बीच अंतर हैं, और मनाया गया अवशेष जो अंतर हैं अवलोकन मूल्यों और वर्तमान में फिट मॉडल से अनुमानों के बीच। हम यह मानते हैं कि सैद्धांतिक अवशिष्ट आइड सामान्य हैं। देखे गए अवशिष्ट, मैं, i, या सामान्य वितरित नहीं हैं (लेकिन 0 का मतलब है)। हालांकि, व्यावहारिक उद्देश्यों के लिए मनाया अवशिष्ट सैद्धांतिक अवशेषों का अनुमान लगाते हैं और इसलिए निदान के लिए अभी भी उपयोगी हैं।


त्रुटियों और अवशिष्टों के बारे में अधिक जानकारी के लिए, मुझे लगता है कि यह लेख wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster

1
yy^

yy^

Q1 पर (जो कि Q2 के उत्तर में aknowledged की तरह है): स्पष्ट रूप से यह अवशिष्ट है और Ys बिल्कुल नहीं। जब covariates टिप्पणियों के बीच भिन्न होते हैं, तो आप आसानी से एक द्वि-मोडल सीमांत वितरण हो सकते हैं, भले ही अवशेष सामान्य हों। इसलिए, कोई केवल Ys को नहीं देख सकता है, केवल अवशिष्ट पर।
ब्योर्न

@ बजन, यह एक अच्छा स्पष्टीकरण है। X पर y चर सामान्य, सशर्त होते हैं, इसलिए कच्चे y-मान मानदंड का एक मिश्रण होते हैं और सिर्फ y-मान का एक भूखंड सामान्यता नहीं दिखा सकता है, भले ही वे x पर सामान्य सशर्त होने की धारणा को फिट करते हैं। निदान के लिए हम आम तौर पर अवशिष्ट का उपयोग करते हैं (क्योंकि सशर्त भाग को ज्यादातर हटा दिया गया है)। (सशर्त) सामान्यता की धारणा सैद्धांतिक अवशेषों और वाई-मूल्यों दोनों को संदर्भित करती है।
ग्रेग स्नो

7

संक्षिप्त उत्तर:

  1. बच गया
  2. नहीं
  3. निर्भर करता है, दोनों दृष्टिकोणों के फायदे और नुकसान हैं
  4. क्यों नहीं? यह साधनों के बजाय मध्यस्थों की तुलना करने के लिए अधिक समझ में आता है।
  5. आपने हमें जो बताया है, उससे सामान्यता की धारणा का उल्लंघन होता है

लंबा जवाब:

धारणा यह है कि आश्रित चर (y) सामान्य रूप से वितरित किया जाता है, लेकिन विभिन्न समूहों के लिए अलग-अलग साधनों के साथ। एक परिणाम के रूप में, यदि आप सिर्फ y के वितरण की साजिश करते हैं तो यह आपके मानक घंटी के आकार के सामान्य वक्र से आसानी से अलग दिख सकता है। अवशेषों का अर्थ है कि "फ़िल्टर किए गए" में उन अंतरों के साथ वाई का वितरण।

वैकल्पिक रूप से, आप प्रत्येक समूह में y के वितरण को अलग से देख सकते हैं। यह समूहों के बीच के साधनों के अंतर को भी फ़िल्टर करता है। लाभ यह है कि इस तरह से आपको प्रत्येक समूह में वितरण के बारे में जानकारी मिलती है, जो आपके मामले में प्रासंगिक है। इसका नुकसान यह है कि प्रत्येक समूह में संयुक्त डेटासेट की तुलना में कम अवलोकन होते हैं जो आपको अवशिष्टों को देखते समय मिलते हैं। इसके अलावा, यदि आप कई समूह हैं, तो आप सार्थक रूप से समूहों की तुलना करने में सक्षम नहीं होंगे, उदाहरण के लिए, क्योंकि आपने अपने मॉडल के लिए कई भविष्यवाणियां चर में दर्ज की हैं या (quasi-) आपके मॉडल के लिए निरंतर पूर्वसूचक चर। इसलिए यदि आपके मॉडल में केवल एक श्रेणीबद्ध भविष्यवक्ता चर है और प्रत्येक समूह में टिप्पणियों की संख्या काफी बड़ी है, तो प्रत्येक समूह में अलग से y के वितरण का निरीक्षण करना सार्थक हो सकता है।


7
सख्ती से, अवशिष्ट केवल अज्ञात और अनजानी त्रुटियों या गड़बड़ी का अनुमान है, इसलिए भले ही सामान्यता सिद्धांत में सही हो, लेकिन आप अभ्यास में बिल्कुल सामान्य अवशिष्ट नहीं प्राप्त कर सकते हैं। अधिक महत्वपूर्ण बात, त्रुटियों की सामान्यता इन विधियों में सबसे कम महत्वपूर्ण धारणा है!
निक कॉक्स

@ न्यूकॉक्स (+1) ने दोनों गणनाओं पर सहमति जताई
मार्टन ब्यूस

1

YX
XY


eYϵX
YY|XN(Xβ,σ2)
XYY|X


YX

प्रश्न 3)
सामान्यता की आवश्यकता वाले रैखिक मॉडल का उपयोग करने के लिए महत्वपूर्ण बात यह है कि अवशिष्ट जो सामान्य नहीं हैं, यह एक समूह में है या नहीं, यह एक महत्वपूर्ण संकेतक है कि आपका मॉडल आपके डेटा को फिट नहीं कर सकता है।
यदि आप एनोवा कर रहे हैं, तो निश्चित रूप से आपके समग्र अवशेषों को सामान्य (या बल्कि होमोसिस्टैस्टिक) नहीं होना चाहिए, इससे कोई मतलब नहीं होगा। एक प्रतिगमन में, हालांकि, आपके पास समग्र सामान्य अवशिष्टों के साथ बेहतर मॉडल है। यदि नहीं, तो आपके अंतराल के अनुमानक और परीक्षण गलत होंगे। यह कुछ स्वतःभरण या गुम चर पूर्वाग्रह का मामला हो सकता है। यदि मॉडल 100% सही है (यदि आवश्यक हो तो संरचनात्मक विराम और यदि आवश्यक हो तो भार सहित), यह सामान्य त्रुटि की शर्तों को मानने के लिए दूर नहीं है, यहां तक ​​कि 0. के आसपास केंद्रित है। व्यावहारिक रूप से सवाल अक्सर बन जाता है: क्या हम इन चीजों से दूर हो सकते हैं यदि नमूना काफी बड़ा है? कोई निश्चित उत्तर नहीं है, लेकिन 100% सही दृष्टिकोण के लिए हाँ, सभी अवशेष सामान्य होना चाहिए।

प्रश्न 4 और 5)
यह इस बात पर निर्भर करता है कि तुलना करने से आपका क्या मतलब है। सामान्य त्रुटि शर्तों की धारणा को देखते हुए, आप दो अलग-अलग वितरणों की धारणा के आधार पर परीक्षण कर सकते हैं। आप विभिन्न वितरण मापदंडों के लिए एक प्रतिगमन के लिए GLS आकलन का उपयोग कर सकते हैं - यदि आपके पास सही मॉडल है ... और मुझे लगता है कि आपके समूह स्वयं एक संकेतक / बाइनरी चर के रूप में काम करते हैं?
तब शायद यह कहना बहुत मुश्किल होगा कि अवशिष्टों का वितरण सामान्य होगा - परिणाम यह है कि जब आप अपने डेटा के साथ सामान कर सकते हैं, तो यह नियमित ओएलएस के आधार पर नहीं होगा।
लेकिन यह इस बात पर निर्भर करता है कि आप डेटा के साथ क्या करना चाहते हैं।


Y|X

मुझे लगता है कि एक अच्छा दृष्टिकोण परिणामी वितरण पर ध्यान देने के साथ नियमित ओएलएस के बीजगणित पर ध्यान देना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.