वाई को सामान्य रूप से वितरित की जाने वाली गलत धारणा कहां से आती है?


45

लगातार प्रतिष्ठित स्रोतों का दावा है कि आश्रित चर को सामान्य रूप से वितरित किया जाना चाहिए:

मॉडल मान्यताओं: Y सामान्य रूप से वितरित किया जाता है, त्रुटियों सामान्य रूप से वितरित कर रहे हैं, eiN(0,σ2) , और स्वतंत्र है, और X तय हो गई है, और लगातार विचरण σ2

पेन स्टेट, स्टैट 504 विश्लेषण असतत डेटा

दूसरे, रैखिक प्रतिगमन विश्लेषण के लिए सभी चर को बहुभिन्नरूपी सामान्य करने की आवश्यकता होती है।

सांख्यिकी संकल्प, रैखिक प्रतिगमन के अनुमान

यह उचित है जब प्रतिक्रिया चर का सामान्य वितरण होता है

विकिपीडिया, सामान्यीकृत रैखिक मॉडल

क्या इस बारे में अच्छी व्याख्या है कि यह गलत धारणा कैसे या क्यों फैली है? क्या इसकी उत्पत्ति ज्ञात है?

सम्बंधित


17
दुखी। आप यहाँ एक अच्छा काम कर रहे हैं ...
२०:१man

7
मुझे लीनियर रिग्रेशन का उपयोग करने वाली किसी भी स्थिति का पता नहीं है जिसके लिए के सीमांत वितरण की आवश्यकता होती है , या सभी चर का जोड़ बहुभिन्नरूपी सामान्य होता है। वे मुझे गलत धारणाओं की तरह लगते हैं। Y
मैथ्यू ड्र्यू

8
@MichaelChernick "Y यह आम तौर पर वितरित किया जाता है" है, यह गलत है। आर में इसे देखें: X <- runif(n=100)फिर Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)अपने आप को समझाने के लिए हिस्टोग्राम के साथ खेलें कि न तो एक्स और न ही सामान्य रूप से वितरित किए जाते हैं। फिर summary(lm(Y ~ X)), और इंटरसेप्ट 3 के कितने करीब है, इस पर बहुत ध्यान दें और X की ढलान 0.5 है। धारणा यह है कि त्रुटियों को सामान्य रूप से वितरित किया जाता है।
एलेक्सिस

9
@ ऐलेक्सिस मेरा मानना ​​है कि माइकल जो कहना चाह रहा था वह यह है कि मल्टीवेरेट नॉर्मलिटी की धारणा पर्याप्त है लेकिन जरूरी नहीं यह स्पष्ट रूप से है कि विकिपीडिया उद्धरण को पढ़ने के लिए किसी को क्या चाहिए। दूसरा उद्धरण स्पष्ट रूप से गलत है कि उन धारणाओं को स्वीकार करना आवश्यक है। पहला उद्धरण अस्पष्ट है लेकिन उदारता से माइकल द्वारा पढ़े गए अर्थों में पढ़ा जा सकता है।
whuber

6
मैं केवल यह कह रहा था कि सामान्यता धारणा का अर्थ कुछ गुणों से है। उदाहरण के लिए साधारण रेखीय प्रतिगमन में यदि आप मान लेते हैं कि त्रुटि की स्थिति शून्य के साथ सामान्य है और निरंतर विचरण से प्रतिगमन मापदंडों का कम से कम वर्ग अनुमान अधिकतम संभावना है। सामान्यता कम से कम वर्गों को छोड़कर सभी मान्यताओं को ध्यान में रखते हुए अधिकतम संभावना नहीं है, लेकिन अभी भी न्यूनतम विचरण निष्पक्ष है।
माइकल चेरिक

जवाबों:


13

'Y को सामान्य रूप से वितरित किया जाना चाहिए'

जरूर?


जिन मामलों में आप इसका उल्लेख करते हैं, वे मैला भाषा होते हैं (संक्षिप्त रूप में 'वाई में त्रुटि सामान्य रूप से वितरित की जानी चाहिए' ), लेकिन वे वास्तव में (दृढ़ता से) यह नहीं कहते हैं कि प्रतिक्रिया सामान्य रूप से वितरित की जानी चाहिए, या कम से कम यह प्रतीत नहीं होता है मुझे लगता है कि उनके शब्दों की तरह इरादा था।

पेन स्टेट कोर्स सामग्री

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • जीएलएम के कुछ प्रकार की व्याख्या करते समय (बाइनरी लॉजिस्टिक रिग्रेशन),

    YBinomial(n,π)

  • कुछ परिभाषा में

    YYY

YiY

  • Yi

सांख्यिकी वेबपेज

अत्यंत संक्षिप्त, सरलीकृत, सरलीकृत विवरण है। मुझे यकीन नहीं है कि आपको इसे गंभीरता से लेना चाहिए। उदाहरण के लिए, यह बोलता है

.. सभी चर को सामान्य करने के लिए बहुभिन्नरूपी होना चाहिए ...

इतना है कि सिर्फ प्रतिक्रिया चर नहीं है,

और 'बहुभिन्नरूपी' वर्णनकर्ता भी अस्पष्ट है। मुझे यकीन नहीं है कि उस व्याख्या को कैसे प्राप्त किया जाए।

विकिपीडिया लेख

कोष्ठक में समझाया गया एक अतिरिक्त संदर्भ है:

साधारण रेखीय प्रतिगमन किसी दिए गए अज्ञात मात्रा (प्रतिक्रिया चर, एक यादृच्छिक चर) के अपेक्षित मान को प्रेक्षित मानों (भविष्यवक्ताओं) के सेट के रैखिक संयोजन के रूप में भविष्यवाणी करता है । इसका तात्पर्य यह है कि पूर्वसूचक में लगातार परिवर्तन से प्रतिक्रिया चर (यानी रैखिक-प्रतिक्रिया मॉडल) में निरंतर परिवर्तन होता है। यह उचित है जब प्रतिक्रिया चर का सामान्य वितरण होता है (सहजता से, जब एक प्रतिक्रिया चर अनिवार्य रूप से अनिश्चित काल तक किसी भी निश्चित "शून्य मान" के साथ किसी भी दिशा में अलग-अलग हो सकता है या अधिक मात्रा में किसी भी मात्रा के लिए हो सकता है, जो केवल अपेक्षाकृत कम राशि से भिन्न होता है, जैसे मानव। ऊंचाइयों)।

y+ϵϵN(0,σ)

8 मार्च 2012 को विशेष लाइन को जोड़ा गया है , लेकिन ध्यान दें कि विकिपीडिया लेख की पहली पंक्ति अभी भी "साधारण रैखिक प्रतिगमन के लचीले सामान्यीकरण को पढ़ती है जो प्रतिक्रिया चर के लिए अनुमति देता है जिसमें सामान्य वितरण के अलावा त्रुटि वितरण मॉडल हैं " और नहीं है इतना (हर जगह नहीं) गलत।


निष्कर्ष

इसलिए, इन तीन उदाहरणों के आधार पर (जो वास्तव में गलतफहमी पैदा कर सकता है , या कम से कम गलत समझा जा सकता है) मैं यह नहीं कहूंगा कि "यह गलत धारणा फैल गई है" । या कम से कम यह मुझे नहीं लगता है कि उन तीन उदाहरणों का उद्देश्य यह तर्क देना है कि वाई को सामान्य रूप से वितरित किया जाना चाहिए (हालांकि मुझे याद है कि यह मुद्दा स्टैटेक्सचेंज पर यहां पहले उत्पन्न हुआ है, सामान्य रूप से वितरित त्रुटियों और सामान्य रूप से वितरित प्रतिक्रिया चर के बीच स्वैप बनाने में आसान है)।

इसलिए, यह धारणा कि 'वाई को सामान्य रूप से वितरित किया जाना चाहिए' मुझे ऐसा लगता है कि व्यापक विश्वास / गलत धारणा (जैसा कि लाल हेरिंग की तरह फैलता है) में ऐसा नहीं है, लेकिन अधिक सामान्य त्रुटि की तरह है (जो फैल नहीं है लेकिन स्वतंत्र रूप से हर बार बनाया जाता है। )।


अतिरिक्त टिप्पणी

इस वेबसाइट पर गलती का एक उदाहरण निम्नलिखित प्रश्न में है

क्या होगा यदि अवशेषों को सामान्य रूप से वितरित किया जाता है, लेकिन y नहीं है?

मैं इसे एक शुरुआती प्रश्न मानूंगा। यह पेन स्टेट कोर्स सामग्री, विकिपीडिया वेबसाइट जैसी सामग्रियों में मौजूद नहीं है, और हाल ही में 'आर के साथ रैखिक प्रतिगमन का विस्तार' पुस्तक की टिप्पणियों में उल्लेख किया गया है।

उन कार्यों के लेखक सामग्री को सही ढंग से समझते हैं। दरअसल, वे ऐसे वाक्यांशों का उपयोग करते हैं, जैसे 'वाई को सामान्य रूप से वितरित किया जाना चाहिए', लेकिन संदर्भ और उपयोग किए गए फॉर्मूले के आधार पर आप देख सकते हैं कि वे सभी का अर्थ 'वाई, एक्स पर सशर्त, सामान्य रूप से वितरित किया जाना चाहिए' और नहीं 'सीमांत वाई' होना चाहिए आम तौर पर वितरित किया जाता है '। वे स्वयं इस विचार को गलत नहीं ठहरा रहे हैं, और कम से कम यह विचार सांख्यिकीविदों और लोगों के बीच व्यापक नहीं है जो किताबें और अन्य पाठ्यक्रम सामग्री लिखते हैं। लेकिन उनके अस्पष्ट शब्दों को गलत तरीके से फैलाने से गलत धारणा पैदा हो सकती है।


3
+1 कि ने कहा: मुझे लगता है कि हम सभी ने वाई के सीमांत सामान्यता पर जोर देते हुए बहुत सारे प्रश्न देखे हैं ... कुछ गलत धारणा है। :)
एलेक्सिस

हां, मैं मानता हूं कि 'y सामान्य रूप से वितरित' की धारणा अक्सर होती है (मुझे आसानी से उदाहरण नहीं मिल पाए, लेकिन ऐसा इसलिए हो सकता है क्योंकि लोग इन चीजों का वर्णन लाइनों के बीच में करते हैं और सरल कीवर्ड के साथ नहीं)। हालाँकि, मेरा मानना ​​है कि यह कुछ और है जो 'सामान्य' है, न कि कुछ ऐसा है जो इतना ' फैला हुआ' है। और कम से कम, निश्चित रूप से ओपी द्वारा दिए गए तीन उदाहरण बहुत मजबूत नहीं हैं (गलत धारणा को फैलाने का संकेत देने के अर्थ में मजबूत नहीं हैं, हालांकि वे भाषा के पैथोलॉजिकल उपयोग का वर्णन करते हैं और त्रुटियों की उत्पत्ति कैसे हो सकती है)।
सेक्स्टस एम्पिरिकस

@Martijn वेटरिंग्स: मैं आपके बयान से असहमत होना चाहूंगा "मैं यह नहीं कहूंगा कि यह गलत धारणा फैल गई है"। आर के साथ रैखिक प्रतिगमन का विस्तार करने वाली अपनी पुस्तक में, कई स्नातक सांख्यिकी कार्यक्रमों में आवश्यक पढ़ने के रूप में उपयोग किया जाता है, जूलियन फ़ारवे इस पुस्तक के प्रस्तावना में पेज xi पर कहते हैं कि "मानक रैखिक मॉडल गैर-सामान्य प्रतिक्रियाओं को नहीं संभाल सकता है, जैसे, के रूप में मायने रखता है या अनुपात "।
कलरस्टैटिस्टिक्स

n1(r1)(c1)

1
y=β0+β1x1+...βpxp+ϵϵप्रतिक्रिया में विशेष वितरण होना चाहिए जिसका उल्लेख किया गया है।
सेक्सटस एम्पिरिकस

29

क्या इस बारे में एक अच्छी व्याख्या है कि यह गलत धारणा क्यों / कैसे फैली है? क्या इसकी उत्पत्ति ज्ञात है?

हम आम तौर पर कई विषयों में आँकड़ों के "सरलीकृत" संस्करण को सिखाते हैं। मैं मनोविज्ञान में हूं, और जब मैं अंडरग्रेजुएट्स को यह बताने की कोशिश करता हूं कि पी- वैल्यू हैं "डेटा की संभावना - या अधिक चरम डेटा - यह देखते हुए कि शून्य परिकल्पना सच है," सहकर्मी मुझे बताते हैं कि मुझे अपनी आवश्यकता के बारे में अधिक विवरण को कवर करना है कवर करने के लिए। मैं इसे और अधिक कठिन बना रहा हूं, आदि, क्योंकि कक्षाओं में छात्रों को आंकड़ों के साथ आराम की इतनी विस्तृत श्रृंखला (या इसके अभाव) होती है, प्रशिक्षक आमतौर पर इसे सरल रखते हैं: "हम इसे एक विश्वसनीय खोज मानते हैं यदि p <.05, "उदाहरण के लिए, उन्हें p -value की वास्तविक परिभाषा देने के बजाय ।

मुझे लगता है कि यह वह जगह है जहां गलत धारणा फैल गई है। उदाहरण के लिए, आप मॉडल को इस प्रकार लिख सकते हैं:

Y=β0+β1X+ϵϵN(0,σϵ2)

इसे फिर से लिखा जा सकता है:

Y|XN(β0+β1X,σϵ2)

जिसका अर्थ है कि "वाई, एक्स पर सशर्त, सामान्य रूप से अनुमानित मूल्यों और कुछ विचरण के माध्यम से वितरित किया जाता है।"

यह समझाना मुश्किल है, इसलिए आशुलिपि के लोग बस यह कह सकते हैं: "वाई को सामान्य रूप से वितरित किया जाना चाहिए।" या जब यह उन्हें मूल रूप से समझाया गया था, तो लोग सशर्त भाग को गलत समझते थे - चूंकि यह ईमानदारी से, भ्रमित है।

इसलिए चीजों को बहुत जटिल नहीं बनाने के प्रयास में, प्रशिक्षकों ने सरलता से कहा कि वे क्या कह रहे हैं क्योंकि वे अधिकांश छात्रों को भ्रमित नहीं करते हैं। और फिर लोग उस गलत धारणा के साथ अपनी सांख्यिकीय शिक्षा या सांख्यिकीय अभ्यास पर जारी रखते हैं। मैंने स्वयं इस अवधारणा को पूरी तरह से नहीं समझा, जब तक कि मैंने स्टेन में बायेसियन मॉडलिंग करना शुरू नहीं कर दिया, जिसके लिए आपको अपनी मान्यताओं को इस तरह लिखना होगा:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

इसके अलावा, GUI के साथ बहुत सारे सांख्यिकीय पैकेज (आपकी ओर, SPSS को देखते हुए), यह जांचना आसान है कि क्या सीमांत वितरण सामान्य रूप से वितरित किया जाता है (साधारण हिस्टोग्राम) यह जांचने के लिए कि क्या अवशेष सामान्य रूप से वितरित किए जाते हैं (रन प्रतिगमन,) अवशेषों को बचाएं, उन अवशेषों पर हिस्टोग्राम चलाएं)।

इस प्रकार, मुझे लगता है कि गलतफहमी मुख्य रूप से छात्रों को भ्रमित करने से रोकने के लिए विवरणों को दाढ़ी बनाने की कोशिश करने वाले प्रशिक्षकों के कारण है, वास्तविक और समझने योग्य- इसे सही तरीके से सीखने वाले लोगों के बीच भ्रम, और इन दोनों को सीमांत सामान्यता की जांच में आसानी से प्रबलित किया गया। अधिकांश उपयोगकर्ता के अनुकूल सांख्यिकीय पैकेज।


2
मुझे लगता है कि आप सही हैं। बहुत से लोग सशर्त भाग को नहीं समझते हैं। उन्हें लगता है कि सामान्य वितरित है।
स्मालचैज

3
मैं मानता हूं कि यह उन तरीकों का 'एक' हो सकता है जिनके द्वारा यह त्रुटि होती है / फैलती है। पेन स्टेट कोर्स की सामग्री हालांकि मुझे इस 'जानबूझकर' सरलीकरण के कारण नहीं लगती है और यह मैला लेखन के कारण भी है। यह छोटे (कोर्स) नोट्स जैसा है। या स्टैकेक्सचेंज की टिप्पणियों की तरह, भाषा में सरलीकरण। कुछ जगहों पर वे सही शब्दों का इस्तेमाल करते हैं। (व्यक्तिगत रूप से, मेरे शब्द / सूत्र की तुलना में मेरे योजनाबद्ध / आरेख बेहतर हैं, लेकिन इसका मतलब यह नहीं है कि मैं जो लिखता हूं, अगर वह गलत है, तो जरूरी है कि यह एक गलत विचार है)
सेक्स्टस एम्पिरिकस

1
@MartijnWeterings सहमत - विशिष्ट भाषा का उपयोग न करके किसी को भ्रमित करना बहुत आसान है। सांख्यिकीय मान्यताओं के रूप में अमूर्त के रूप में किसी चीज में आपकी भाषा के साथ हमेशा विशिष्ट होना मुश्किल है, और कई स्मार्ट लोग सरल गलतियां करते हैं, जिससे इस तरह की व्यापक भ्रांतियां पैदा होती हैं।
मार्क व्हाइट

1
MarkWhite, मैं वास्तव में उस ध्यान की सराहना करता हूं जो आप सिखाते हैं कि हम कैसे सिखाते हैं ... मुझे लगता है कि "गलत धारणा के प्रसार" में ओपी के हित के लिए एक महत्वपूर्ण तरीके से बोलता है (जो गलतफहमी है और जो गलत धारणा नहीं है, इसके अलावा) )।
एलेक्सिस

16

प्रतिगमन विश्लेषण शुरुआती लोगों के लिए मुश्किल है क्योंकि अलग-अलग परिणाम हैं जो विभिन्न शुरुआती मान्यताओं द्वारा निहित हैं। कमजोर शुरू करने वाली धारणाएं कुछ परिणामों को सही ठहरा सकती हैं, लेकिन जब आप मजबूत धारणाएं जोड़ते हैं तो आप अधिक मजबूत परिणाम प्राप्त कर सकते हैं। जो लोग परिणामों की पूर्ण गणितीय व्युत्पत्ति से अपरिचित हैं, वे अक्सर परिणाम के लिए आवश्यक धारणाओं को गलत समझ सकते हैं, या तो अपने मॉडल को कमजोर करके, आवश्यक परिणाम प्राप्त करने के लिए, या इस परिणाम के लिए आवश्यक विश्वास में कुछ अनावश्यक मान्यताओं को प्रस्तुत कर सकते हैं। ।

यद्यपि अतिरिक्त परिणाम प्राप्त करने के लिए मजबूत धारणाओं को जोड़ना संभव है, प्रतिगमन विश्लेषण प्रतिक्रिया वेक्टर की सशर्त वितरण के साथ ही चिंता करता है । यदि कोई मॉडल इससे आगे निकल जाता है तो वह बहुभिन्नरूपी विश्लेषण के क्षेत्र में प्रवेश कर रहा है, और कड़ाई से (सिर्फ) प्रतिगमन मॉडल नहीं है। यह मामला इस तथ्य से और अधिक जटिल है कि प्रतिगमन में वितरण परिणामों को संदर्भित करने के लिए हमेशा सावधान रहना बिना यह निर्दिष्ट करना है कि वे सशर्त वितरण हैं (डिजाइन मैट्रिक्स में व्याख्यात्मक चर दिए गए हैं)। ऐसे मामलों में जहां मॉडल सशर्त वितरण से परे जाते हैं (व्याख्यात्मक वैक्टर के लिए मामूली वितरण मानकर) उपयोगकर्ता को इस अंतर को निर्दिष्ट करने के लिए सावधान रहना चाहिए; दुर्भाग्य से लोग हमेशा इससे सावधान नहीं होते हैं।


Homoskedastic रैखिक प्रतिगमन मॉडल: आमतौर पर उपयोग किया जाने वाला प्रारंभिक प्रारंभिक बिंदु मॉडल रूप और पहले दो त्रुटि-क्षणों को बिना किसी सामान्यता के किसी भी धारणा के मान लेना है:

Y=xβ+εE(ε|x)=0V(ε|x)I.

यह सेटअप आपको गुणांक, त्रुटि विचरण के लिए निष्पक्ष अनुमानक, अवशिष्ट और इन सभी यादृच्छिक मात्रा के क्षणों (डिजाइन मैट्रिक्स में व्याख्यात्मक चर पर सशर्त) के लिए ओएलएस अनुमानक प्राप्त करने की अनुमति देने के लिए पर्याप्त है। यह आपको इन राशियों का पूर्ण सशर्त वितरण प्राप्त करने की अनुमति नहीं देता है, लेकिन अगर यह बड़ा है और कुछ अतिरिक्त धारणाओं को के सीमित व्यवहार पर रखा गया है, तो यह वितरण की अपील करने की अनुमति देता है । आगे जाने के लिए त्रुटि वेक्टर के लिए एक विशिष्ट वितरण फॉर्म का अनुमान लगाना आम है।एक्सnx

सामान्य त्रुटियां: होमोसैकेडिक लीनियर रिग्रेशन मॉडल के अधिकांश उपचार यह मानते हैं कि त्रुटि वेक्टर सामान्य रूप से वितरित किया जाता है, जो कि वर्तमान समय में मान्यताओं के साथ संयोजन करता है:

ε|xN(0,σ2I).

यह अतिरिक्त धारणा यह सुनिश्चित करने के लिए पर्याप्त है कि गुणांक के लिए ओएलएस अनुमानक मॉडल के लिए MLE है, और इसका मतलब यह भी है कि गुणांक अनुमानक और अवशिष्ट सामान्य रूप से वितरित किए जाते हैं और त्रुटि विचरण के लिए अनुमानक का स्केल ची-चुकता वितरण होता है (सभी) डिजाइन मैट्रिक्स में व्याख्यात्मक चर पर सशर्त)। यह यह भी सुनिश्चित करता है कि प्रतिक्रिया वेक्टर सशर्त रूप से वितरित किया जाता है। यह विश्लेषण में व्याख्यात्मक चर पर वितरणीय परिणाम सशर्त देता है, जो विश्वास अंतराल और परिकल्पना परीक्षणों के निर्माण की अनुमति देता है। यदि विश्लेषक प्रतिक्रिया के सीमांत वितरण के बारे में निष्कर्ष निकालना चाहते हैं, तो उन्हें मॉडल में व्याख्यात्मक चर के लिए और वितरण की आवश्यकता है।

संयुक्त रूप से सामान्य व्याख्यात्मक चर: होमोसिस्टैस्टिक लीनियर रिग्रेशन मॉडल के कुछ उपचार मानक उपचारों से आगे बढ़ते हैं, और निश्चित व्याख्यात्मक चर पर स्थिति नहीं बनाते हैं। (संभवतः यह प्रतिगमन मॉडलिंग और बहुभिन्नरूपी विश्लेषण में एक संक्रमण है।) इस तरह का सबसे आम मॉडल मानता है कि व्याख्यात्मक वैक्टर IID संयुक्त-सामान्य यादृच्छिक वैक्टर हैं। दे हो वें व्याख्यात्मक वेक्टर ( डिजाइन मैट्रिक्स के वीं पंक्ति) हमने: i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

यह अतिरिक्त धारणा यह सुनिश्चित करने के लिए पर्याप्त है कि प्रतिक्रिया वेक्टर को सामान्य रूप से वितरित किया गया है। यह एक मजबूत धारणा है और यह आमतौर पर ज्यादातर समस्याओं में नहीं लगाया जाता है। जैसा कि कहा गया है, यह प्रतिगमन मॉडलिंग के क्षेत्र के बाहर और बहुभिन्नरूपी विश्लेषण में मॉडल लेता है।


1
मुझे यह बहुत व्यावहारिक लगा, जिस तरह से आपने एक-एक करके मजबूत धारणाएँ पेश कीं और निहितार्थों का वर्णन किया।
कलरस्टैटिस्टिक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.