एनोवा: प्रति समूह कुछ नमूनों के साथ कई समूहों के लिए सामान्यता की धारणा का परीक्षण


12

निम्नलिखित स्थिति मान लें:

हमारे पास एक बड़ी संख्या है (उदाहरण के लिए 20) छोटे समूह के आकार (जैसे n = 3) के साथ। मैंने देखा कि अगर मैं समान वितरण से मान उत्पन्न करता हूं, तो अवशिष्ट लगभग सामान्य दिखाई देंगे, भले ही त्रुटि वितरण समान हो। निम्नलिखित आर कोड इस व्यवहार को प्रदर्शित करता है:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

यदि मैं तीन के समूह में एक नमूने के अवशिष्ट को देखता हूं, तो व्यवहार का कारण स्पष्ट है:

आर1=एक्स1-मतलब(एक्स1,एक्स2,एक्स3)=एक्स1-एक्स1+एक्स2+एक्स33=23एक्स1-एक्स2-एक्स3

यहाँ छवि विवरण दर्ज करें

चूँकि यादृच्छिक चर का योग है, न कि भिन्न मानक विचलन के साथ इसका वितरण व्यक्तिगत शर्तों की तुलना में सामान्य वितरण के काफी करीब है।आर1

अब मान लें कि नकली डेटा के बजाय वास्तविक डेटा के साथ मेरी भी यही स्थिति है। मैं आकलन करना चाहता हूं कि सामान्यता के संबंध में एनोवा की धारणाएं हैं या नहीं। अधिकांश अनुशंसित प्रक्रियाएं अवशिष्ट के दृश्य निरीक्षण (जैसे QQ- प्लॉट) या अवशिष्ट पर एक सामान्यता परीक्षण की सलाह देती हैं। जैसा कि ऊपर दिया गया मेरा उदाहरण छोटे समूहों के आकार के लिए वास्तव में इष्टतम नहीं है।

जब मेरे पास छोटे आकार के कई समूह हैं तो क्या कोई बेहतर विकल्प है?


1
कई कारणों से ऐसा प्रतीत होता है कि यह एक गैर-समस्या है। सबसे पहले, आपके अवशेष एक समान दिखाई देंगे: इसे देखने के लिए बड़ी संख्या में समूहों के लिए हिस्टोग्राम देखें। दूसरा, अधिकांश विश्लेषणों के लिए अवशिष्टों की सामान्यता बहुत कम महत्व रखती है; क्या मायने रखता है नमूना वितरण के अनुमानित सामान्यता। आपके आवेदन का कौन सा विशेष पहलू, तब, आपको लगता है कि कोई वास्तविक समस्या है?
whuber

1
a) मेरे अवशिष्ट एक समान नहीं दिखाई देंगे। मैंने 20 से 20000 तक कई समूहों (प्रति समूह नहीं नमूने) के लिए यह परीक्षण किया है। मैंने प्रश्न के लिए एक उदाहरण संलग्न किया है; यह एक समान और सामान्य के बीच की चीज की तरह प्रतीत होता है, जिसमें एक सामान्य प्रवृत्ति होती है। b) मुझे पता है कि यह नमूना वितरण की अनुमानित सामान्यता के बारे में है। यह प्रश्न का संपूर्ण बिंदु है क्योंकि अवशेष सामान्य दिखेंगे, लेकिन नमूना वितरण नहीं है। इसलिए मैं नमूना वितरण के गुणों का परीक्षण करने के लिए अवशिष्टों का उपयोग नहीं कर सकता।
एरिक

2
वह सही है। लेकिन क्या आप वास्तव में त्रुटियों के वितरण में रुचि रखते हैं या आप एनोवा प्रदर्शन करने में रुचि रखते हैं? (मैं इस सवाल का मतलब निकालने की कोशिश नहीं कर रहा हूं कि इसे अनदेखा किया जाना चाहिए - यह एक आकर्षक मुद्दा है जिसे आपने उठाया है - लेकिन मैं केवल सोच रहा हूं कि क्या आपको वास्तव में आपके डेटा विश्लेषण के साथ आगे बढ़ने के लिए उत्तर की आवश्यकता है।)
व्हुबर

3
लेकिन आप अपने मामले में एनोवा की मजबूती की जांच के लिए उसी सिमुलेशन का उपयोग कर सकते हैं!
kjetil b halvorsen

4
एक थोड़ा स्पर्शनीय लेकिन प्रासंगिक टिप्पणी: आम तौर पर, एक परिकल्पना परीक्षण प्रस्तुत करने से पहले सामान्यता (या एक और मॉडल धारणा) के लिए एक परीक्षण का उपयोग करते हुए (कम से कम) तीन समस्याएं: 1) यदि आप ऐसा करते हैं, तो आपको कई परीक्षण करने की आवश्यकता है; 2) वैकल्पिक परिकल्पना को अस्वीकार करना, उदाहरण के लिए, "सामान्य नहीं" का मतलब यह नहीं है कि आप सामान्यता को समाप्त कर सकते हैं; 3) मॉडल मान्यताओं के लिए टेस्ट की अपनी मॉडल धारणाएं हैं, तो आप कहां रुकते हैं?
मार्था

जवाबों:


1

इस जवाब पर काम करना, पूरी तरह से नहीं किया गया। मुझे इस पर कुछ जानकारी है लेकिन समझाने में थोड़ा समय लगता है। इसके लिए, हमें विचार करना चाहिए कि मानक विचलन छोटी संख्या के लिए पक्षपाती है। इसका कारण यह है कि अगर हम किसी भी दो संख्याओं को लेते हैं, तो हम मनमाने ढंग से नमूना का अर्थ असाइन करते हैं , जहां जनसंख्या का अर्थ है, , बहुत अच्छी तरह से कहीं भी हो सकता है बीच का अंतराल या वह या हो सकता है । इसका मतलब है कि औसत । इस प्रकार, यह केवल तभी होता है जब कि यह पूर्वाग्रह छोटा हो जाता हैa + b<+2σ(,)σ<σ>एसडी<σn>100। एसडी की एक लंबी श्रृंखला के लिए प्रत्येक की छोटी संख्या के लिए, एसडी गणना अधिक सटीक, और अधिक स्पष्ट रूप से गलत हो जाती है।

अब, अपने हाथों को निराशा में फेंकने के बजाय, हम अपने एसडी के सामान्य परिस्थितियों में कम संख्या में सुधार लागू कर सकते हैं। (हा! हमारे दुख का हल है।)

एसडी(n)μ(n)=2n-1Γ(n2)Γ(n-12)=1-14n-732n2-19128n3+हे(n-4)[μ]

n=3Γ(32)=π2.८८६२२६९२५५σ

अब आपके द्वारा प्रस्तुत मामले में आपके पास कई अन्य चीजें भी चल रही हैं। जैसा कि होता है, एक समान वितरण के स्थान का सबसे अच्छा उपाय मतलब नहीं है। हालांकि नमूना माध्य और नमूना माध्यिका दोनों मध्य बिंदु के निष्पक्ष अनुमानक हैं, न तो नमूना मध्य-सीमा के रूप में उतना ही कुशल है, अर्थात, नमूना का अंकगणित माध्य अधिकतम और नमूना न्यूनतम, जो न्यूनतम-भिन्न निष्पक्ष अनुमानक UMVU है मिडपॉइंट का अनुमानक (और अधिकतम संभावना अनुमान भी)।

अब बात मांस की। यदि आप चरम मूल्यों के औसत का उपयोग करते हैं, तो स्थान के माप का विचरण छोटा होगा, बशर्ते कि आपका डेटा वास्तव में एक समान वितरित हो। यह सामान्य रूप से वितरित किया जा सकता है क्योंकि एक एकल चरम मूल्य पूंछ अच्छी तरह से सामान्य हो सकती है। केवल 3-नमूनों के साथ, हालांकि, मानक विचलन में सुधार की आवश्यकता होगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.