ANOVA मान्यताओं की जाँच करना


16

कुछ महीने पहले मैंने R पर SO में समरूपता परीक्षण के बारे में एक प्रश्न पोस्ट किया था, और इयान फेलो ने उत्तर दिया कि (मैं उनके उत्तर को बहुत शिथिल कर दूंगा):

अपने मॉडल के फिट होने का परीक्षण करते समय होमोसिस्टैसिटी परीक्षण एक अच्छा उपकरण नहीं है। छोटे नमूनों के साथ, आपके पास समरूपता से प्रस्थान का पता लगाने के लिए पर्याप्त शक्ति नहीं है, जबकि बड़े नमूनों के साथ आपके पास "बहुत अधिक शक्ति" है, इसलिए आपको समानता से तुच्छ प्रस्थानों की स्क्रीन करने की अधिक संभावना है।

उनका शानदार जवाब मेरे चेहरे पर एक थप्पड़ के रूप में आया। मैं हर बार जब मैं एनोवा चलाता था, तब मैं सामान्यता और होमोसैसिडिटी मान्यताओं की जांच करता था।

ANOVA मान्यताओं की जाँच करते समय, आपकी राय में, सबसे अच्छा अभ्यास क्या है?

जवाबों:


11

लागू सेटिंग्स में यह जानना आम तौर पर अधिक महत्वपूर्ण है कि क्या अनुमानों का उल्लंघन उल्लंघन के लिए समस्याग्रस्त है।

महत्व परीक्षणों के आधार पर अनुमान परीक्षण शायद ही कभी बड़े नमूनों में रुचि रखते हैं, क्योंकि अधिकांश अवर परीक्षण मान्यताओं के हल्के उल्लंघन के लिए मजबूत होते हैं।

मान्यताओं के चित्रमय आकलन की एक अच्छी विशेषता यह है कि वे उल्लंघन की डिग्री पर ध्यान केंद्रित करते हैं न कि किसी भी उल्लंघन के सांख्यिकीय महत्व पर।

हालाँकि, आपके डेटा के संख्यात्मक सारांश पर ध्यान केंद्रित करना संभव है, जो मान्यताओं के उल्लंघन की मात्रा निर्धारित करता है और सांख्यिकीय महत्व नहीं है (जैसे, तिरछा मूल्यों, कुर्तोसिस मूल्यों, सबसे बड़े समूह के सबसे बड़े संस्करणों के अनुपात, आदि)। आप इन मूल्यों पर मानक त्रुटियां या विश्वास अंतराल भी प्राप्त कर सकते हैं, जो बड़े नमूनों के साथ छोटे हो जाएंगे। यह परिप्रेक्ष्य सामान्य विचार के अनुरूप है कि सांख्यिकीय महत्व व्यावहारिक महत्व के बराबर नहीं है।


1
महान जवाब के लिए +1 जो सब कुछ लपेटता है। उल्लिखित संख्यात्मक प्रक्रियाओं को कैसे लागू किया जाता है, यह अच्छी तरह से और व्यावहारिक रूप से Tabachnik और Fidell के मल्टीवेरेट सांख्यिकी (SPSS और एसएएस के लिए) का उपयोग करने में वर्णित है: amazon.com/Using-Multivariate-Statistics-Babbara-Tabachnick/dp/… (लेकिन इरेटा पर देखें साथ में वेब पेज)
हेनरिक

वैसे, मुझे लगता है कि ज्यादातर समय जैसे कि तिरछा और कुर्तोसिस का मूल्य बहुत कम है, उनका नमूना भिन्नता सिर्फ बड़े पैमाने पर है। हालांकि उन्हें L_skewness और L-kurtosis के साथ प्रतिस्थापित करने पर विचार किया जा सकता है।
kjetil b halvorsen

@kjetilbhalvorsen मुझे लगता है कि यह इस बात पर निर्भर करता है कि आप किस प्रकार के नमूना आकार के साथ आमतौर पर काम करते हैं। मेरे अनुभव में, भूखंड और तिरछा आँकड़े डेटा के वितरण को समझने में बहुत सहायक हैं।
जेरोमे एंग्लीम

@Jeromy Anglim: ठीक है। फिर मुझे लगता है कि आपके पास आमतौर पर बहुत बड़े नमूना आकार हैं! क्या आपने अपने तिरछेपन / कुर्तोसिस गुणांक को बूटस्ट्रैप करने की कोशिश की थी?
kjetil b halvorsen 23

9

सामान्यता या समरूपता की कसौटी से पी मूल्य की तुलना में आमतौर पर कुछ रेखांकन बहुत अधिक ज्ञानवर्धक होंगे। प्लॉट ने स्वतंत्र चर के खिलाफ आश्रित चर देखे। फिट के खिलाफ प्लॉट अवलोकन। स्वतंत्र चर के खिलाफ प्लॉट अवशिष्ट। इन भूखंडों पर अजीब लगने वाली किसी भी चीज़ की जाँच करें। अगर कुछ अजीब नहीं लगता है, तो मैं एक महत्वपूर्ण परीक्षण के बारे में चिंता नहीं करूंगा।


ज्यादातर समय अच्छी सलाह, लेकिन बड़े डेटासेट के मामले के बारे में क्या है, जहां आप मैन्युअल रूप से सभी डेटा के माध्यम से नहीं देख सकते हैं?
dsimcha

1
n1n2<ασ2

2
@dsimcha फिर से बड़े डेटासेट: आप "बड़े" से क्या मतलब है पर निर्भर करता है। कई प्रेक्षण? अच्छे ग्राफिक्स (बॉक्सप्लेट, घिसे हुए डॉटप्लेट्स, सूरजमुखी) का उपयोग करें। कई स्वतंत्र चर? हां, आपके पास एक बिंदु है ... लेकिन अगर आपके पास बहुत सारे IVs हैं, तो आप DV को प्रत्येक के खिलाफ साजिश नहीं कर सकते हैं, मैं सवाल करूंगा कि एक एनोवा का उपयोग करना - ऐसा लगता है कि यह किसी भी व्याख्या में कठिन हो सकता है मामला। कुछ स्मार्ट मशीन लर्निंग एप्रोच बेहतर हो सकते हैं (ब्रायन डी। रिपले: "उत्तेजक रूप से
विरोधाभास

अच्छी टिप्पणी, +1। भले ही यह विशिष्ट प्रश्न एनोवा के बारे में है, मैं अपनी प्रतिक्रिया लिखने पर भूखंड बनाम परीक्षणों के प्रश्न के बारे में अधिक सामान्य स्तर पर सोच रहा था।
dsimcha

4

एनोवा की मान्यताओं की जाँच करने और असफल होने पर क्या करना है, इसके लिए कुछ बहुत अच्छे वेब गाइड हैं। यहाँ एक है। यह एक और है।

अनिवार्य रूप से आपकी आंख सबसे अच्छा न्यायाधीश है, इसलिए कुछ खोजपूर्ण डेटा विश्लेषण करें । इसका मतलब है कि डेटा को प्लॉट करें - हिस्टोग्राम और बॉक्स प्लॉट सामान्यता और समरूपता का आकलन करने का एक अच्छा तरीका है। और याद रखें कि एनोवा इन के मामूली उल्लंघन के लिए मजबूत है।


4

QQ प्लॉट्स गैर-सामान्यता का पता लगाने के लिए बहुत अच्छे तरीके हैं।

समरूपता के लिए, लेवेने के परीक्षण या ब्राउन-फोर्सिथे परीक्षण का प्रयास करें। दोनों समान हैं, हालांकि बीएफ थोड़ा अधिक मजबूत है। वे बार्टलेट के परीक्षण की तुलना में गैर-सामान्यता के प्रति कम संवेदनशील हैं, लेकिन फिर भी, मैंने पाया है कि उन्हें सबसे अच्छा नमूना आकार के साथ सबसे विश्वसनीय नहीं होना चाहिए।

QQ प्लॉट

ब्राउन-फोर्सिथे परीक्षण

लेवेने का परीक्षण


सापेक्ष-वितरण भूखंड (या उदाहरण, सामान्य वितरण की तुलना) एक अच्छा प्रतिस्थापन हो सकता है, क्योंकि उनकी व्याख्या शुरुआती लोगों के लिए स्पष्ट हो सकती है।
kjetil b halvorsen

3

मैं दूसरों से सहमत हूं कि मान्यताओं के लिए महत्व परीक्षण समस्याग्रस्त है।

मैं एक एकल प्लॉट बनाकर इस समस्या से निपटना पसंद करता हूं जो सटीक प्रकार I त्रुटि और निम्न प्रकार II त्रुटि (उच्च शक्ति) के लिए आवश्यक सभी मॉडल मान्यताओं को उजागर करता है। 2 समूहों (दो नमूना टी-परीक्षण) के साथ एनोवा के मामले के लिए यह भूखंड समूह द्वारा स्तरीकृत अनुभवजन्य संचयी वितरण समारोह (ECDF) का सामान्य व्युत्क्रम है (पहले के पोस्ट में QQ कथानक टिप्पणी देखें)। टी-टेस्ट में अच्छा प्रदर्शन करने के लिए, दो वक्रों को समानांतर सीधी रेखाओं की आवश्यकता होती है। के लिएसामान्य रूप से एनोवा की -sample समस्या समानांतर सीधी रेखाएँ।

विल्कोक्सन और क्रुस्कल-वालिस परीक्षणों जैसे अर्ध-पैरामीट्रिक (रैंक) विधियां बहुत कम धारणाएं बनाती हैं। ईसीडीएफ का लॉग विल्कोक्सन-क्रुकल-वालिस परीक्षणों के लिए समानांतर होना चाहिए जिसमें अधिकतम शक्ति हो (टाइप I त्रुटि उनके लिए कभी कोई समस्या नहीं है)। रैखिकता की आवश्यकता नहीं है। रैंक परीक्षण इस बारे में धारणा बनाते हैं कि विभिन्न समूहों के वितरण अन्य से कैसे संबंधित हैं, लेकिन किसी एक वितरण के आकार के बारे में धारणा नहीं बनाते हैं।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.