एनोवा धारणाएं (विचरण की समानता, अवशिष्टों की सामान्यता) क्यों मायने रखती हैं?


15

एनोवा को चलाते समय हमें बताया जाता है कि डेटा पर लागू होने के लिए परीक्षण की कुछ धारणाएँ मौजूद होनी चाहिए। मुझे कभी यह कारण समझ में नहीं आया कि परीक्षण करने के लिए निम्नलिखित धारणाएँ क्यों आवश्यक थीं:

  1. डिज़ाइन के प्रत्येक सेल में आपके आश्रित चर (अवशिष्ट) का विचरण बराबर होना चाहिए

  2. आपके आश्रित चर (अवशिष्ट) को डिज़ाइन के प्रत्येक सेल के लिए सामान्य रूप से वितरित किया जाना चाहिए

मैं समझता हूं कि एक ग्रे क्षेत्र है, जैसे कि इन धारणाओं को पूरा करने की आवश्यकता है, लेकिन तर्क के लिए, यदि इन मान्यताओं को दिए गए डेटा सेट में पूरी तरह से नहीं मिला है, तो एक एनोवा का उपयोग करने के साथ क्या समस्या होगी ?


आपके अध्ययन का लक्ष्य क्या है?
सुभाष सी। डावर

जवाबों:


8

मान्यताओं से कोई फर्क नहीं पड़ता क्योंकि वे उन परिकल्पना परीक्षणों (और अंतराल) के गुणों को प्रभावित करते हैं, जिनका आप उपयोग कर सकते हैं, जिनके शून्य के तहत वितरण गुण उन गणनाओं पर निर्भर हैं।

विशेष रूप से, परिकल्पना परीक्षणों के लिए, जिन चीजों के बारे में हम ध्यान रख सकते हैं, वे यह हैं कि जो हम चाहते हैं, उससे वास्तविक महत्व का स्तर कितना दूर हो सकता है, और क्या ब्याज के विकल्पों के खिलाफ शक्ति अच्छी है।

उन मान्यताओं के संबंध में जिनसे आप पूछते हैं:

1. विचरण की समानता

डिज़ाइन के प्रत्येक सेल में आपके आश्रित चर (अवशिष्ट) का विचरण बराबर होना चाहिए

यह निश्चित रूप से महत्व स्तर को प्रभावित कर सकता है, कम से कम जब नमूना आकार असमान हो।

(संपादित करें :) एक एनोवा एफ-स्टेटिस्टिक विचरण के दो अनुमानों का अनुपात है (विभेदों का विभाजन और तुलना इसलिए इसे विचरण का विश्लेषण कहा जाता है)। भाजक माना जाता है कि आम-से-सभी-कोशिकाओं त्रुटि विचरण (अवशिष्ट से गणना) का अनुमान है, जबकि अंश, समूह में भिन्नता के आधार पर, दो घटक होंगे, जनसंख्या में भिन्नता से एक और साधन त्रुटि विचरण के कारण। यदि शून्य सही है, तो जो दो संस्करण अनुमान लगाए जा रहे हैं, वे समान होंगे (सामान्य त्रुटि विचरण के दो अनुमान); यह सामान्य लेकिन अज्ञात मूल्य रद्द कर देता है (क्योंकि हमने एक अनुपात लिया था), एक एफ-स्टेटिस्टिक छोड़कर जो केवल त्रुटियों के वितरण पर निर्भर करता है (जो कि हम जो अनुमान दिखा सकते हैं उसके तहत एक एफ वितरण है। - इसी तरह की टिप्पणी टी पर लागू होती है) परीक्षण मैं चित्रण के लिए इस्तेमाल किया।)

[मेरे जवाब में उस जानकारी में से कुछ पर थोड़ा और विस्तार है ]

हालांकि, यहां दो जनसंख्या भिन्नताएं दो अलग-अलग आकार के नमूनों में भिन्न हैं। भाजक (एनोवा में एफ-स्टेटिस्टिक और टी-टेस्ट में टी-स्टेटिस्टिक) पर विचार करें - यह दो अलग-अलग भिन्न अनुमानों से बना है, एक नहीं, इसलिए इसमें "सही" वितरण (स्केल ची) नहीं होगा एफ के लिए -square और इसके वर्गमूल के मामले में - आकार और पैमाने दोनों ही मुद्दे हैं)।

नतीजतन, एफ-स्टेटिस्टिक या टी-स्टेटिस्टिक के पास अब एफ- या टी-वितरण नहीं होगा, लेकिन जिस तरह से यह प्रभावित होता है वह अलग-अलग होता है या नहीं, यह इस बात पर निर्भर करता है कि जनसंख्या से बड़ा या छोटा नमूना किसके साथ खींचा गया था। बड़ा विचरण। यह बदले में पी-मूल्यों के वितरण को प्रभावित करता है।

अशक्त (यानी जब जनसंख्या का मतलब समान हो) के तहत, पी-वैल्यू का वितरण समान रूप से वितरित किया जाना चाहिए। हालाँकि, यदि संस्करण और नमूना आकार असमान हैं, लेकिन साधन समान हैं (इसलिए हम शून्य को अस्वीकार नहीं करना चाहते हैं), पी-मान समान रूप से वितरित नहीं हैं। मैंने आपको यह दिखाने के लिए एक छोटा सा अनुकरण किया। इस मामले में, मैंने केवल 2 समूहों का उपयोग किया ताकि एनोवा दो समान नमूना टी परीक्षण के बराबर है, जो समान विचरण धारणा के साथ है। इसलिए मैंने दो सामान्य वितरणों से नमूनों का अनुकरण किया, जिनमें से एक मानक विचलन के साथ दस गुना बड़ा था, लेकिन समान साधन।

बाईं ओर के भूखंड के लिए, बड़ा ( जनसंख्या ) मानक विचलन n = 5 के लिए था और छोटा मानक विचलन n = 30 के लिए था। दाईं ओर के भूखंड के लिए बड़ा मानक विचलन n = 30 और छोटा n = 5 के साथ गया। मैंने प्रत्येक एक बार 10000 का अनुकरण किया और हर बार पी-वैल्यू पाया। प्रत्येक मामले में आप चाहते हैं कि हिस्टोग्राम पूरी तरह से सपाट (आयताकार) हो, क्योंकि इसका मतलब है कि कुछ महत्व स्तर पर किए गए सभी परीक्षण वास्तव में उस प्रकार की त्रुटि दर प्राप्त करते हैं। विशेष रूप से यह सबसे महत्वपूर्ण है कि हिस्टोग्राम के सबसे बाएं हिस्से ग्रे लाइन के करीब रहें:α

नकली नमूनों के लिए पी-मूल्यों के हिस्टोग्राम

जैसा कि हम देखते हैं, बाईं ओर का भूखंड (छोटे नमूने में बड़ा विचरण) पी-मान बहुत छोटा है - हम अशक्त परिकल्पना को बहुत बार अस्वीकार करेंगे (इस उदाहरण में लगभग आधा समय) भले ही शून्य सही हो । अर्थात्, हमारे द्वारा पूछे जाने की तुलना में हमारे महत्व का स्तर बहुत बड़ा है। दाहिने हाथ की ओर की साजिश में हम देखते हैं कि पी-वैल्यू ज्यादातर बड़े हैं (और इसलिए हमारा महत्व स्तर हमारे द्वारा पूछे गए से बहुत छोटा है) - वास्तव में दस हजार सिमुलेशन में एक बार नहीं हमने 5% के स्तर पर अस्वीकार कर दिया (सबसे छोटा) यहाँ पी-वैल्यू 0.055 था)। [यह इतनी बुरी बात नहीं लग सकती है, जब तक हम याद नहीं करते कि हमारे पास बहुत महत्वपूर्ण महत्व के स्तर के साथ जाने के लिए बहुत कम शक्ति होगी।]

यह काफी एक परिणाम है। यही कारण है कि यह एक अच्छा विचार है कि जब हम वेरिंस समान रूप से इन स्थितियों में प्रभावित होते हैं, तो यह मानने के लिए हमारे पास एक अच्छा कारण नहीं है कि वेल-सेटरथाइट टाइप टी-टेस्ट या एनोवा का उपयोग करें। इस मामले को भी नकली बनाया; नकली पी-मानों के दो वितरण - जो मैंने यहां नहीं दिखाए हैं - फ्लैट के काफी करीब से बाहर आए)।

2. प्रतिक्रिया का सशर्त वितरण (DV)

आपके आश्रित चर (अवशिष्ट) को डिज़ाइन के प्रत्येक सेल के लिए सामान्य रूप से वितरित किया जाना चाहिए

यह कुछ हद तक कम महत्वपूर्ण है - सामान्य से मध्यम विचलन के लिए, महत्व का स्तर बड़े नमूनों में बहुत अधिक प्रभावित नहीं होता है (हालांकि शक्ति हो सकती है!)।

nn

H0 के सही होने पर p-मानों का हिस्टोग्राम, लेकिन प्रत्येक समूह में वितरण घातीय हैं

हम देखते हैं कि n = 5 में बहुत कम पी-मान हैं (5% परीक्षण के लिए महत्व का स्तर लगभग आधा होगा जो इसे होना चाहिए), लेकिन n = 50 पर समस्या कम हो गई है - 5% के लिए इस मामले में परीक्षण का वास्तविक महत्व स्तर लगभग 4.5% है।

तो हमें यह कहने के लिए लुभाया जा सकता है कि "ठीक है, यह ठीक है, अगर n काफी बड़ा है ताकि महत्वपूर्ण स्तर बहुत करीब हो सके", लेकिन हम एक तरह से शक्ति का अच्छा सौदा भी फेंक सकते हैं। विशेष रूप से, यह ज्ञात है कि व्यापक रूप से उपयोग किए जाने वाले विकल्पों के सापेक्ष टी-टेस्ट की एसिम्प्टोटिक सापेक्ष दक्षता 0. जा सकती है। इसका मतलब है कि बेहतर परीक्षण विकल्प नमूना आकार के लुप्तप्राय छोटे अंश के साथ इसे प्राप्त करने के लिए आवश्यक शक्ति प्राप्त कर सकते हैं। टी-टेस्ट। आपको साधारण से हटकर कुछ भी करने की आवश्यकता नहीं है, यह कहने की आवश्यकता है कि डेटा के साथ दो बार अधिक से अधिक होने के लिए टी के साथ एक ही शक्ति है जैसा कि आपको वैकल्पिक परीक्षण के साथ की आवश्यकता होगी - जनसंख्या वितरण में सामान्य से अधिक भारी-सामान्य पूंछ और मध्यम बड़े नमूने इसे करने के लिए पर्याप्त हो सकते हैं।

(वितरण के अन्य विकल्प महत्त्वपूर्ण स्तर को इससे कहीं अधिक कर सकते हैं, या जितना हमने यहाँ देखा है उससे बहुत कम है।)


विस्तृत प्रतिक्रिया के लिए धन्यवाद ग्लेन। मुझे इस बात की उत्सुकता है कि जिन त्रुटियों का आपने वर्णन किया है, यदि मान्यताओं को पूरा नहीं किया गया है, तो विचरण की समानता के संदर्भ में, क्या मैं आपके लेखन को निम्नलिखित से लेने में सही हूं ?: एक छोटा सा नमूना आकार समूह होने से उत्पन्न होने वाला मुद्दा? बड़ा विचरण होता है (साथ ही सामान्य रूप से n = 5 में छोटे होने वाले डेटा बिंदुओं की संख्या) जो कि छोटे नमूने में देखे गए बड़े विचरण की गणना जनसंख्या स्तर पर विचरण के प्रतिनिधि के रूप में की जा रही है।
पेपररोकबज़ूका

(भाग 2) यह अनिवार्य रूप से एक प्रतिनिधि नमूने और एक प्रतिनिधि प्रतिनिधि (अपेक्षाकृत बोलने) के बीच एक अनुचित तुलना है जो ANOVA संसाधित होने के कारण टाइप 1 त्रुटि का कारण बन सकता है।
पेपररोकबज़ूका

@ पेपर मुझे नहीं लगता कि यहाँ मुद्दा है। यह छोटे नमूने में नमूना विचरण का प्रतिनिधित्व नहीं है (उदाहरण के लिए यदि दोनों नमूने समान रूप से छोटे थे, तो आपको प्रतिनिधित्व के साथ समस्या दोगुनी होगी, लेकिन यह मुद्दा अनुपस्थित होगा)। मैंने अपने उत्तर में यह बताने के लिए कुछ पैराग्राफ जोड़े हैं कि समस्या अधिक विस्तार से कैसे उत्पन्न होती है।
Glen_b -Reinstate मोनिका

4

संक्षेप में, एनोवा है जोड़ने , बराबरी और औसत बच । अवशिष्ट आपको बताते हैं कि आपका मॉडल डेटा को कितनी अच्छी तरह फिट करता है। इस उदाहरण के लिए, मैंने इसमें PlantGrowthडेटासेट का उपयोग किया है R:

एक नियंत्रण और दो अलग-अलग उपचार स्थितियों के तहत प्राप्त पैदावार (पौधों के सूखे वजन से मापा जाता है) की तुलना करने के लिए एक प्रयोग के परिणाम।

यह पहला कथानक आपको उपचार के सभी तीन स्तरों पर भव्य साधन दिखाता है:

यहाँ छवि विवरण दर्ज करें

लाल रेखाएँ अवशिष्ट हैं । अब उन व्यक्तिगत लाइनों की लंबाई को जोड़कर और जोड़कर, आपको एक मूल्य मिलेगा जो बताता है कि डेटा का मतलब (हमारे मॉडल) कितनी अच्छी तरह बताता है। एक छोटी संख्या, आपको आपके डेटा बिंदुओं का अच्छी तरह से वर्णन करने का मतलब बताती है, एक बड़ी संख्या आपको बताती है कि इसका मतलब आपके डेटा का इतनी अच्छी तरह से वर्णन नहीं करता है। इस संख्या को वर्गों का कुल योग कहा जाता है :

SStotal=(xix¯grand)2xix¯gran

अब आप अपने उपचार में अवशेषों के लिए एक ही काम करते हैं ( रेसिडुअल सेम्स ऑफ़ स्क्वेयर , जिसे उपचार स्तरों में शोर के रूप में भी जाना जाता है):

यहाँ छवि विवरण दर्ज करें

और सूत्र:

SSresiduals=(xikx¯k)2xikikx¯k

अंत में, हमें डेटा में सिग्नल को निर्धारित करने की आवश्यकता है , जिसे मॉडल सम्स ऑफ़ स्क्वॉयर के रूप में जाना जाता है , जिसे बाद में गणना करने के लिए उपयोग किया जाएगा कि क्या उपचार के साधन भव्य माध्य से अलग हैं:

यहाँ छवि विवरण दर्ज करें

और सूत्र:

SSmodel=nk(x¯kx¯grand)2nknkx¯kx¯grand

अब वर्गों के योगों के साथ नुकसान यह है कि वे नमूना आकार में वृद्धि के रूप में बड़े हो जाते हैं। डेटा सेट में अवलोकन की संख्या के सापेक्ष वर्गों के उन योगों को व्यक्त करने के लिए, आप उन्हें स्वतंत्रता की उनकी डिग्री द्वारा उन्हें भिन्न रूप में विभाजित करते हैं। इसलिए स्क्वेरिंग और अपने डेटा बिंदुओं को जोड़ने के बाद अब आप उनकी स्वतंत्रता की डिग्री का उपयोग करके उन्हें औसत कर रहे हैं :

dftotal=(n1)

dfresidual=(nk)

dfmodel=(k1)

nk

इसका परिणाम मॉडल मीन स्क्वायर और अवशिष्ट माध्य स्क्वायर (दोनों भिन्न हैं), या शोर अनुपात का संकेत है, जिसे एफ-मूल्य के रूप में जाना जाता है:

MSmodel=SSmodeldfmodel

MSresidual=SSresidualdfresidual

F=MSmodelMSresidual

एफ-मूल्य शोर अनुपात के संकेत का वर्णन करता है, या क्या उपचार का मतलब भव्य साधन से अलग है। एफ-वैल्यू का उपयोग अब पी-वैल्यू की गणना करने के लिए किया जाता है और वे यह तय करेंगे कि कम से कम उपचार के साधनों में से एक भव्य साधन से काफी अलग होगा या नहीं।

अब मुझे आशा है कि आप देख सकते हैं कि मान्यताओं अवशिष्ट के साथ गणना पर आधारित हैं और वे महत्वपूर्ण क्यों हैं। चूंकि हम अवशिष्टों को जोड़ते हैं , स्क्वेरिंग और औसत करते हैं, इसलिए हमें यह सुनिश्चित करना चाहिए कि इससे पहले कि हम ऐसा कर रहे हैं, उन उपचार समूहों में डेटा समान व्यवहार करता है , या फिर एफ-मूल्य कुछ हद तक पक्षपाती हो सकता है और इस एफ-मूल्य से तैयार किए गए निष्कर्ष मान्य नहीं है।

संपादित करें: मैंने विशेष रूप से ओपी के प्रश्न 2 और 1 को संबोधित करने के लिए दो पैराग्राफ जोड़े

सामान्य धारणा : माध्य (या अपेक्षित मान) का उपयोग अक्सर वितरण के केंद्र का वर्णन करने के लिए आँकड़ों में किया जाता है, हालांकि यह बहुत मजबूत नहीं है और आसानी से बाहरी लोगों द्वारा प्रभावित होता है। माध्य सबसे सरल मॉडल है जिसे हम डेटा में फिट कर सकते हैं। चूंकि एनोवा में हम अवशिष्टों और वर्गों के योगों की गणना करने के लिए माध्य का उपयोग कर रहे हैं (ऊपर दिए गए सूत्र देखें), डेटा को सामान्य रूप से वितरित किया जाना चाहिए (सामान्यता धारणा)। यदि यह मामला नहीं है, तो माध्य डेटा के लिए उपयुक्त मॉडल नहीं हो सकता है क्योंकि यह हमें नमूना वितरण के केंद्र का सही स्थान नहीं देगा। इसके बजाय एक बार उदाहरण के लिए माध्यिका का उपयोग कर सकते हैं (गैर पैरामीट्रिक परीक्षण प्रक्रिया देखें)।

प्रसरण धारणा की समरूपता : बाद में जब हम मीन वर्गों (मॉडल और अवशिष्ट) की गणना करते हैं, तो हम उपचार स्तरों से वर्गों के व्यक्तिगत योगों को पूल कर रहे हैं और उन्हें औसत (ऊपर दिए गए सूत्र देखें)। पूलिंग और औसत से हम अलग-अलग उपचार स्तर के बदलावों की जानकारी खो रहे हैं और औसत वर्ग के लिए उनके योगदान। इसलिए, हमारे पास सभी उपचार स्तरों के बीच लगभग एक ही विचरण होना चाहिए ताकि माध्य वर्गों में योगदान समान हो। यदि उन उपचार स्तरों के बीच भिन्नताएं भिन्न थीं, तो परिणामी माध्य वर्ग और F- मान पक्षपाती होंगे और इन p-मानों से खींचे गए इन-वैल्यू की गणना को प्रभावित करेंगे, जो संदेहास्पद है (@whuber की टिप्पणी भी देखें) @Glen_b का जवाब)।

यह मैं इसे अपने लिए कैसे देखता हूं। यह 100% सटीक नहीं हो सकता है (मैं एक सांख्यिकीविद् नहीं हूं) लेकिन यह मुझे यह समझने में मदद करता है कि एनोवा के लिए मान्यताओं को संतुष्ट करना क्यों महत्वपूर्ण है।


एफएफएफएफएफ

एफएफ

धन्यवाद स्टीफन। मैं यह देखना चाहता हूं कि क्या मैं आपको सही तरीके से समझ रहा हूं। एनोवा अनिवार्य रूप से सेट के सभी डेटा बिंदुओं से बाहर एक भव्य मतलब बनाता है और तुलना करता है कि प्रत्येक समूह इस भव्य साधन से कितना अलग है यह समझने के लिए कि क्या उनके बीच एक सांख्यिकीय महत्वपूर्ण अंतर है। यदि चर्चा की गई मान्यताओं को पूरा नहीं किया जाता है, तो भव्य का मतलब समूहों की तुलना करने के प्रति बहुत चिंतनशील नहीं है और यह तुलना की कठिनाई की ओर जाता है
पेपररॉकबज़ूका

@PaperRockBazooka एक एनोवा में आप शोर की तुलना सिग्नल से कर रहे हैं। यदि आप एक संकेत का पता नहीं लगा सकते हैं, अर्थात परिणाम पर आपके उपचार का प्रभाव है, तो आप डेटा का वर्णन करने के लिए मॉडल के रूप में भव्य साधन ले सकते हैं। हम भव्य माध्य के डेटा बिंदुओं के अंतर का उपयोग कर रहे हैं (एसएसटीटीएल), उपचार के लिए डेटा बिंदुओं का अंतर ()एसएसआररोंमैंयूएल), और उपचार के अंतर का मतलब है भव्य साधन (एसएसएल) शोर अनुपात को संकेत निर्धारित करने के लिए। हाथ से एक सरल वन-वे एनोवा की गणना करने का प्रयास करें। इससे मुझे बेहतर तरीके से समझने में मदद मिली।
स्टेफान

0

एनोवा यह सिर्फ एक तरीका है, यह आपके नमूनों से एफ-परीक्षण की गणना करता है और इसकी तुलना एफ-वितरण से करता है। आपको यह तय करने के लिए कुछ मान्यताओं की आवश्यकता है कि आप पी-वैल्यू की तुलना और गणना करना चाहते हैं।

यदि आप उस धारणा को पूरा नहीं करते हैं तो आप अन्य चीजों की गणना कर सकते हैं लेकिन यह एक एनोवा नहीं होगी।

सबसे उपयोगी वितरण सामान्य है (सीएलटी के कारण), यही कारण है कि यह सबसे अधिक उपयोग किया जाता है। यदि आपका डेटा सामान्य रूप से वितरित नहीं है, तो आपको कम से कम यह जानने की आवश्यकता है कि किसी चीज़ की गणना करने के लिए उसका वितरण क्या है।

Homoscedasticity प्रतिगमन विश्लेषण में भी एक आम धारणा है, यह बस चीजों को आसान बनाता है। हमें शुरुआत के लिए कुछ मान्यताओं की आवश्यकता है।

यदि आपके पास समरूपता नहीं है, तो आप इसे प्राप्त करने के लिए अपने डेटा को बदलने का प्रयास कर सकते हैं।

ANOVA F- परीक्षण झूठी सकारात्मक त्रुटियों की एक निश्चित दर के लिए झूठी नकारात्मक त्रुटियों को कम करने के अर्थ में लगभग इष्टतम माना जाता है


"एनोवा" वर्गों के व्याख्यात्मक योगों को व्याख्यात्मक घटकों में बदलने की प्रक्रिया को संदर्भित करता है। वितरण संबंधी मान्यताओं के बावजूद, फिर, एक एनोवा एक एनोवा है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.