ANOVA धारणा सामान्यता / अवशिष्टों का सामान्य वितरण


52

एनोवा पर विकिपीडिया पृष्ठ तीन मान्यताओं को सूचीबद्ध करता है , अर्थात्:

  • मामलों की स्वतंत्रता - यह उस मॉडल की धारणा है जो सांख्यिकीय विश्लेषण को सरल बनाता है।
  • सामान्यता - अवशिष्टों के वितरण सामान्य हैं।
  • भिन्नता की समानता (या "समरूपता"), जिसे समरूपता कहा जाता है ...

यहां रुचि का बिंदु दूसरी धारणा है। कई स्रोत धारणा को अलग तरीके से सूचीबद्ध करते हैं। कुछ कच्चे डेटा की सामान्यता कहते हैं, कुछ अवशेषों का दावा करते हैं।

कई प्रश्न पॉप अप:

  • सामान्य व्यक्ति और अवशेषों का सामान्य वितरण एक ही व्यक्ति (विकिपीडिया प्रविष्टि के आधार पर, मैं दावा कर सकता हूं कि सामान्यता एक संपत्ति है, और यह सीधे अवशेषों से संबंधित नहीं है (लेकिन अवशेषों की एक संपत्ति हो सकती है (कोष्ठक, अजीब) के भीतर नेस्टेड पाठ))?
  • यदि नहीं, तो कौन सी धारणा धारण करनी चाहिए? एक? दोनों?
  • यदि सामान्य रूप से वितरित अवशिष्टों की धारणा सही है, तो क्या हम सामान्यता के लिए कच्चे मूल्यों के केवल हिस्टोग्राम की जाँच करके गंभीर गलती कर रहे हैं?

आप बहुत अधिक उन स्रोतों को अनदेखा कर सकते हैं जो कहते हैं कि यदि वे दावा करते हैं कि कच्चे डेटा को सामान्य रूप से वितरित करने की आवश्यकता है। और जिन्होंने कहा "हम" केवल हिस्टोग्राम के साथ कच्चे मूल्यों की जांच कर रहे थे, वैसे भी। क्या आप उन छह सिग्मा वर्गों में से एक हैं ???
20

1
@Andy W: मैंने अभी अभी ANOVA पर विकिपीडिया लेख के संबंधित अनुभाग के लिए एक लिंक जोड़ा है।
onestop

@DWin: blog.markanthonylawson.com/?p=296 (क्षमा करें, पूरी तरह से विषय पर विरोध नहीं कर सका)
onestop

@onestop धन्यवाद। मैंने केवल लिंक का अनुरोध किया क्योंकि मैं आलसी हूं और खुद विकिपीडिया पर एनोवा को देखना नहीं चाहता था, इसलिए नहीं कि यह प्रश्न के लिए आवश्यक है।
एंडी डब्ल्यू

जवाबों:


35

मान लेते हैं कि यह एक निश्चित प्रभाव वाला मॉडल है। (सलाह यादृच्छिक-प्रभाव वाले मॉडल के लिए वास्तव में नहीं बदलती है, यह बस थोड़ा अधिक जटिल हो जाता है।)

  1. नहीं, अवशिष्ट का सामान्य और सामान्य वितरण समान नहीं हैं । मान लीजिए कि आपने एक उर्वरक आवेदन के साथ और बिना फसल से उपज को मापा। उर्वरक के बिना भूखंडों में उपज 70 से 130 तक होती है। उर्वरक के साथ दो भूखंडों में उपज 470 से 530 तक होती है। परिणामों का वितरण दृढ़ता से गैर-सामान्य है: यह उर्वरक आवेदन से संबंधित दो स्थानों पर क्लस्टर किया गया है। मान लीजिए आगे औसत पैदावार क्रमशः 100 और 500 है। फिर सभी अवशेष -30 से +30 तक होते हैं। वे सामान्य रूप से वितरित (या नहीं) हो सकते हैं, लेकिन जाहिर है कि यह पूरी तरह से अलग वितरण है।

  2. अवशिष्टों का वितरण मायने रखता है , क्योंकि वे मॉडल के यादृच्छिक भाग को दर्शाते हैं। यह भी ध्यान दें कि पी-वैल्यू की गणना एफ (या टी) के आँकड़ों से की जाती है और जो अवशिष्ट पर निर्भर होते हैं, मूल मूल्यों पर नहीं।

  3. डेटा में महत्वपूर्ण और महत्वपूर्ण प्रभाव (इस उदाहरण में के रूप में) देखते हैं, तो आप कर सकते हैं एक "गंभीर" गलती कर हो । आप भाग्य से, सही निर्धारण कर सकते हैं: यानी, कच्चे डेटा को देखकर आप वितरण का मिश्रण जब्त कर लेंगे और यह सामान्य (या नहीं) देख सकता है। मुद्दा यह है कि आप जो देख रहे हैं वह प्रासंगिक नहीं है।

मॉडल को फिट करने के लिए एनोवा अवशेषों को सामान्य के करीब कहीं भी नहीं होना चाहिए। हालांकि, एफ-वितरण से गणना किए जाने वाले पी-मूल्यों के सार्थक होने के लिए अवशिष्टों की निकट-सामान्यता आवश्यक है


6
मुझे लगता है कि जोड़ने के लिए महत्वपूर्ण बिंदु हैं: एक एनोवा में, प्रत्येक समूह के भीतर सामान्यता (कुल मिलाकर नहीं) अवशिष्टों की सामान्यता के बराबर है।
ऐको

2
@ अइको क्या आप अपनी टिप्पणी में "समतुल्य" के अर्थ के बारे में विस्तार से बता सकते हैं? यह लगभग आधारभूत है कि किसी समूह के भीतर सामान्यता उस समूह के अवशेषों की सामान्यता के समान है, लेकिन यह गलत है कि प्रत्येक समूह के भीतर अलग-अलग सामान्यता अवशिष्टों की सामान्यता (या इससे निहित है) का अर्थ है।
whuber

7
मेरा वास्तव में तात्त्विक अर्थ था: यदि समूह सामान्य हैं तो अवशिष्ट सामान्य हैं। यदि होमोसेडेसिटी (ANOVA की तरह) जोड़ दी जाए तो रिवर्स केवल सच है। मुझे अवशिष्टों के बजाय समूहों की जांच करने की वकालत करने का कोई मतलब नहीं है, लेकिन मुझे लगता है कि मान्यताओं के अलग-अलग वाक्यांशों के लिए यह अंतर्निहित कारण है।
ऐकियो

2
मैंने देखा है कि एनोवा को करने वाले लोग आमतौर पर पी-वैल्यू की गणना करने में रुचि रखते हैं, और इसलिए अवशिष्टों की सामान्यता उनके लिए महत्वपूर्ण है। अगर हम एफ-वितरण से पी-मूल्यों की गणना में रुचि नहीं रखते हैं तो क्या एनोवा मॉडल को फिट करने के लिए कोई सामान्य कारण हैं? माफी माँगता हूँ अगर यह सवाल एक टिप्पणी के लिए बहुत व्यापक है।
user1205901 - मोनिका

3
@ user1205901 यह एक बहुत अच्छी बात है। एनोवा के दो सामान्य उपयोग जो एफ परीक्षण पर भरोसा नहीं करते हैं (1) यह प्रभाव अनुमान प्राप्त करने का एक सुविधाजनक तरीका है और (2) यह विचरण गणना के घटकों का हिस्सा और पार्सल है।
whuber

8

मानक शास्त्रीय वन-वे एनोवा को शास्त्रीय "2-सैंपल टी-टेस्ट" के विस्तार के रूप में "एन-सैंपल टी-टेस्ट" के रूप में देखा जा सकता है। इसे केवल दो समूहों के साथ एक-तरफ़ा एनोवा की तुलना शास्त्रीय 2-नमूना टी-परीक्षण से किया जा सकता है।

मुझे लगता है कि जहां आप भ्रमित हो रहे हैं, वह यह है कि (मॉडल की मान्यताओं के तहत) अवशिष्ट और कच्चे डेटा को सामान्य रूप से वितरित किया जाता है। हालांकि कच्चे डेटा में विभिन्न माध्यमों के साथ सामान्य वितरण होते हैं (जब तक कि सभी प्रभाव बिल्कुल समान न हों) लेकिन एक ही विचरण। दूसरी ओर अवशिष्टों का समान वितरण होता है । यह समरूपता की तीसरी धारणा से आता है।

इसका कारण यह है कि सामान्य वितरण एक माध्य और विचरण घटकों में विघटित होता है। यदि का माध्य और प्रसरण साथ एक सामान्य वितरण है, तो जहाँ लिखा जा सकता है एक सामान्य मानक वितरण है। μ जे σ 2 Y मैं j = μ j + σ ε मैं j ε मैं jYijμjσ2Yij=μj+σϵijϵij

जबकि एनोवा सामान्यता की धारणा से व्युत्पन्न है, मुझे लगता है कि (लेकिन मैं अनिश्चित हूं) इसे रैखिकता की धारणा ( बेस्ट रैखिक निष्पक्ष अनुमानक (BLUE) के साथ अनुमान की रेखाओं द्वारा प्रतिस्थापित किया जा सकता है , जहां "BEST" की व्याख्या न्यूनतम औसत वर्ग के रूप में की जाती है। त्रुटि)। मेरा मानना ​​है कि इसमें मूल रूप से के वितरण को किसी भी पारस्परिक रूप से स्वतंत्र वितरण (सभी i और j से अधिक साथ प्रतिस्थापित करना है, जिसका मतलब 0 और भिन्नता 1 है।ϵij

अपने कच्चे डेटा को देखने के संदर्भ में, यह सामान्य दिखना चाहिए जब आपके मॉडल में प्रत्येक कारक स्तर के लिए अलग से प्लॉट किया गया हो । इसका मतलब है कि प्रत्येक j के लिए एक अलग ग्राफ पर साजिश ।Yij


1
+1 इंगित करने के लिए (अंतिम पैराग्राफ में) समरूपता की धारणा।
whuber

इसका मतलब यह है कि अगर हम है चलो कहते हैं n तुलना करने के लिए निर्भर समूहों हम अलग से उनके बच जांच करने की आवश्यकता (जिसका परिणाम n बच के समूह)?
स्टैन

5

साथ एक तरह से मामले में आकार के समूहों : जहांpnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2 और

SSw=j=1pi=1nj(yijMj)2

F एक प्रकार है -distribution अगर और स्वतंत्र हैं, के साथ -distributed चर और की डिग्री स्वतंत्रता, क्रमशः। यह ऐसा मामला है जब और औसत और समान पैमाने के साथ चुकता स्वतंत्र सामान्य चर का योग है । इस प्रकार और को सामान्य रूप से वितरित किया जाना चाहिए।FSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)Mj पूर्ण मॉडल ( ), प्रतिबंधित मॉडल ( ) से अवशिष्ट है । इन अवशिष्टों का अंतर ।Y=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

EDIT @onestop द्वारा स्पष्टीकरण को प्रतिबिंबित करने के लिए: तहत सभी सच्चे समूह साधन समान हैं (और इस प्रकार बराबर ), इस प्रकार समूह-स्तरीय अवशेषों की का अर्थ सामान्यता से है। साथ ही। DV मानों को सामान्य रूप से वितरित करने की आवश्यकता नहीं है।H0Myi(j)MjMMj


2
धारणा है कि इन है हैं -distributed शून्य परिकल्पना के तहत है, जो यह है कि समूह का अर्थ है सब बराबर हैं, यानी सभी के लिए । जब ऐसा होता है, तो का तात्पर्य है सामान्य है। तो आपको केवल पहले की जांच करने की आवश्यकता है, अर्थात अवलोकन-स्तर के अवशेष सामान्य हैं। χ 2 एम जे = एम जे वाई मैं j - एम जे एम जे - एमSSχ2Mj=MjyijMjMjM
20

@onestop अपने स्पष्टीकरण को प्रतिबिंबित करने के लिए संपादित, धन्यवाद!
काराकल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.