नेवा मॉडल के बीच तुलना करने के लिए कई समूहों और एनोवा के बीच तुलना करने के लिए एनोवा के बीच संबंध क्या है?


12

मैंने अब तक ANOVA का दो तरह से उपयोग किया है:

सबसे पहले , मेरे परिचयात्मक आँकड़ों के पाठ में, एनोवा को तीन या अधिक समूहों के साधनों की तुलना करने के तरीके के रूप में पेश किया गया था, जोड़ीदार तुलना में सुधार के रूप में, यह निर्धारित करने के लिए कि किसी एक साधन का सांख्यिकीय रूप से महत्वपूर्ण अंतर है।

दूसरे , मेरे सांख्यिकीय सीखने के पाठ में, मैंने देखा है कि मॉडल 1, जो मॉडल 2 के भविष्यवक्ताओं के सबसेट का उपयोग करता है, का निर्धारण करने के लिए एनोवा ने दो (या अधिक) नेस्टेड मॉडल की तुलना करने के लिए उपयोग किया जाता है, डेटा को समान रूप से अच्छी तरह से फिट करता है, या यदि पूर्ण हो मॉडल 2 श्रेष्ठ है।

अब मैं मानता हूं कि किसी न किसी तरह से ये दोनों चीजें वास्तव में बहुत समान हैं क्योंकि वे दोनों एनोवा परीक्षण का उपयोग कर रहे हैं, लेकिन सतह पर वे मुझे काफी अलग लगते हैं। एक के लिए, पहला उपयोग तीन या अधिक समूहों की तुलना करता है, जबकि दूसरी विधि का उपयोग केवल दो मॉडल की तुलना करने के लिए किया जा सकता है। क्या कोई इन दो उपयोगों के बीच संबंध को स्पष्ट करने की कृपा करेगा?


3
संक्षेप में, मुझे लगता है कि दूसरा "एनोवा" एक एनोवा नहीं है (यदि आप en.wikipedia.org/wiki/Analysis_of_variance पढ़ें तो आपको नेस्टेड मॉडल तुलना का कोई उल्लेख नहीं दिखाई देगा)। यह एक en.wikipedia.org/wiki/F-test है और इसे R में anova()फ़ंक्शन के रूप में कार्यान्वित किया जाता है, क्योंकि पहला, वास्तविक, एनोवा भी एक एफ-टेस्ट का उपयोग कर रहा है। इससे शब्दावली भ्रम पैदा होता है।
अमीबा

धन्यवाद मुझे लगता है कि आप सिर पर कील मारते हैं! मैंने यह नहीं सोचा था कि anova()फ़ंक्शन केवल एनोवा से अधिक कर सकता है। यह पोस्ट आपके निष्कर्ष का समर्थन करती है: stackoverflow.com/questions/20128781/f-test-for-two-models-in-r
Austin

1
मुझे एक ग्रेड सांख्यिकीविद् द्वारा सिखाया गया था कि एनआईओवीए एक मल्टीस्प्लेम परीक्षण के रूप में एनोवा के लिए एक नेस्टेड मॉडल वर्चस्व परीक्षण के समान है। एक ही बात का अर्थ है, मेरी समझ के लिए, कि हम किसी मॉडल या सरल मॉडल से प्राप्त अवशिष्टों के एक योग (या माध्य) की तुलना एक मॉडल से प्राप्त अवशिष्टों से करते हैं, और एफ-परीक्षण दोनों स्थितियों पर लागू होता है, जो मान्यताओं को पूरा करते हैं। मैंने जो उत्तर देने की कोशिश की, वह बिल्कुल उसी के बारे में है। मैं खुद को शून्य (एक मॉडल एफ-आँकड़े) और अवशिष्ट के योग से अलग कम से कम एक एलएम गुणांक के बीच संबंध को समझने में दिलचस्पी होगी।
एलेक्सी बर्नकोव

जवाबों:


11

मेरी समझ में, एनोवा का सार अंतर्ज्ञान निम्नलिखित है: एक विभिन्न दिशाओं में देखे गए चर के विचरण के स्रोतों को विघटित करता है और संबंधित योगदानों की जांच करता है। अधिक सटीक होने के लिए, व्यक्ति पहचान मानचित्र को अनुमानों के योग में विघटित करता है और यह जांचता है कि कौन से अनुमान / निर्देश विचरण को समझाने में महत्वपूर्ण योगदान देते हैं और जो नहीं करते हैं। सैद्धांतिक आधार कोचरन का प्रमेय है

कम अमूर्त होने के लिए, मैंने ओपी द्वारा उल्लिखित दूसरे फॉर्म को केवल वर्णित रूपरेखा में डाला। इसके बाद, मैं पहले रूप की व्याख्या दूसरे के विशेष मामले के रूप में करता हूं ।

आइए हम व्याख्यात्मक चर (पूर्ण मॉडल) के साथ एक प्रतिगमन मॉडल पर विचार करें और इसकी तुलना चर के साथ प्रतिबंधित मॉडल से करें। डब्ल्यूएलओजी, पूर्ण मॉडल के अंतिम चर को प्रतिबंधित मॉडल में शामिल नहीं किया गया है। एनोवा द्वारा उत्तर दिया गया प्रश्न हैKKJJ

"क्या हम मनाया चर में काफी अधिक विचरण को समझा सकते हैं यदि हम अतिरिक्त चर शामिल करते हैं "J ?

इस प्रश्न का उत्तर पहले चर, अगले चर, और शेष / अस्पष्टीकृत भाग (वर्गों का अवशिष्ट योग) के विचरण योगदान की तुलना करके दिया गया है । यह अपघटन (कोचरन के प्रमेय से प्राप्त) का उपयोग एफ-परीक्षण के निर्माण के लिए किया जाता है। इस प्रकार, एक कमी का विश्लेषण करती है प्रतिबंधित मॉडल के वर्गों के अवशिष्ट राशि में (अधिक चरों को शामिल करके) (करने के लिए इसी पिछले से संबंधित सभी गुणांक चर शून्य हैं अधिक चरों और एफ आंकड़ा प्राप्त शामिल करके) यदि मान काफी बड़ा है, तो अतिरिक्त द्वारा समझाया गया विचरणKJJH0: J

RSSrestrRSSfullJRSSfullNK
J चर महत्वपूर्ण है।

अब, ओपी द्वारा उल्लिखित पहले रूप की व्याख्या दूसरे रूप के विशेष मामले के रूप में की जाती है । तीन अलग-अलग समूहों पर विचार करें A, B, और C का अर्थ है , , और । विचरण की तुलना द्वारा परीक्षण किया जाता है एक अंत: खंड (प्रतिबंधित मॉडल) के साथ विचरण एक अवरोधन, समूह एक के लिए एक डमी युक्त पूर्ण मॉडल के आधार पर बताया गया है, और एक डमी पर प्रतिगमन द्वारा समझाया समूह ख के लिए F- स्टेटिस्टिक परिणामी ANOVA- के बराबर है विकिपीडिया पर परीक्षणμAμBμCH0:μA=μB=μC

RSSinterceptRSSdummies2RSSdummiesN3
। भाजक समूहों के भीतर भिन्नता के बराबर है, अंश समूह के बीच भिन्नता के बराबर है। यदि समूहों के बीच भिन्नता समूहों के भीतर भिन्नता से बड़ी है, तो एक परिकल्पना को अस्वीकार करता है कि सभी साधन समान हैं।

+1। मुझे आश्चर्य है कि यदि आप मेरी टिप्पणी पर यहां टिप्पणी में मेरी टिप्पणी से सहमत होंगे: आंकड़े.स्टैकएक्सचेंज . com / questions / 315979 / #comment602611_315979
अमीबा

मैं निश्चित रूप से सहमत हूँ कि शब्दावली में बहुत भ्रम है ;-)। बोलचाल की भाषा में, मैं एनोवा को केवल ओपी के पहले रूप से जोड़ता हूं। मेरी नज़र सिर्फ शेफ़े की किताब "द एनालिसिस ऑफ़ वेरियनस" पर थी जिसमें "नेस्टेड डिज़ाइन" का उल्लेख किया गया है।
बंबा

@bmbb, मैं आपकी अंतिम टिप्पणी में इसे जोड़ूंगा: एक साधारण मामला जहां हम नेस्टेड एलएम मॉडल की तुलना करते हैं, जिनमें से एक केवल अवरोधन है। तथ्य यह है कि मुझे अवरोधन के साथ मॉडल के बारे में बताया गया था कि जब हम इसके अवशिष्टों का उल्लेख करते हैं तो हम वास्तव में इसके विचरण का उल्लेख करते हैं, क्योंकि अवशिष्टों की गणना एक चर माध्य (जो मॉडल का अवरोधन है) के सापेक्ष की जाती है, और वे विचलन से हैं नमूना माध्य। इस प्रकार हम अभी भी नेस्टेड मॉडल के मामले में विचरण का विश्लेषण करते हैं, भले ही हम औपचारिक रूप से अवशिष्ट का विश्लेषण करें।
एलेक्सी बर्नकोव

6

यदि आप एक-तरफ़ा एनोवा का परीक्षण कर रहे हैं यदि समूहों के बीच एक महत्वपूर्ण अंतर है, तो स्पष्ट रूप से आप दो नेस्टेड मॉडल की तुलना कर रहे हैं (इसलिए घोंसले का केवल एक स्तर है, लेकिन यह अभी भी घोंसले के शिकार है)।

वे दो मॉडल हैं:

  • मॉडल 0: मान ( नमूना संख्या और समूह संख्या के साथ) पूरे मतलब के अनुमानित औसत द्वारा प्रतिरूपित किए जाते हैं । yijijβ^0
    yij=β^0+ϵi
  • मॉडल 1: मान समूहों के अनुमानित साधनों द्वारा बनाए गए हैं।

    (और यदि हम समूह विविधता के बीच मॉडल का प्रतिनिधित्व करते हैं, , तो मॉडल 0 को मॉडल 1 के साथ नेस्टेड किया जाता है)βj^

    yi=β^0+β^j+ϵi

नेस्टेड मॉडल की तुलना का मतलब और समतुल्यता का एक उदाहरण: आइरिस डेटा सेट से सेपेल की लंबाई (सेमी) लेते हैं (यदि हम सभी चार चर का उपयोग करते हैं जो हम वास्तव में LDA या मैनोवा कर सकते हैं जैसा कि फिशर ने 1936 में किया था)

देखे गए कुल और समूह साधन हैं:

μtotal=5.83μsetosa=5.01μversicolor=5.94μvirginica=6.59

जो मॉडल रूप में है:

model 1: yij=5.83+ϵimodel 2: yij=5.01+[00.931.58]j+ϵi

मॉडल 1 में प्रतिनिधित्व वर्गों का कुल योगϵi2=102.1683

मॉडल 2 में प्रतिनिधित्व वर्गों का योग समूह के भीतरϵi2=38.9562

और एनोवा तालिका की तरह होगी (और स्पष्ट रूप से अंतर की गणना करें जो वर्गों के समूह योग के बीच है जो कि तालिका में 63.212 है जिसमें 2 डिग्री की स्वतंत्रता है):

> model1 <- lm(Sepal.Length ~ 1 + Species, data=iris)
> model0 <- lm(Sepal.Length ~ 1, data=iris)
> anova(model0, model1)
Analysis of Variance Table

Model 1: Sepal.Length ~ 1
Model 2: Sepal.Length ~ 1 + Species
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1    149 102.168                                  
2    147  38.956  2    63.212 119.26 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

साथ

F=RSSdifferenceDFdifferenceRSSnewDFnew=63.212238.956147=119.26

उदाहरण में उपयोग किया गया डेटा सेट:

आइरिस फूलों की तीन अलग-अलग प्रजातियों के लिए पंखुड़ी की लंबाई (सेमी)

Iris setosa            Iris versicolor      Iris virginica
5.1                    7.0                    6.3
4.9                    6.4                    5.8
4.7                    6.9                    7.1
4.6                    5.5                    6.3
5.0                    6.5                    6.5
5.4                    5.7                    7.6
4.6                    6.3                    4.9
5.0                    4.9                    7.3
4.4                    6.6                    6.7
4.9                    5.2                    7.2
5.4                    5.0                    6.5
4.8                    5.9                    6.4
4.8                    6.0                    6.8
4.3                    6.1                    5.7
5.8                    5.6                    5.8
5.7                    6.7                    6.4
5.4                    5.6                    6.5
5.1                    5.8                    7.7
5.7                    6.2                    7.7
5.1                    5.6                    6.0
5.4                    5.9                    6.9
5.1                    6.1                    5.6
4.6                    6.3                    7.7
5.1                    6.1                    6.3
4.8                    6.4                    6.7
5.0                    6.6                    7.2
5.0                    6.8                    6.2
5.2                    6.7                    6.1
5.2                    6.0                    6.4
4.7                    5.7                    7.2
4.8                    5.5                    7.4
5.4                    5.5                    7.9
5.2                    5.8                    6.4
5.5                    6.0                    6.3
4.9                    5.4                    6.1
5.0                    6.0                    7.7
5.5                    6.7                    6.3
4.9                    6.3                    6.4
4.4                    5.6                    6.0
5.1                    5.5                    6.9
5.0                    5.5                    6.7
4.5                    6.1                    6.9
4.4                    5.8                    5.8
5.0                    5.0                    6.8
5.1                    5.6                    6.7
4.8                    5.7                    6.7
5.1                    5.7                    6.3
4.6                    6.2                    6.5
5.3                    5.1                    6.2
5.0                    5.7                    5.9

1
+1 लेकिन डेटा टेबल को लेटेक्स टेबल के रूप में प्रारूपित करना वास्तव में एक बुरा अभ्यास है !! कोई भी इसे कहीं भी कॉपी-पेस्ट नहीं कर सकता है! यदि आप वास्तव में डेटा को शामिल करना चाहते हैं, तो इसे कोड ब्लॉक के रूप में क्यों नहीं प्रारूपित करें? लेकिन इस मामले में आप विकिपीडिया फिशर आइरिस लेख से लिंक कर सकते हैं जिसमें डेटा शामिल है।
अमीबा

इसके अलावा, क्या शब्दावली मुद्दे पर अपने ले कि मैं इस टिप्पणी में उल्लेख किया है stats.stackexchange.com/questions/315979/#comment602611_315979 ?
अमीबा

1
मेरा मानना ​​है कि फजी शब्दावली एक बड़ी समस्या है। मेरे मन में मैं वास्तव में कभी भी एनोवा को समूहों के बीच और उनके बीच के विचरण की तुलना के रूप में नहीं मानता और हमेशा दो मॉडलों की तुलना में मानसिक प्रक्षेपण करता हूं। मुझे विश्वास नहीं है कि यह एफ-वितरण के बाद से एक बड़ी समस्या है, दो स्वतंत्र ची-स्क्वेर्ड वितरित चर का अनुपात, एक निश्चित अर्थ में, विविधताओं का अनुपात है। नेस्टेड मॉडल का अध्ययन करने के लिए एफ-टेस्ट को लागू करना विविधताओं की तुलना करना, विविधताओं का विश्लेषण करना है, इसलिए एनोवा मुझे ठीक लगता है (मैं वर्तमान में कुछ ऐतिहासिक संदर्भों को देखने की कोशिश कर रहा हूं)।
सेक्सटस एम्पिरिकस

मैं यह नहीं कह रहा हूं कि यह एक समस्या है। लेकिन मैं सोच रहा हूं कि क्या "एनोवा" शब्द एफ परीक्षण को नेस्टेड मॉडल की तुलना में केवल आर (जैसा कि मैंने अपनी लिंक की गई टिप्पणी में सुझाया है) को संदर्भित करता है या यदि यह एक व्यापक स्वीकृत शब्दावली है। मैंने पाठ्यपुस्तकों की जांच नहीं की, इसलिए मेरे सबूत केवल विकिपीडिया से आते हैं।
अमीबा

फिशर के 1925 में अनुसंधानकर्मियों के लिए सांख्यिकीय तरीके, जब वह 'विचरण के विश्लेषण' की व्याख्या करते हैं, तो वे ऐसे उदाहरण शामिल करते हैं जो तकनीक को प्रतिगमन लाइनों (लेकिन कोई नेस्टेड मॉडल) पर लागू नहीं करते हैं।
सेकसस एम्पिरिकस

1

कई मॉडलों के बीच तुलना में एनोवा का उपयोग करने का मतलब यह परीक्षण करना है कि कम से कम एक मॉडल जो उच्च क्रम के साथ उपयोग किया जाता है (और निचले क्रम के साथ मॉडल में अनुपस्थित) शून्य से काफी अलग है।

यह कहने के बराबर है कि उच्च क्रम मॉडल के लिए अवशिष्ट का योग निचले क्रम के मॉडल की तुलना में काफी कम है।

यह दो मॉडल के बारे में है क्योंकि मूल समीकरण का उपयोग किया जाता है

MSM/MSE

जहाँ MSM निचले क्रम वाले मॉडल (जहाँ सबसे कम क्रम लक्ष्य चर का अर्थ है, अवरोधन) का वर्ग अवशेषों का मतलब है।

( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )

आप सीवी पर समान विषयों को पढ़ सकते हैं, जैसे

दो मॉडलों की तुलना के लिए एनोवा का उपयोग कैसे करें?


IMHO इस प्रश्न का उत्तर नहीं देता है।
अमीबा

1

मैंने जो सीखा है, उससे

आप यह समझने के लिए एनोवा तालिकाओं का उपयोग कर सकते हैं कि क्या आपके व्याख्यात्मक चर वास्तव में प्रतिक्रिया चर पर एक महत्वपूर्ण प्रभाव डालते हैं, और इस तरह उपयुक्त मॉडल को फिट करते हैं।

उदाहरण के लिए, मान लें कि आपके पास 2 व्याख्यात्मक चर और , लेकिन आपको यकीन नहीं है कि वास्तव में Y पर कोई प्रभाव है या नहीं। आप दो मॉडलों के एनोवा तालिकाओं की तुलना कर सकते हैं:x1x2x2

y = β 0 + β 1 एक्स 1 + ε

y=β0+β1x1+β2x2+ϵ
बनाम
y=β0+β1x1+ϵ

आप यह निर्धारित करने के लिए F- परीक्षण का उपयोग करके वर्गों का अतिरिक्त अवशिष्ट योग के साथ एक परिकल्पना परीक्षण करते हैं कि क्या केवल साथ कम किया गया मॉडल अधिक महत्वपूर्ण है।x1

यहाँ एक परियोजना के लिए एक एनोवा आउटपुट उदाहरण है, जो मैं आर पर काम कर रहा हूँ, जहाँ मैं दो मॉडलों (एक चर दिनों के साथ, और एक चर दिनों के बिना) का परीक्षण करता हूँ:

यहाँ छवि विवरण दर्ज करें

जैसा कि आप देख सकते हैं, एफ-टेस्ट से संबंधित पी-वैल्यू 0.13 है, जो 0.05 से अधिक है। इस प्रकार, हम शून्य परिकल्पना को अस्वीकार नहीं कर सकते हैं कि डेज़ का वाई पर कोई प्रभाव नहीं है। इसलिए, मैं मॉडल 2 से अधिक मॉडल 1 का चयन करता हूं।


IMHO इस प्रश्न का उत्तर नहीं देता है।
अमीबा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.