तथ्यात्मक एनोवा में त्रुटि शब्द का औचित्य कैसे करें?


13

बहु-तथ्यात्मक एनोवा के बारे में एक बहुत ही मूल प्रश्न। एक दो-तरफ़ा डिज़ाइन मानें जहां हम दोनों मुख्य प्रभावों ए, बी और इंटरेक्शन ए: बी का परीक्षण करते हैं। ए के साथ टाइप I एसएस के लिए मुख्य प्रभाव का परीक्षण करते समय, प्रभाव एसएस की गणना , जहां आर एस एस ( 1 ) वर्ग के लिए अवशिष्ट त्रुटि योग है। केवल इंटरसेप्ट के साथ मॉडल, और कारक ए के साथ मॉडल के लिए आर एस एस ( ) आरएसएस। मेरा प्रश्न त्रुटि शब्द के लिए विकल्प की चिंता करता है:RSS(1)RSS(A)RSS(1)RSS(A)

आप यह कैसे उचित मानते हैं कि इस परीक्षण के लिए त्रुटि शब्द की गणना आमतौर पर पूर्ण मॉडल A + B + A: B से की जाती है जिसमें मुख्य प्रभाव और सहभागिता दोनों शामिल हैं?

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B

... वास्तविक तुलना से अप्रतिबंधित मॉडल से त्रुटि शब्द लेने के विपरीत (उपरोक्त मामले में सिर्फ मुख्य प्रभाव ए से आरएसएस):

FA=(RSS1RSSA)/(dfRSS1dfRSSA)RSSA/dfRSSA

इससे फर्क पड़ता है, क्योंकि तुलना में अप्रतिबंधित मॉडल से त्रुटि शब्द की तुलना में पूर्ण मॉडल से त्रुटि शब्द अक्सर (हमेशा नहीं) हमेशा छोटा होता है। ऐसा लगता है कि त्रुटि शब्द के लिए विकल्प कुछ हद तक मनमाना है, बस ऐसे कारकों को जोड़ने / हटाने के लिए वांछित पी-मूल्य परिवर्तनों के लिए जगह बना रहा है जो वास्तव में ब्याज नहीं हैं, लेकिन वैसे भी त्रुटि शब्द को बदलें।

निम्नलिखित उदाहरण में, ए के लिए एफ-मूल्य काफी हद तक पूर्ण मॉडल की पसंद के आधार पर बदलता है, भले ही एसएस के प्रभाव की वास्तविक तुलना समान हो।

> DV  <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+          56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+          43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)

> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1))                           # full model = unrestricted model (just A)
          Df  Sum Sq Mean Sq F value Pr(>F)
IV1        2  101.11  50.556  0.9342 0.4009
Residuals 42 2272.80  54.114

> anova(lm(DV ~ IV1 + IV2))                     # full model = A+B
          Df  Sum Sq Mean Sq F value   Pr(>F)    
IV1        2  101.11   50.56  1.9833   0.1509    
IV2        2 1253.19  626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61   25.49                     

> anova(lm(DV ~ IV1 + IV2 + IV1:IV2))           # full model = A+B+A:B
          Df  Sum Sq Mean Sq F value    Pr(>F)    
IV1        2  101.11   50.56  1.8102    0.1782    
IV2        2 1253.19  626.59 22.4357 4.711e-07 ***
IV1:IV2    4   14.19    3.55  0.1270    0.9717    
Residuals 36 1005.42   27.93

एक ही प्रश्न II SS टाइप करने के लिए लागू होता है, और सामान्य रूप से एक सामान्य रेखीय परिकल्पना के लिए, यानी, एक पूर्ण मॉडल के भीतर एक प्रतिबंधित और अप्रतिबंधित मॉडल के बीच तुलना करने के लिए। (प्रकार III एसएस के लिए, अप्रतिबंधित मॉडल हमेशा पूर्ण मॉडल होता है, इसलिए वहां सवाल नहीं उठता)


Aanova(lm(DV ~ IV1))anova(lm(DV ~ 1))anova(lm(DV ~ IV1))F=0.9342

IV1A~ 1~ IV1 + 1A

अरे @ ओंकारल, इतने पुराने उत्तर को देखकर अच्छा लगा कि अचानक स्वीकार कर लिया गया! :-) चीयर्स।
अमीबा का कहना है कि मोनिका

जवाबों:


4

यह एक बहुत पुराना प्रश्न है, और मेरा मानना ​​है कि @ गंग का उत्तर बहुत अच्छा है (+1)। लेकिन जैसा कि @caracal के लिए पूरी तरह से आश्वस्त नहीं था, और जैसा कि मैं पूरी तरह से इसके सभी पेचीदगियों का पालन नहीं करता हूं, मैं एक साधारण आंकड़ा प्रदान करना चाहूंगा कि मैं इस मुद्दे को कैसे समझूं।


दो-तरफ़ा एनोवा पर विचार करें (कारक A के तीन स्तर हैं, कारक B के दो स्तर हैं) दोनों कारकों के साथ स्पष्ट रूप से बहुत महत्वपूर्ण हैं:

फैक्टोरियल एनोवाए वर्गों की रकम

कारक A के लिए SS बहुत बड़ा है। कारक बी के लिए एसएस बहुत छोटा है, लेकिन शीर्ष आंकड़े से यह स्पष्ट है कि कारक बी फिर भी बहुत महत्वपूर्ण है।

दोनों कारकों वाले मॉडल के लिए त्रुटि एसएस को छह गौसियों में से एक द्वारा दर्शाया गया है, और जब इस त्रुटि एसएस के साथ कारक बी के लिए एसएस की तुलना करते हैं, तो परीक्षण का निष्कर्ष होगा कि कारक बी महत्वपूर्ण है।

केवल कारक बी वाले मॉडल के लिए त्रुटि एसएस, हालांकि, बड़े पैमाने पर है! इस भारी त्रुटि के साथ कारक बी के लिए एसएस की तुलना करना एसएस निश्चित रूप से महत्वपूर्ण नहीं दिखाई देगा। जो स्पष्ट रूप से मामला नहीं है।

यही कारण है कि यह पूर्ण मॉडल से त्रुटि एसएस का उपयोग करने के लिए समझ में आता है।


2

अपडेट: मैं यहां से गुजरने के दौरान बनाए गए कुछ बिंदुओं को स्पष्ट करने के लिए, मैंने उन जगहों के लिए कुछ लिंक जोड़े हैं जहां मैं प्रासंगिक विचारों पर अधिक पूरी तरह से चर्चा करता हूं।


RSSASSAMSAMSA+B+AB

RSSfullMSA+B+AB>MSA+BSSAB=14.19dfR। हालांकि, मॉडल से ऐसे कारकों को नष्ट करना जो महत्वपूर्ण नहीं हैं ताकि सही त्रुटि शब्द प्राप्त हो सके तार्किक रूप से एक स्वचालित मॉडल खोज प्रक्रिया के समतुल्य है, भले ही आपके पास अपना सॉफ़्टवेयर न हो आपके लिए यह स्वचालित रूप से नहीं है। आपको पता होना चाहिए कि ऐसा करने के साथ बहुत सारी समस्याएं हैं। उन समस्याओं और वैकल्पिक प्रक्रियाओं की सीवी 3 पर कहीं और चर्चा की जाती है ।

एक अंतिम विषय एसएस के विभिन्न प्रकारों की चिंता करता है। सबसे पहले, विभिन्न प्रकार के एसएस का उपयोग आपको अपने विश्लेषण के तार्किक औचित्य की आवश्यकता से बाहर नहीं करता है। लेकिन इसके अलावा, टाइप I - III एसएस एक अलग मुद्दे से संबंधित हैं। आपके उदाहरण में, मैं आपके कारकों को इकट्ठा करता हूं जो कि ऑर्थोगोनल हैं, यानी आपने एक प्रयोग किया है जिसमें आपने कारक स्तरों के प्रत्येक संयोजन के बराबर n असाइन किया है। हालांकि, यदि आप एक पर्यवेक्षणीय अध्ययन करते हैं, या यदि आपके पास ड्रॉपआउट मुद्दे हैं, तो आपके कारक सहसंबद्ध होंगे। इसका निहितार्थ यह है कि एसएस को विभाजित करने का कोई अनूठा तरीका नहीं है और इसलिए आपके विश्लेषण का उत्पादन करने के लिए कोई अनूठा जवाब नहीं है। दूसरे शब्दों में, आपके कारकों 4 से सहसंबद्ध होने पर विभिन्न प्रकार के एसएस को आपके एफ टेस्ट के लिए अलग-अलग संभावित संख्याओं के साथ करना पड़ता है ।

1. ध्यान दें कि बहु-स्तरीय मॉडल के साथ, एक कारक को अन्य कारकों से परिवर्तनशीलता को शामिल करने के लिए वर्गीकृत किया जा सकता है, यह इस बात पर निर्भर करता है कि मॉडल कैसे निर्दिष्ट किया गया है। मैं यहां साधारण एनोवा के बारे में चर्चा कर रहा हूं, जिसके बारे में आप पूछ रहे हैं।
2. देखें: 2 IV को जोड़ने से 1 IV कैसे महत्वपूर्ण हो सकता है?
3. देखें: स्वचालित मॉडल चयन के लिए एल्गोरिदम
4. देखें: टाइप I (अनुक्रमिक) ANOVA और MANOVA की व्याख्या कैसे करें?


1
BA:B

1
+1 और मैंने आपके पहले बड़े पैराग्राफ में चित्रण प्रदान करने का प्रयास करते हुए एक उत्तर दिया है।
अमीबा का कहना है कि मोनिका

0

औचित्य यह है कि कारक ए, ए मॉडल की तुलना में ए + बी मॉडल में अस्पष्टीकृत भिन्नता का एक बड़ा प्रतिशत समझा रहा है, क्योंकि कारक बी एक महत्वपूर्ण भाग (और इस प्रकार इसे विश्लेषण से हटाता है) को समझाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.