प्रतिगमन बनाम एनोवा विसंगति (आर में बनाम बनाम एलएम)


21

मैं हमेशा इस धारणा के तहत था कि प्रतिगमन एनोवा का सिर्फ एक सामान्य रूप है और परिणाम समान होंगे। हाल ही में, हालांकि, मैंने एक ही डेटा पर एक प्रतिगमन और एक एनोवा दोनों चलाए हैं और परिणाम काफी भिन्न हैं। यही है, प्रतिगमन मॉडल में मुख्य प्रभाव और बातचीत दोनों महत्वपूर्ण हैं, जबकि एनोवा में एक मुख्य प्रभाव महत्वपूर्ण नहीं है। मुझे उम्मीद है कि इस बातचीत के साथ कुछ करना होगा, लेकिन यह मेरे लिए स्पष्ट नहीं है कि एक ही प्रश्न के मॉडलिंग के इन दो तरीकों के बारे में क्या अलग है। यदि यह महत्वपूर्ण है, तो एक भविष्यवक्ता स्पष्ट है और दूसरा निरंतर है, जैसा कि नीचे दिए गए सिमुलेशन में संकेत दिया गया है।

यहां एक उदाहरण दिया गया है कि मेरा डेटा कैसा दिखता है और मैं क्या विश्लेषण कर रहा हूं, लेकिन परिणामों में महत्वपूर्ण समान पी-मान या प्रभाव के बिना (मेरे वास्तविक परिणाम ऊपर उल्लिखित हैं):

group<-c(1,1,1,0,0,0)
moderator<-c(1,2,3,4,5,6)
score<-c(6,3,8,5,7,4)

summary(lm(score~group*moderator))
summary(aov(score~group*moderator))

सारांश (lm ()) आपको आपके द्वारा निर्दिष्ट विरोधाभासों के लिए गुणांक दे रहा है, जो यहां विनिर्देशन की अनुपस्थिति में उपचार के विपरीत हैं। जबकि सारांश (एनओवी ()) आपको एनोवा तालिका दे रहा है। यदि आप एलएम मॉडल के लिए एनोवा चाहते हैं, तो आपको एनोवा (एलएम ()) की आवश्यकता है
मैट अल्ब्रेक्ट

groupएक संख्यात्मक वेक्टर है, क्या यह उद्देश्य पर है? आम तौर पर, समूहीकरण कारकों में वर्ग होना चाहिए factor, जैसे कि विरोधाभासों के परिवर्तन को कार्यों जैसे स्वचालित रूप से नियंत्रित किया जा सकता है lm()। आपके दो से अधिक समूह हो जाने के बाद यह स्पष्ट हो जाएगा, या अपने groupचर के लिए 0/1 के अलावा अन्य कोडिंग का उपयोग करें ।
काराकाल

जवाबों:


17

summaryसमारोह वस्तु के वर्ग के आधार पर अलग अलग तरीकों कहता है। अंतर aovबनाम में नहीं है lm, लेकिन मॉडल के बारे में प्रस्तुत जानकारी में। उदाहरण के लिए, यदि आपने उपयोग किया है anova(mod1)और anova(mod2)इसके बजाय, आपको एक ही परिणाम प्राप्त करना चाहिए।

जैसा कि @Glen कहता है, कुंजी यह है कि रिपोर्ट किए गए परीक्षण टाइप 1 या प्रकार 3 वर्ग के वर्ग पर आधारित हैं। ये तब अलग होंगे जब आपके व्याख्यात्मक चर के बीच सहसंबंध ठीक नहीं है। 0. जब वे सहसंबद्ध होते हैं, तो कुछ एसएस एक भविष्यवक्ता और दूसरे से कुछ के लिए अद्वितीय होते हैं, लेकिन कुछ एसएस को या तो या दोनों के लिए जिम्मेदार ठहराया जा सकता है। ( आप मास्टरकार्ड प्रतीक की कल्पना करके इसे देख सकते हैं- केंद्र में ओवरलैप का एक छोटा क्षेत्र है।) इस स्थिति में कोई अनूठा जवाब नहीं है, और दुर्भाग्य से, यह गैर-प्रयोगात्मक डेटा के लिए आदर्श है। एक दृष्टिकोण विश्लेषक के लिए है कि वे अपने फैसले का उपयोग करें और किसी एक चर के लिए अतिव्यापी एसएस को असाइन करें। वह चर पहले मॉडल में जाता है। अन्य चर दूसरे मॉडल में जाता है और एसएस को प्राप्त होता है जो कुकी के समान दिखता है जिसमें से काट लिया जाता है। यह प्रभाव है जिसे कभी-कभी R 2 कहा जाता है द्वारा परीक्षण किया जा सकता हैआर2परिवर्तन या एफ परिवर्तन। यह दृष्टिकोण टाइप 1 एसएस का उपयोग करता है। वैकल्पिक रूप से, आप ऐसा करने के लिए दो बार पहले प्रत्येक में जा सकते हैं, और दोनों भविष्यवक्ताओं के लिए एफ परिवर्तन परीक्षण की रिपोर्ट कर सकते हैं। इस तरह, ओवरलैप के कारण न तो वेरिएबल एसएस मिलता है। यह दृष्टिकोण टाइप 3 एसएस का उपयोग करता है। (मुझे आपको यह भी बताना चाहिए कि उत्तरार्द्ध दृष्टिकोण कम संबंध में आयोजित किया जाता है।)

नीचे टिप्पणी में @BrettMagill के सुझाव के बाद, मैं इसे थोड़ा स्पष्ट करने का प्रयास कर सकता हूं। (ध्यान दें, मेरे उदाहरण में, मैं सिर्फ 2 भविष्यवाणियों का उपयोग कर रहा हूं और कोई इंटरैक्शन नहीं है, लेकिन इस विचार को शामिल किया जा सकता है जो कुछ भी पसंद है।)

टाइप 1: एसएस (ए) और एसएस (बी | ए)

टाइप 3: एसएस (ए | बी) और एसएस (बी | ए)


1
यह समस्या का एक अच्छा वर्णन है। आप इसके साथ पाठ को थोड़ा स्पष्ट कर सकते हैं: I टाइप करें: SS_A = SS (A) SS_B = SS (B | A) और SS_AB = SS (AB | B, A) टाइप III: SS_A = SS (ए। बी।, एबी) ) और SS_B = एसएस (बी। ए।, एबी) और एसएस_एबी = एसएस (एबी | ए, बी)
ब्रेट

1
आपकी मदद के लिए बहुत बहुत धन्यवाद। मैं समझता हूं कि इन मॉडलों के अलग-अलग होने के संदर्भ में अब क्या हो रहा है, लेकिन मैं अभी भी स्पष्ट नहीं हूं कि कब या तो एनोवा या प्रतिगमन मॉडल का उपयोग करना उचित होगा। मेरे सलाहकार एनोवा को सलाह दे रहे हैं, लेकिन मुझे हमेशा रिग्रेशन का इस्तेमाल करना सिखाया गया है और मुझे यकीन नहीं है कि जब नतीजे आते हैं तो उसका इस्तेमाल करना ज्यादा उचित होता है। क्या आपके पास सलाह देने के लिए कोई उदाहरण या संसाधन है कि कब उचित होगा? आपकी सहायता के लिए एक बार फिर से धन्यवाद।
रेबेका

1
मुझे क्षमा करें, मैं काफी अनुसरण नहीं करता। मेरा कहना है कि मॉडल वास्तव में अलग नहीं हैं । एक एनोवा सभी गुणात्मक भविष्यवक्ताओं के साथ एक प्रतिगमन है। यदि आपके पास निरंतर और गुणात्मक भविष्यवाणियों के साथ एक प्रतिगमन मॉडल है, और आप पहले निरंतर भविष्यवक्ता में प्रवेश करते हैं, तो गुणात्मक भविष्यवक्ता (लेकिन एक अंतःक्रियात्मक अवधि के बिना) जो ANCOVA है। या तो दृष्टिकोण ठीक है, क्योंकि 'पर्दे के पीछे' वे समान हैं। मैं आमतौर पर इसे एक प्रतिगमन के रूप में कोड करता हूं, लेकिन यह शैली की बात है। OTOH, यदि आपका सलाहकार यह ANOVA शैली चलाना चाहता है, तो उस मार्ग पर जाएं, क्योंकि कोई अंतर नहीं है।
गुंग - को पुनः स्थापित मोनिका

2
कुछ चीजें: (3 अप) एक इंटरैक्शन का मतलब यह नहीं है कि आपके स्वतंत्र चर परस्पर संबंधित हैं, ये सिर्फ अलग चीजें हैं; (2 अप) यदि मॉडल 3 मॉडल 2 की तुलना में काफी बेहतर है, तो हां, यह सुझाव देता है कि बातचीत महत्वपूर्ण है (चूंकि बातचीत एकमात्र ऐसी चीज है जो उनके बीच अंतर करती है); (1 अप) आप महत्वपूर्ण प्रभावों के लिए बस मछली पकड़ने से बचना चाहते हैं जब तक कि आप अपने अध्ययन के बारे में एक पायलट के रूप में नहीं सोच रहे हैं कि आप बाद के पुष्टिकरण अध्ययन की योजना बनाने के लिए उपयोग करेंगे (इस मामले में मुझे लगता है कि आप ठीक हैं); मैं आप सभी तीन को देखने के लिए इस अध्ययन भाग गया है, इस प्रकार मॉडल 3. के साथ जाने के लिए इकट्ठा
को पुनः स्थापित मोनिका - गुंग

2
इसके अलावा, एक बातचीत का अर्थ है कि आपको मुख्य प्रभावों की व्याख्या नहीं करनी चाहिए, इस प्रकार केवल मॉडल 1 प्रस्तुत करना खतरनाक रूप से भ्रामक हो सकता है। यदि आप SS के प्रकारों के बारे में अधिक जानकारी चाहते हैं, तो मैंने यहां एक व्यापक उत्तर लिखा है : ysts.stackexchange.com/questions/20452/… इसके अलावा, आपको किसी एक उत्तर को स्वीकार करना चाहिए, कुछ बिंदु पर, चेक मार्क के बगल में क्लिक करके उनमें से एक।
गंग -

10

एनओवी आउटपुट से परिणाम आपको टाइप 1 के वर्गों के आधार पर संभावनाएं दे रहे हैं। यही कारण है कि बातचीत का परिणाम समान है और मुख्य प्रभाव भिन्न हैं।

यदि आप टाइप 3 के वर्गों के आधार पर संभावनाओं का उपयोग करते हैं तो वे रैखिक प्रतिगमन परिणामों से मेल खाएंगे।

library(car)
Anova(aov(score~group*moderator),type=3)

5
रैखिक मॉडल और एनोवा तब समान होंगे जब मॉडल एक ही परिकल्पना का परीक्षण कर रहे हों और जब कारकों का मानकीकरण बराबर हो। तो "टाइप I" और "टाइप III" sums कहलाते हैं, बस विभिन्न अंतर्निहित परिकल्पनाओं के परीक्षण हैं (वर्गों के अनुक्रमिक योगों बनाम वर्गों के सीमांत रकम)। एनोवा इन फैसलों को छिपाने के लिए जाता है जैसा कि कई पैकेजों में लागू किया गया है - एक तथ्य जो मुझे विश्वास दिलाता है कि वास्तव में जीएलएम में कारक पैरामीटर और मॉडल तुलना के माध्यम से ब्याज की परिकल्पना की स्थापना और परीक्षण एक बेहतर दृष्टिकोण है।
ब्रेट

+1, मुझे लगता है कि आपके पास एक टाइपो है, हालांकि। lm टाइप 1 SS का उपयोग कर रहा है और aov टाइप 3 SS का उपयोग कर रहा है।
गूँग - मोनिका

2
प्रकार III (सीमांत) वर्गों के योगों का उपयोग डिफ़ॉल्ट रूप से lm में किया जाता है। AOV डिफ़ॉल्ट रूप से टाइप I (अनुक्रमिक) का उपयोग करेगा। एलएम परिणाम ऑर्डर करने के लिए अपरिवर्तनीय हैं जबकि एओवी परिणाम कारकों के आदेश पर निर्भर करते हैं।
ब्रेट

मुझे लगा कि lm और aov दोनों प्रकार का I डिफ़ॉल्ट रूप से उपयोग किया जाता है, इसलिए टाइप II और III के लिए कैपिटल ए एनोवा () का उपयोग किया जाता है।
मैट अल्ब्रेक्ट

6
सामान्य तौर पर, Anova(..., type=3)होगा नहीं कि आप सही प्रकार III एसएस देते हैं, जब तक कि आप भी (अव्यवस्थित कारकों के लिए कोडिंग प्रभाव के लिए (आर में डिफ़ॉल्ट) उपचार विरोधाभासों से स्विच options(contrasts=c("contr.sum", "contr.poly"))) या किसी अन्य योग-टू-जीरो विपरीत कोड (जैसे, Helmert)। आपके द्वारा असंतुलित सेल आकार और दो से अधिक समूहों के होने के बाद यह स्पष्ट हो जाएगा और इसके लिए सहायता पृष्ठ में भी उल्लेख किया गया है Anova()
काराकल

-2

रेखीय प्रतिगमन और एनोवा के बीच मुख्य अंतर है, एनोवा में भविष्यवक्ता चर असतत हैं (यह है कि उनके पास उच्च स्तर है)। जबकि रेखीय प्रतिगमन में, भविष्यवक्ता चर निरंतर होते हैं।


3
यह आम तौर पर सच नहीं है।
माइकल आर। चेर्निक

मैंने इसे इंटरनेट पर कहीं पढ़ा। क्या आप कृपया मुख्य अंतर बता सकते हैं। मैं एक नौसिखिया हूँ।
विवेक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.