ANOVA को रेखीय प्रतिगमन की तुलना में एक अलग शोध पद्धति के रूप में क्यों पढ़ाया / प्रयोग किया जाता है?


91

एनोवा उपयुक्त डमी चर के उपयोग के साथ रैखिक प्रतिगमन के बराबर है। निष्कर्ष चाहे आप ANOVA का उपयोग करें या रैखिक प्रतिगमन के समान ही रहते हैं।

उनकी समानता के प्रकाश में, क्या कोई कारण है कि रैखिक प्रतिगमन के बजाय एनोवा का उपयोग किया जाता है?

नोट: मैं विशेष रूप से रैखिक प्रतिगमन के बजाय एनोवा के उपयोग के तकनीकी कारणों के बारे में सुनने में दिलचस्पी रखता हूं ।

संपादित करें

यहां एक तरफ़ा एनोवा का उपयोग कर एक उदाहरण दिया गया है। मान लीजिए, आप जानना चाहते हैं कि क्या पुरुष और महिलाओं की औसत ऊंचाई समान है। अपनी परिकल्पना के लिए परीक्षण करने के लिए आप नर और मादा के यादृच्छिक नमूने (30 प्रत्येक कहते हैं) से डेटा एकत्र करेंगे और एक प्रभाव मौजूद है, यह तय करने के लिए एनोवा विश्लेषण (यानी लिंग और त्रुटि के लिए वर्गों का योग) का प्रदर्शन करेंगे।

आप इसके लिए परीक्षण करने के लिए रैखिक प्रतिगमन का उपयोग भी कर सकते हैं:

परिभाषित करें: यदि प्रतिवादी एक पुरुष है और अन्यथा। जहां:Gender=10

Height=Intercept+βGender+error
errorN(0,σ2)

फिर एक परीक्षण कि क्या आपकी परिकल्पना के लिए एक समकक्ष परीक्षा है।β=0


2
अगर मैं गलत नहीं हूं, तो रैखिक प्रतिगमन गुणांक का अनुमान है जो X से Y तक एक अच्छे रैखिक मानचित्र को परिभाषित करता है। ANOVA यह जानने के लिए एक परीक्षण है कि क्या Y में दो अलग-अलग मान होने पर X में महत्वपूर्ण अंतर है। क्या आप हमें समझा सकते हैं कि आपको क्यों लगता है कि वे समान हैं?
रॉबिन जिरार्ड

28
एनोवा को रेखीय प्रतिगमन मॉडल के एक विशेष उपसमूह के लिए "सिंटैक्टिक शुगर" के रूप में देखा जा सकता है। ANOVA नियमित रूप से शोधकर्ताओं द्वारा उपयोग किया जाता है जो प्रशिक्षण द्वारा सांख्यिकीविद् नहीं हैं। अब वे "संस्थागत" हैं और अधिक सामान्य प्रतिनिधित्व का उपयोग करके उन्हें वापस परिवर्तित करने के लिए इसकी कड़ी मेहनत ;-)
suncoolsu

3
आपकी टिप्पणी को खारिज कर दिया, लेकिन प्रयोगवादियों ने मुझे जितना सोचा था, उससे भी ज्यादा अजीब है अगर यह उनके लिए चीनी है! कौन सा संस्करण अधिक सहज है .... ANOVA परिकल्पना परीक्षण : अस्पष्टीकृत विचरण के लिए पर्याप्त रूप से उच्चतर समझाया गया अनुपात है? प्रतिगमन मॉडल के शब्द पर टी-परीक्षण : क्या शून्य से पर्याप्त रूप से भिन्न का प्रभाव है? और, बाद के निर्माण के साथ आपको परिवर्तन की दिशा भी मिलती है। और, यदि आपको डेटा बदलना था, तो आप पैरामीटर अनुमान को भौतिक रूप से सार्थक मात्रा में बदल सकते हैं। एसएस के विपरीत। βββ
f1r3br4nd

जवाबों:


55

एक अर्थशास्त्री के रूप में, विचरण (ANOVA) का विश्लेषण सिखाया जाता है और आमतौर पर रैखिक प्रतिगमन (जैसे आर्थर गोल्डबर्गर के ए कोर्स इन इकोनोमेट्रिक्स ) के संबंध में समझा जाता है । अर्थशास्त्री / अर्थशास्त्री आमतौर पर एनोवा को निर्बाध रूप से देखते हैं और प्रतिगमन मॉडल पर सीधे चलना पसंद करते हैं। रेखीय (या यहां तक ​​कि सामान्यीकृत रैखिक) मॉडल के दृष्टिकोण से, एनोवा एनईओए शब्दावली में "भिन्नता का स्रोत" के अनुरूप प्रत्येक बैच के साथ बैचों में गुणांक प्रदान करता है।

आम तौर पर आप प्रतिगमन का उपयोग कर एनोवा से प्राप्त होने वाले अनुमानों को दोहरा सकते हैं लेकिन हमेशा ओएलएस प्रतिगमन नहीं। "विभाजन-कथानक डिजाइन" जैसे पदानुक्रमित डेटा संरचनाओं का विश्लेषण करने के लिए बहुस्तरीय मॉडल की आवश्यकता होती है, जहाँ समूह-स्तरीय प्रभावों की तुलना समूह-स्तरीय त्रुटियों से की जाती है, और भीतर-समूह प्रभावों की तुलना डेटा-स्तर त्रुटियों से की जाती है। गेलमैन का पेपर [1] इस समस्या के बारे में बहुत विस्तार से बताता है और प्रभावी रूप से तर्क देता है कि एनोवा एक महत्वपूर्ण सांख्यिकीय उपकरण है जिसे अभी भी खुद के लिए सिखाया जाना चाहिए।

विशेष रूप से जेलमैन का तर्क है कि एनोवा एक तरह से बहुस्तरीय मॉडल को समझने और संरचित करने का एक तरीका है। इसलिए एनोवा प्रतिगमन के लिए एक विकल्प नहीं है, बल्कि जटिल उच्च-आयामी अनुमानों को सारांशित करने और खोजपूर्ण डेटा विश्लेषण के लिए एक उपकरण के रूप में है।

गेलमैन एक सम्मानित सांख्यिकीविद् हैं और उनके विचार को कुछ विश्वसनीयता दी जानी चाहिए। हालांकि, लगभग सभी अनुभवजन्य कार्य जो मैं करता हूं, वे रैखिक प्रतिगमन द्वारा समान रूप से अच्छी तरह से सेवा करेंगे और इसलिए मैं इसे थोड़ा व्यर्थ के रूप में देखने के शिविर में आता हूं। जटिल अध्ययन डिजाइन (जैसे मनोविज्ञान) के साथ कुछ विषयों में एनोवा उपयोगी हो सकती है।

[१] गेलमैन, ए। (२००५)। विचरण का विश्लेषण: यह पहले से कहीं अधिक महत्वपूर्ण है (चर्चा के साथ)। आँकड़ों की संख्या 33, 1-53। डोई: 10.1214 / 009053604000001048


1
गेलमैन संदर्भ के लिए धन्यवाद। मैं उसका पेपर पढ़ूंगा। लेकिन, क्या हम शास्त्रीय अधिकतम संभावना का उपयोग करके बहुस्तरीय मॉडल का विश्लेषण नहीं कर सकते हैं? मैं सहमत हूं कि ओएलएस बहु-स्तरीय मॉडल के लिए अक्षम / अनुचित है।

3
@ श्रीकांत - बहुस्तरीय डेटा से निपटने के लिए कई तरीके हैं और गेलमैन इस क्षेत्र के "राजा" हैं। उनका कहना है कि एनोवा जटिल और पदानुक्रमित डेटा संरचनाओं या अध्ययन डिजाइनों की प्रमुख विशेषताओं को कैप्चर करने का एक सरल / स्पष्ट तरीका है और एनोवा महत्वपूर्ण परिणामों को प्रस्तुत करने का एक सरल / स्पष्ट तरीका है। इस अर्थ में यह भूमिका पूरक या खोजपूर्ण है।
ग्राहम कुकसन

1
एक अच्छा स्पष्ट जवाब के लिए +1। अनुच्छेद 3 अनिवार्य रूप से एक जीवविज्ञान स्नातक के रूप में मुझे पढ़ाया गया था, जिसमें एनोवा फ्रेमवर्क में निरंतर और श्रेणीबद्ध स्वतंत्र चर के संयोजन में आसानी होती है।
फ्रेया हैरिसन

23

मुझे लगता है कि ग्राहम का दूसरा पैराग्राफ बात के दिल में उतर जाता है। मुझे संदेह है कि यह ऐतिहासिक से बहुत अधिक तकनीकी नहीं है, शायद " रिसर्च वर्कर्स के लिए सांख्यिकीय तरीके " के प्रभाव के कारण , और प्रयोगात्मक विश्लेषण में गैर-सांख्यिकी के लिए उपकरण को लागू करने / लागू करने में आसानी, असतत कारकों को शामिल करने के बजाय मॉडल निर्माण में। और संबंधित उपकरण। आंकड़ों में, एनोवा को आमतौर पर प्रतिगमन के एक विशेष मामले के रूप में पढ़ाया जाता है। (मुझे लगता है कि यह समान है कि क्यों बायोस्टैटिस्टिक्स इमारत के निर्माण पर जोर देने के बजाय "परीक्षण" के असंख्य से भरा हुआ है।)


14

मैं कहूंगा कि आप में से कुछ लोग प्रतिगमन शब्द का उपयोग कर रहे हैं जब आपको सामान्य रैखिक मॉडल का उपयोग करना चाहिए। मैं एक चमक के रूप में प्रतिगमन के बारे में सोचता हूं जिसमें निरंतर कोवरिएट्स शामिल हैं। जब निरंतर कोवरिएट्स को डमी वैरिएबल के साथ जोड़ दिया जाता है, जिसे कोवरियन का विश्लेषण कहा जाना चाहिए। यदि केवल डमी चर का उपयोग किया जाता है तो हम विचरण के विश्लेषण के रूप में उस विशेष रूप से चमक का उल्लेख करते हैं। मुझे लगता है कि विचरण के विश्लेषण का एक अलग दूसरा अर्थ है कि मॉडल की अवधि के घटकों और त्रुटि अवधि घटक में विचरण के विघटन का उपयोग करके एक चमक में महत्वपूर्ण गुणांक के परीक्षण के लिए प्रक्रिया।


2
(+1) मैंने चर्चा के दौरान अस्पष्ट शब्दावली "प्रतिगमन" को तुरंत नोट किया है।
स्टीफन लॉरेंट

1
(+1) GLM विभिन्न अर्थों को अलग करने का सबसे अच्छा तरीका हो सकता है। यह भी ध्यान दिया जाना चाहिए कि ANOVA के इतिहास में गणना प्रक्रियाओं का उपयोग किया गया था जो कि रिलेटिव बिटवीन ओएलएस और एनोवा को अस्पष्ट करते हैं। इसलिए नामकरण ऐतिहासिक कारणों से उचित हो सकता है।
जंक

10

एनोवा का उपयोग स्पष्ट व्याख्यात्मक चर (कारकों) के साथ किया जा सकता है जो 2 से अधिक मान (स्तर) लेते हैं, और एक मूल परीक्षण देते हैं कि हर मूल्य के लिए माध्य प्रतिक्रिया समान है। यह उन स्तरों के बीच कई जोड़ीदार टी-परीक्षण करने पर प्रतिगमन समस्या से बचा जाता है:

  • एक निश्चित 5% महत्व स्तर पर कई टी-परीक्षण, उनमें से लगभग 5% गलत परिणाम देंगे।
  • ये परीक्षण एक-दूसरे से प्रेरित नहीं होते हैं। A के स्तर की तुलना B के साथ A के C की तुलना करने से जुड़ा है, क्योंकि A का डेटा दोनों परीक्षणों में उपयोग किया जाता है।

आप जिस स्तर पर परीक्षण करना चाहते हैं, उसके विभिन्न संयोजनों के लिए विरोधाभासों का उपयोग करना बेहतर है ।


1
आप इस उत्तर को स्पष्ट करना चाह सकते हैं; जैसा कि लिखा है, मैं 3 मुद्दों को देखता हूं। पहले 2 थोड़े नाइट-पिकी हैं, लेकिन फिर भी संपादित किए जाने चाहिए, तीसरा इस चर्चा के संदर्भ में पर्याप्त है। (1) एनोवा का उपयोग केवल 2 समूहों के साथ किया जा सकता है (हालांकि अधिकांश लोग अभी टी-टेस्ट चलाते हैं)। (2) एकाधिक टी-परीक्षण w / रूप से उपज देगा I मैं उन विरोधाभासों के 5% के लिए त्रुटियां करता हूं जहां कोई वास्तविक अंतर मौजूद नहीं है ; कितनी त्रुटियां होंगी, यह निर्भर करता है कि कितने नल सही हैं। α=.05
गुंग

7
(3) आपके उत्तर का अर्थ है कि कई तुलनाओं की समस्या ओएलएस प्रतिगमन पर लागू होती है, जो ठीक से संचालित होने पर ऐसा नहीं होता है। एक प्रतिगमन संदर्भ में एक कारक का परीक्षण करने का उचित तरीका है नेस्टेड मॉडल का परीक्षण करना जिसमें सभी कारक डमी के साथ सभी कारक डमी के साथ गिराए गए कारक शामिल हैं। यह परीक्षण एक एनोवा संचालन के समान है। यह सच है कि आपको व्यक्तिगत डमी चर के परीक्षणों का उपयोग नहीं करना चाहिए (जो मुझे संदेह है कि आप यहां वर्णन करने का प्रयास कर रहे हैं)।
गंग

3

एनोवा आप परीक्षण कर रहे हैं कि क्या जनसंख्या के बीच महत्वपूर्ण अंतर हैं इसका मतलब है कि आप दो से अधिक जनसंख्या साधनों की तुलना कर रहे हैं, तो आप एफ परीक्षण का उपयोग करने जा रहे हैं।

प्रतिगमन विश्लेषण में आप स्वतंत्र चर और एक आश्रित चर के बीच एक मॉडल का निर्माण करते हैं। यदि आपके पास चार स्तरों के साथ एक स्वतंत्र चर है, तो आप तीन डमी चर का उपयोग कर सकते हैं और एक प्रतिगमन मॉडल चला सकते हैं। प्रतिगमन मॉडल के महत्व के लिए परीक्षण करने के लिए उपयोग किया जाता है जो प्रतिगमन मॉडल के लिए एफ-परीक्षण एफ के समान है जो आपको आबादी के साधनों के बीच अंतर के लिए परीक्षण करते समय मिलता है। यदि आप स्टेप वाइज रिग्रेशन चलाते हैं तो कुछ डमी वैरिएबल मॉडल से हटाए जा सकते हैं और जब आप एनोवा टेस्ट करते हैं तो आपका एफ-वैल्यू इससे अलग होगा।


5
यह एनोवा को एक परीक्षण प्रक्रिया और एक मॉडलिंग प्रक्रिया होने के लिए प्रतिगमन बनाता है जिसमें आप परीक्षण कर सकते हैं। लेकिन एनोवा के पास एक अंतर्निहित मॉडल भी है, भले ही सभी परिचयात्मक उपचारों में इस पर जोर दिया गया हो। इसलिए, इस उत्तर से उनके बीच कोई अंतर नहीं है। न ही यह सवाल पर संबोधित किया जाता है, यही वजह है कि उन्हें मजबूत समानता की परवाह किए बिना अलग-अलग रूप में पढ़ाया जाता है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.