एनोव मॉडल में कोवरिएट्स के क्रम को बदलते समय पी-वैल्यू महत्व में क्यों बदलते हैं?


10

मेरे पास 482 अवलोकनों का डेटा सेट है।

data=Populationfull

Im 3 एसएनपी के लिए एक जीनोटाइप एसोसिएशन विश्लेषण करने जा रहा है। Im मेरे विश्लेषण के लिए एक मॉडल बनाने की कोशिश कर रहा हूँ और aov (y ~ x, data = ...) का उपयोग कर Im। एक विशेषता के लिए मेरे पास कई निश्चित प्रभाव और सहसंयोजक हैं जिन्हें मैंने मॉडल में शामिल किया है, जैसे:

Starts <- aov(Starts~Sex+DMRT3+Birthyear+Country+Earnings+Voltsec+Autosec, data=Populationfull)

summary(Starts)
                Df Sum Sq Mean Sq F value   Pr(>F)    
Sex              3  17.90    5.97  42.844  < 2e-16 ***
DMRT3            2   1.14    0.57   4.110    0.017 *  
Birthyear        9   5.59    0.62   4.461 1.26e-05 ***
Country          1  11.28   11.28  81.005  < 2e-16 ***
Earnings         1 109.01  109.01 782.838  < 2e-16 ***
Voltsec          1  12.27   12.27  88.086  < 2e-16 ***
Autosec          1   8.97    8.97  64.443 8.27e-15 ***
Residuals      463  64.48    0.14                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

मुझे पता चला कि यदि मैंने मॉडल में भिन्न चर का क्रम बदल दिया है, तो मुझे अलग-अलग मूल्य मिलेंगे, कृपया नीचे देखें।

Starts2 <- aov(Starts~Voltsec+Autosec+Sex+DMRT3+Birthyear+Country+Earnings, data=Populationfull)

summary(Starts2)

                Df Sum Sq Mean Sq F value   Pr(>F)    
Voltsec   1   2.18    2.18  15.627 8.92e-05 ***
Autosec   1 100.60  100.60 722.443  < 2e-16 ***
Sex              3  10.43    3.48  24.962 5.50e-15 ***
DMRT3            2   0.82    0.41   2.957  0.05294 .  
Birthyear        9   3.25    0.36   2.591  0.00638 ** 
Country          1   2.25    2.25  16.183 6.72e-05 ***
Earnings      1  46.64   46.64 334.903  < 2e-16 ***
Residuals      463  64.48    0.14                     
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

मुझे अलग-अलग पी-वैल्यू क्यों मिलते हैं, जिसके आधार पर चर / कारक / सहसंयोजक / निश्चित (?) कोड किए जाते हैं? क्या इसके लिए "सही" करने का कोई तरीका है? क्या ऐसा हो सकता है कि Im गलत मॉडल का उपयोग कर रहा हो? मैं R पर अभी भी काफी नया हूं, अगर आप मेरी मदद कर सकते हैं तो कृपया इसे वास्तव में सरल रखें ताकि मैं उत्तर को समझ सकूं ... धन्यवाद, उम्मीद है कि कोई मुझे यह समझने में मदद कर सकता है!


3
कृपया Populationfullअपनी समस्या को पुन: पेश करने के लिए कुछ नमूना डेटा प्रदान करें । यह aov()मदद पृष्ठ से उदाहरण के साथ नहीं होता है । summary(aov(yield ~ block + N + P + K, npk)); summary(aov(yield ~ K + P + block + N , npk))
मृ

पी मान बदल रहे हैं क्योंकि मूल्यों का पूरा क्षेत्र बदल गया है। आपका पहला रन Earnings 1 109.01 109.01 782.838 < 2e-16 ***आपका दूसरा रन है Earnings 1 46.64 46.64 334.903 < 2e-16 ***। आपके परिणाम समान नहीं हैं। यह देखने के लिए जाँच करें कि आपने रिवर्सल चर से अधिक नहीं किया है।

1
ALSO: दूसरे मॉडल में, आप ईयर का उपयोग करते हैं, न कि अर्निंग का ... अगर अलग-अलग नामों के दो वैरिएबल हैं तो यह एक मुद्दा हो सकता है अगर वह एसओ प्रश्नों की जगह पर कॉपी करने में टाइपो नहीं है।

हां, मूल्य बदलते हैं लेकिन क्यों? मैंने दोनों मॉडलों में सटीक समान डेटा फ़्रेम से सटीक एक ही कॉलम का उपयोग किया है (दूसरे मॉडल में कमाई बनाम कमाई की बात सिर्फ इतनी है कि मैंने इसे गलत लिखा था, मैंने इसे अब ठीक कर दिया है)।
रेबेगिनर

1
यह इसलिए हो रहा है क्योंकि आपके पास असंतुलित डिज़ाइन है। यदि आप इस फ़ोरम या Google "असंतुलित ANOVA in R" को खोजें तो आपको इस बारे में बहुत मदद मिलेगी। मैं carपैकेज को देखने की सलाह देता हूं- यह टाइप II और टाइप III एनोवा को लागू करता है, जो चर के आदेश पर निर्भर नहीं करता है, जबकि aovटाइप I एनोवा से संबंधित है।
धीरे

जवाबों:


15

समस्या उस तरीके से आती है जो aov()इसका डिफ़ॉल्ट महत्व परीक्षण करता है। यह उपयोग करता है जिसे "टाइप I" एनोवा विश्लेषण कहा जाता है, जिसमें परीक्षण इस क्रम में किया जाता है कि आपके मॉडल में चर निर्दिष्ट किए जाते हैं। इसलिए पहले उदाहरण में, यह निर्धारित किया जाता है कि विचरण को कितना समझाया जाता है sexऔर इसके महत्व का परीक्षण किया जाता है, फिर शेष विचरण के किस भाग को समझाया जाता है DMRT3और उस शेष विचरण के संदर्भ में इसके महत्व का परीक्षण करता है , और इसके बाद। दूसरे उदाहरण में, DMRT3केवल और उसके बाद Voltsec, Autosecऔर sexउस क्रम में मूल्यांकन किया जाता है , इसलिए DMRT3व्याख्या के लिए कम विचरण शेष है ।

अगर दो भविष्यवक्ता चर परस्पर संबंधित हैं, तो पहले वाले मॉडल में पूर्ण "क्रेडिट" मिलेगा, "कम विचरण को छोड़ कर" दूसरे को "समझा" जाएगा, जो इस प्रकार पहले की तुलना में कम "सांख्यिकीय रूप से महत्वपूर्ण" दिखाई दे सकता है, भले ही यह कार्यात्मक रूप से नहीं। यह प्रश्न और इसका उत्तर विभिन्न प्रकार के एनोवा विश्लेषणों की व्याख्या करता है।

इसके चारों ओर जाने का एक तरीका शास्त्रीय एनोवा की सख्ती से खुद को निकालना और lm()आर के बजाय एक सरल रैखिक मॉडल का उपयोग करना है aov()। यह प्रभावी रूप से सभी भविष्यवक्ताओं का समानांतर विश्लेषण करता है, एक बार में सभी भविष्यवक्ताओं के लिए "सही करना"। उस स्थिति में, दो सहसंबंधी भविष्यवक्ता अपने अनुमानित प्रतिगमन गुणांक की बड़ी मानक त्रुटियों को समाप्त कर सकते हैं, और उनके गुणांक आबादी से अलग नमूनों के बीच भिन्न हो सकते हैं, लेकिन कम से कम आप मॉडल विनिर्देश में चर दर्ज करने के लिए कोई बात नहीं करेंगे।

यदि आपकी प्रतिक्रिया चर किसी प्रकार की गणना चर है, जैसा कि इसके नाम से Startsपता चलता है, तो आपको संभवतः एनोवा का उपयोग नहीं करना चाहिए, क्योंकि अवशिष्ट को सामान्य रूप से वितरित होने की संभावना नहीं है, क्योंकि पी- अंतराल व्याख्या की आवश्यकता होती है। गणना चर सामान्यीकृत रैखिक मॉडल (उदाहरण के लिए, glm()आर) के साथ बेहतर तरीके से संभाला जाता है , जिसे lm()अन्य प्रकार के अवशिष्ट त्रुटि संरचनाओं के सामान्यीकरण के रूप में माना जा सकता है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.