क्या ANOVA महत्वपूर्ण हो सकता है जब युग्मक t- परीक्षणों में से कोई भी नहीं है?


29

क्या यह एक तरफ़ा ( समूहों, या "स्तरों" के साथ) एनोवा के लिए एक महत्वपूर्ण अंतर की रिपोर्ट करने के लिए संभव है जब कोई भी जोड़ीदार टी-टेस्ट नहीं करता है?N>2N(N1)/2

में इस उत्तर @whuber लिखा है:

यह सर्वविदित है कि एक वैश्विक एनोवा एफ परीक्षण उन मामलों में भी भिन्नता का पता लगा सकता है, जहां कोई भी व्यक्ति [अनजाने जोड़ीदार] किसी भी तरह के साधनों के टी-टेस्ट का एक महत्वपूर्ण परिणाम नहीं देगा।

इतना स्पष्ट रूप से यह संभव है, लेकिन मुझे समझ नहीं आता कि कैसे। ऐसा कब होता है और ऐसे मामले के पीछे क्या अंतर्ज्ञान होगा? शायद कोई ऐसी स्थिति का एक साधारण खिलौना उदाहरण प्रदान कर सकता है?

कुछ और टिप्पणियां:

  1. विपरीत स्पष्ट रूप से संभव है: समग्र एनोवा गैर-महत्वपूर्ण हो सकता है जबकि कुछ जोड़ीदार टी-परीक्षण गलत तरीके से महत्वपूर्ण अंतर की रिपोर्ट करते हैं (अर्थात वे गलत सकारात्मक होंगे)।

  2. मेरा प्रश्न कई तुलनात्मक टी-टेस्ट के लिए मानक, गैर-समायोजित के बारे में है। यदि समायोजित परीक्षणों का उपयोग किया जाता है (जैसे कि टके की एचएसडी प्रक्रिया), तो यह संभव है कि उनमें से कोई भी महत्वपूर्ण न हो, भले ही समग्र एनोवा हो। यह कई सवालों में शामिल है, उदाहरण के लिए, मैं एक महत्वपूर्ण समग्र ANOVA कैसे प्राप्त कर सकता हूं लेकिन Tukey की प्रक्रिया के साथ कोई महत्वपूर्ण जोड़ीदार अंतर नहीं है? और महत्वपूर्ण एनोवा बातचीत लेकिन गैर-महत्वपूर्ण जोड़ीदार तुलना

  3. अद्यतन करें। मेरा प्रश्न मूल रूप से सामान्य दो-नमूना युग्मक टी-परीक्षणों के लिए संदर्भित है । हालाँकि, जैसा कि @whuber ने टिप्पणी में कहा, एनोवा संदर्भ में, टी-टेस्ट को आमतौर पर पोस्ट-हॉक विरोधाभासों के रूप में समझा जाता है, जो एनोवा के भीतर के संस्करण के अनुमान का उपयोग करते हुए, सभी समूहों (जो एक दो में नहीं होता है -सम्पल टी-टेस्ट)। इसलिए वास्तव में मेरे प्रश्न के दो अलग-अलग संस्करण हैं, और दोनों का उत्तर सकारात्मक निकला है। निचे देखो।


3
आपका प्रश्न कई थ्रेड्स में शामिल है: महत्वपूर्ण प्रतिगमन पर हमारी साइट को खोजने का प्रयास करें । (एनोवा कम से कम चौकों के प्रतिगमन का एक अनुप्रयोग है।) उदाहरण के लिए, आंकड़े ।stackexchange.com / questions / 14500 / एक स्पष्ट उदाहरण और कुछ अंतर्ज्ञान प्रदान करता है। कृपया इन पर शोध करें और यदि संभव हो तो अपने प्रश्न को संपादित करें, इसे पिछले थ्रेड से अलग करने के लिए।
whuber

धन्यवाद, मैंने पहले ऐसा नहीं देखा। हालाँकि, एनोवा तुलना की भाषा में कई प्रतिगमन के बारे में इन स्पष्टीकरणों का अनुवाद करने में मेरे पास वास्तव में कठिन समय है। यह निश्चित रूप से मेरी अपनी समस्या है, लेकिन मुझे लगता है कि मैं अकेला नहीं हूं, इसलिए शायद मेरे सवाल का जवाब समुदाय के लिए उपयोगी होगा। यहाँ मेरा भ्रम है: किसी ने बाएं / दाएं जूते के आकार (दो दृढ़ता से सहसंबद्ध IVs) => एफ सिगनिफ, टी नहीं के वजन को फिर से हासिल करने का एक उदाहरण दिया। बहुत अच्छा। अब 3 समूहों के साथ ANOVA प्रतिगमन में 2 डमी IVs हैं; वे डमी हैं => हमेशा पूरी तरह से विरोधाभासी ... और तो क्या?
अमीबा का कहना है कि मोनिका

मुझे डर है कि मैं उस आखिरी टिप्पणी का पालन नहीं करता हूं। सबसे पहले, मुद्दा जरूरी नहीं कि डिजाइन मैट्रिक्स में मजबूत सहसंबंध से जुड़ा हो। दूसरा, dummies हैं नहीं "पूरी तरह से anticorrelated": अगर वे थे, सॉफ्टवेयर वैसे भी उनमें से एक ड्रॉप करने के लिए होगा। आप शायद अधिक जटिल एनोवा मॉडल में उपशीर्षक मुद्दों का जिक्र कर रहे हैं
whuber

@amoeba: आपके डमी वैरिएबल नकारात्मक रूप से सहसंबद्ध हैं।
माइकल एम

3
मैं आपके "आगे की टिप्पणी" को अपवाद नहीं लेता। 1. सिर्फ इसलिए कि आपके पास अत्यधिक महत्वपूर्ण जोड़ीदार तुलनाएं हैं और एक निरर्थक एफ का मतलब यह नहीं है कि वे महत्वपूर्ण परिणाम गलत सकारात्मक हैं। यह सुनिश्चित करने के लिए कि कुछ गलत है, आपको यह जानना होगा कि वास्तविक साधनों में कोई अंतर नहीं है। F आँकड़ा पवित्र नहीं है। वास्तव में, यह अनिवार्य भी नहीं है। यह मॉडल चयन के लिए सबसे उपयोगी है, लेकिन इससे परे यह आपके डेटा में विशेष रूप से क्या चल रहा है इसकी शायद ही जानकारी है।
rvl

जवाबों:


18

नोट: मेरे मूल उदाहरण में कुछ गड़बड़ थी। मैं मूर्खतापूर्ण रूप से आर के मूक तर्क रीसाइक्लिंग द्वारा पकड़ा गया। मेरा नया उदाहरण मेरे पुराने के समान है। उम्मीद है कि अभी सब कुछ ठीक है।

यहाँ मैंने एक उदाहरण दिया है जिसमें 5% के स्तर पर ANOVA महत्वपूर्ण है, लेकिन 6 जोड़ी में से कोई भी तुलना महत्वपूर्ण नहीं है, यहाँ तक कि 5% के स्तर पर भी

यहाँ डेटा है:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

यहां छवि विवरण दर्ज करें

यहाँ एनोवा है:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

यहां दो सैंपल टी-टेस्ट पी-वैल्यू (समान भिन्नता धारणा) दिए गए हैं:

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

समूह साधनों या अलग-अलग बिंदुओं के साथ थोड़ी और फ़िदालिंग के साथ, महत्व के अंतर को और अधिक हड़ताली बनाया जा सकता है (इसमें मैं पहले पी-मूल्य को छोटा बना सकता हूं और टी-टेस्ट के लिए छह पी-वैल्यू के सेट को सबसे कम कर सकता हूं। )।

-

संपादित करें: यहां एक अतिरिक्त उदाहरण दिया गया है जो मूल रूप से एक प्रवृत्ति के बारे में शोर के साथ उत्पन्न हुआ था, जो दिखाता है कि यदि आप थोड़ा सा चारों ओर बढ़ते हैं तो आप कितना बेहतर कर सकते हैं:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F का पी-मान 3% से कम है और T का कोई भी P- मान 8% से कम नहीं है। (एक 3 समूह उदाहरण के लिए - लेकिन एफ पर कुछ बड़ा पी-मूल्य के साथ - दूसरे समूह को छोड़ दें)

और यहां वास्तव में सरल है, अगर अधिक कृत्रिम, 3 समूहों के साथ उदाहरण:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(इस मामले में, सबसे बड़ा विचरण मध्य समूह पर है - लेकिन वहां बड़ा नमूना आकार होने के कारण, समूह का मानक त्रुटि का मतलब अभी भी छोटा है)


मल्टीपल टी-टेस्ट की तुलना करता है

व्हीबर ने सुझाव दिया कि मैं कई तुलनाओं के मामले पर विचार करता हूं। यह काफी रोचक साबित होता है।

कई तुलनाओं के लिए मामला (सभी मूल महत्व के स्तर पर आयोजित - यानी कई तुलनाओं के लिए अल्फा को समायोजित किए बिना) कुछ हद तक हासिल करना अधिक कठिन है, क्योंकि बड़े समूहों में छोटे और छोटे संस्करण या अधिक और कम डीएफ के साथ खेलना मदद नहीं करता है। उसी तरह जैसे वे साधारण दो-नमूना टी-परीक्षणों के साथ करते हैं।

हालांकि, हमारे पास अभी भी समूहों की संख्या और महत्व स्तर में हेरफेर करने के उपकरण हैं; यदि हम अधिक समूह और छोटे महत्व के स्तर चुनते हैं, तो यह फिर से मामलों की पहचान करने के लिए अपेक्षाकृत सरल हो जाता है। यहां एक है:

ni=2α=0.0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

जोड़ीदार तुलनाओं पर सबसे छोटा पी-मूल्य उस स्तर पर महत्वपूर्ण नहीं है:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
दो-नमूना टी-परीक्षण प्रतिगमन में जोड़ीदार परीक्षणों के समान नहीं है। अवशिष्ट अवशिष्ट के अनुमान में निहित है। इस प्रकार आपके उदाहरण वास्तव में मजबूत विरोधाभास के उदाहरण नहीं हैं, जो यह है कि एक और एक ही प्रतिगमन विश्लेषण के भीतर एफ-परीक्षण महत्वपूर्ण हो सकता है, जबकि इसके जोड़ीदार तुलनाओं में से कोई भी महत्वपूर्ण नहीं है। मेरा मानना ​​है कि यह विरोधाभास जरूरी नहीं कि विषमलैंगिकता से उत्पन्न हो, या तो: यह तब भी प्रकट हो सकता है जब सभी समूह संस्करण समान हों।
whuber

4
अधिक दिलचस्प अभी भी पता करने के लिए हो सकता है जब एफ-टेस्ट के लिए संभव है कि नल को अस्वीकार कर दिया जाए, लेकिन जोड़ी के टी-परीक्षणों में से कोई भी इसे एक ही महत्व के स्तर पर अस्वीकार नहीं करता है (एफ-टेस्ट के समान त्रुटि विचरण अनुमान का उपयोग करके)। समान समूहों के लिए 3 समूहों के लिए समान आकार के साथ 5% रिजेक्शन क्षेत्र के संघ युग्मय टी-परीक्षणों के लिए नमूना आकार बहुत बड़े होने पर भी एनोवा एफ-परीक्षण के लिए 5% अस्वीकृति क्षेत्र शामिल हैं।
Scortchi - को पुनः स्थापित मोनिका

4
0.005F

4
अमीबा, भ्रम इस तथ्य से उत्पन्न होता है कि "जोड़ीदार टी-परीक्षण" का अर्थ दो चीजें हो सकता है। एनोवा संदर्भ में, आमतौर पर एएनओएए अनुमानों का उपयोग करते हुए पोस्ट हॉक विरोधाभासों का मतलब समझा जाएगा । जैसा कि अन्य ने बताया है, यह समूहों के जोड़े पर सामान्य टी-टेस्ट आयोजित करने के समान नहीं है, क्योंकि एनोवा संस्करण सभी समूहों से प्राप्त भीतर-समूह विचरण के अनुमान पर आधारित है ।
whuber

2
मुझे लगता है कि आपने एक अच्छा सारांश बना लिया है। मैंने विरोधाभास को इस अर्थ में "अधिक मजबूत" कहा कि जब सभी परीक्षण एक एनोवा विश्लेषण के ढांचे के भीतर किए जाते हैं, तो कोई (भोलेपन से) उनसे आंतरिक रूप से सुसंगत होने की उम्मीद करेगा। (जब आप परीक्षण के दो सेटों का आयोजन करते हैं जो स्वाभाविक रूप से संबंधित नहीं होते हैं, तो यह बहुत आश्चर्यचकित नहीं होना चाहिए जब वे परस्पर विरोधी परिणाम देते हैं। यह अक्सर होता है।) हमें यह स्वीकार करना होगा कि यह तार्किक रूप से सुसंगत और सांख्यिकीय रूप से उस समूह को समाप्त करने के लिए वैध है। समूहों के किसी भी विशिष्ट जोड़े के बीच अंतर नहीं ढूंढते समय महत्वपूर्ण रूप से भिन्न होता है।
whuber

4

सारांश: मेरा मानना ​​है कि यह संभव है, लेकिन बहुत, बहुत संभावना नहीं है। अंतर छोटा होगा, और अगर ऐसा होता है, तो ऐसा इसलिए है क्योंकि एक धारणा का उल्लंघन किया गया है (जैसे विचरण की समरूपता)।

यहाँ कुछ कोड है जो इस तरह की संभावना की तलाश करता है। ध्यान दें कि यह बीज को प्रत्येक बार 1 बार चलाता है, ताकि बीज संग्रहीत हो (और बीज के माध्यम से खोज व्यवस्थित)।

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

एक महत्वपूर्ण आर 2 और कोई गैर-महत्वपूर्ण टी-टेस्ट की खोज करने पर मुझे 18,000 के बीज तक कुछ भी नहीं मिला है। टी-परीक्षणों की तुलना में आर 2 से कम पी-मूल्य की खोज करने पर मुझे बीज = 323 पर परिणाम मिलता है, लेकिन अंतर बहुत छोटा है। यह संभव है कि मापदंडों को ट्विक करना (समूहों की संख्या बढ़ाना?) मदद कर सकता है। आर 2 पी-मूल्य छोटा होने का कारण यह है कि जब प्रतिगमन में मापदंडों के लिए मानक त्रुटि की गणना की जाती है, तो सभी समूह संयुक्त होते हैं, इसलिए अंतर की मानक त्रुटि टी-टेस्ट की तुलना में संभवतः छोटी होती है।

मुझे आश्चर्य है कि अगर विषमलैंगिकता का उल्लंघन करने से मदद मिल सकती है (जैसा कि यह था)। ऐसा होता है। अगर मैं उपयोग करता हूं

y <- (rnorm(600) + x * 0.01) * x * 5

Y उत्पन्न करने के लिए, तब मुझे बीज = 1889 पर एक उपयुक्त परिणाम मिलता है, जहाँ t-परीक्षणों से न्यूनतम p- मान 0.061 है और R-squared से जुड़ा p-मान 0.046 है।

अगर मैं x के नमूने को बदलकर समूह के आकार (जो विषमलैंगिकता के उल्लंघन के प्रभाव को बढ़ाता है) को भिन्न करता है:

x <- sample(c(0:5), 100, replace=TRUE)

मुझे बीज = 531 पर एक महत्वपूर्ण परिणाम मिलता है, न्यूनतम टी-टेस्ट पी-मान 0.063 पर और 0.046 पर आर 2 के लिए पी-मूल्य।

अगर मैं टी-टेस्ट में विषमलैंगिकता के लिए सही का उपयोग बंद कर देता हूं:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

मेरा निष्कर्ष यह है कि ऐसा होने की संभावना बहुत कम है, और अंतर बहुत कम होने की संभावना है, जब तक कि आपने प्रतिगमन में समरूपता धारणा का उल्लंघन नहीं किया है। एक मजबूत / सैंडविच / जो भी आप इसे सुधार कहना चाहते हैं, उसके साथ अपना विश्लेषण चलाने की कोशिश करें।


आपको लगता है कि अधूरा वाक्य "अगर मैं टी-टेस्ट में विषमलैंगिकता के लिए सही करना बंद कर देता हूं" से शुरू होता है। इसके अलावा, बहुत बहुत धन्यवाद! कृपया प्रश्न के लिए मेरा अपडेट देखें। यह भी ध्यान दें @ व्हिबर की पहली टिप्पणी यहाँ; अगर मैं सही ढंग से समझूं, तो वह जोर देकर कहते हैं कि ऐसी स्थिति आसानी से (?) हो सकती है (और इसे "अच्छी तरह से जाना जाता है")। शायद यहां कुछ गलतफहमी है, लेकिन यह क्या है?
अमीबा का कहना है कि

मुझे लगता है कि @whuber मॉडल में गैर-महत्वपूर्ण मापदंडों के बारे में बात कर रहा है, गैर-महत्वपूर्ण टी-टेस्ट नहीं।
जेरेमी मील्स

नहीं, वह नहीं है। यदि यह अच्छी तरह से ज्ञात है, तो मुझे यह पता नहीं है और मैंने एक उदाहरण के साथ आने की कोशिश की है, और नहीं कर सकता।
जेरेमी माइल्स

1
मुझे खुशी है, फिर, उस @Glen_b ने एक सरल उदाहरण पेश किया। अंतर्ज्ञान यह है कि समग्र परीक्षण यह आकलन करता है कि क्या इस बात के प्रमाण हैं कि समूह में प्रसार का मतलब केवल अवशिष्ट विचरण द्वारा समझाया नहीं जा सकता है। जोड़ीदार परीक्षण, एक समय में केवल दो साधनों को शामिल करते हुए समान प्रमाणों के मूल्यांकन में काफी अधिक रूढ़िवादी होना चाहिए। इसलिए, दो चरम समूह साधनों की तुलना करना भी महत्वपूर्ण अंतर को उजागर करने में विफल हो सकता है जब सभी साधनों का समग्र वितरण महत्वपूर्ण होता है। यह कभी-कभी व्यवहार में होता है, खासकर बड़ी संख्या में समूहों के साथ।
whuber

3
BTW, इस "अच्छी तरह से ज्ञात" को कॉल करने का कारण सिस्टैट सॉफ़्टवेयर मैनुअल c में इसके बारे में चेतावनी दी जा रही है। 1989. यह एक बहुत ही शिक्षाप्रद मैनुअल था (ज्यादातर यह व्यक्तिगत रूप से लेलैंड विल्किंसन , डेवलपर द्वारा लिखित ) और शायद अभी भी है। मैनुअल ऑनलाइन है, लेकिन आपको इसे डाउनलोड करने में सक्षम होने के लिए सिस्टैट साइट पर पंजीकरण करना होगा।
whuber

2

यह पूरी तरह से संभव है:

  • एक या एक से अधिक जोड़ीदार टी-टेस्ट सांकेतिक है, लेकिन समग्र एफ-परीक्षण नहीं है
  • समग्र एफ-परीक्षण महत्वपूर्ण है लेकिन जोड़ीदार टी-टेस्ट में से कोई भी नहीं है

समग्र एफ परीक्षण एक साथ सभी विरोधाभासों का परीक्षण करता है । इस प्रकार, यह व्यक्तिगत विरोधाभासों के लिए कम संवेदनशील (कम सांख्यिकीय शक्ति) होना चाहिए (जैसे: एक जोड़ीदार परीक्षण)। दोनों परीक्षण एक-दूसरे के साथ निकटता से संबंधित हैं, लेकिन वे वास्तव में एक ही बात नहीं बता रहे हैं ।

जैसा कि आप देख सकते हैं, जब तक समग्र एफ-परीक्षण महत्वपूर्ण नहीं है, तब तक पाठ्यपुस्तक की योजनाबद्ध तुलना नहीं करने की सिफारिश हमेशा सही नहीं होती है। वास्तव में, अनुशंसा हमें महत्वपूर्ण अंतर खोजने से रोक सकती है क्योंकि समग्र एफ परीक्षण में विशिष्ट अंतरों के परीक्षण के लिए योजनाबद्ध तुलना की तुलना में कम शक्ति है।


मुझे यकीन नहीं है कि मैं आपके उत्तर के तर्क का पालन करूंगा। क्या आप कह रहे हैं कि एफ-टेस्ट द्वारा एच 0 की अस्वीकृति का अर्थ है कि कम से कम एक गैर-शून्य विपरीत है, लेकिन यह विपरीत किसी भी जोड़ीदार तुलना के अनुरूप नहीं हो सकता है? यदि ऐसा है, तो क्या इसका मतलब यह है कि यदि कोई F-परीक्षण H0 को अस्वीकार करता है, तो सभी संभावित विरोधाभासों में से कम से कम जोड़ीदार परीक्षणों में से एक अस्वीकृति भी होगी?
अमीबा का कहना है कि मोनिका

@amoeba मैंने अपना उत्तर संपादित कर लिया है।
स्मॉलचेयर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.