क्या छोटे नमूनों के साथ यादृच्छिककरण विश्वसनीय है?


11

जेरोम कॉर्नफील्ड ने लिखा है:

फिशरियन क्रांति का सबसे अच्छा फल यादृच्छिककरण का विचार था, और कुछ अन्य चीजों पर सहमत होने वाले सांख्यिकीविदों ने कम से कम इस पर सहमति व्यक्त की है। लेकिन इस समझौते के बावजूद और नैदानिक ​​और प्रयोग के अन्य रूपों में यादृच्छिक आवंटन प्रक्रियाओं के व्यापक उपयोग के बावजूद, इसकी तार्किक स्थिति, यानी, सटीक कार्य जो यह करता है, वह अभी भी अस्पष्ट है।

कॉर्नफील्ड, जेरोम (1976)। "क्लिनिकल ट्रायल के लिए हालिया पद्धति संबंधी योगदान" । अमेरिकन जर्नल ऑफ एपिडेमियोलॉजी 104 (4): 408-421।

इस साइट के दौरान और विभिन्न प्रकार के साहित्य में मैं यादृच्छिकरण की शक्तियों के बारे में निरंतर दावे देखता हूं। मजबूत शब्दावली जैसे "यह जटिल चर के मुद्दे को समाप्त करता है" आम हैं। यहाँ देखें , उदाहरण के लिए। हालांकि, व्यावहारिक / नैतिक कारणों से कई बार प्रयोग छोटे नमूनों (प्रति समूह 3-10 नमूने) के साथ चलाए जाते हैं। यह जानवरों और सेल संस्कृतियों का उपयोग कर प्रीक्लिनिकल रिसर्च में बहुत आम है और शोधकर्ता आमतौर पर अपने निष्कर्षों के समर्थन में पी मूल्यों की रिपोर्ट करते हैं।

यह मुझे आश्चर्य हो रहा है, कितना अच्छा है यादृच्छिकता भ्रम को संतुलित करना। इस कथानक के लिए मैंने उपचार और नियंत्रण समूहों की तुलना एक ऐसी स्थिति के साथ की, जिसमें एक कॉन्फिडेंस हो, जो 50/50 के मौके (जैसे टाइप 1 / टाइप 2, पुरुष / महिला) के साथ दो मूल्यों को ले सके। यह विभिन्न प्रकार के छोटे नमूना आकारों के अध्ययन के लिए "% असंतुलित" (उपचार के प्रकार # में अंतर और नमूना आकार द्वारा विभाजित नमूनों के बीच अंतर) को दर्शाता है। लाल रेखाएं और दाईं ओर की कुल्हाड़ियां एक्स्टीडएफ दिखाती हैं।

छोटे नमूना आकारों के लिए यादृच्छिककरण के तहत संतुलन की विभिन्न डिग्री की संभावना: यहाँ छवि विवरण दर्ज करें

इस साजिश से दो बातें स्पष्ट हैं (जब तक कि मैंने कहीं गड़बड़ नहीं की)।

1) नमूना आकार में वृद्धि के रूप में बिल्कुल संतुलित नमूने प्राप्त करने की संभावना कम हो जाती है।

2) नमूना आकार बढ़ने पर बहुत असंतुलित नमूना प्राप्त करने की संभावना कम हो जाती है।

3) दोनों समूहों के लिए n = 3 के मामले में, समूहों का पूरी तरह से असंतुलित सेट (नियंत्रण में सभी टाइप 1, उपचार में सभी टाइप 2) होने का 3% मौका है। एन = 3 आणविक जीव विज्ञान प्रयोगों के लिए आम है (जैसे कि पीसीआर के साथ एमआरएनए मापें, या पश्चिमी धब्बा के साथ प्रोटीन)

जब मैंने n = 3 मामले की और जांच की, तो मैंने इन परिस्थितियों में p मानों के अजीब व्यवहार का अवलोकन किया। बाईं ओर टाइप 2 उपसमूह के लिए अलग-अलग साधनों की शर्तों के तहत टी-परीक्षणों का उपयोग करके गणना के अंतरालों के समग्र वितरण को दर्शाता है। टाइप 1 का मतलब 0 था, और दोनों समूहों के लिए sd = 1। दाएं पैनल .05 से.0001 तक नाममात्र "महत्व कटऑफ" के लिए इसी झूठी सकारात्मक दरों को दिखाते हैं।

टी टेस्ट (10000 मोंटे कार्लो रन) के माध्यम से तुलना करने पर दो उपसमूहों और दूसरे उपसमूह के विभिन्न साधनों के साथ n = 3 के लिए पी-वैल्यू का वितरण: यहाँ छवि विवरण दर्ज करें

यहाँ दोनों समूहों के लिए n = 4 के परिणाम हैं: यहाँ छवि विवरण दर्ज करें

दोनों समूहों के लिए n = 5 के लिए: यहाँ छवि विवरण दर्ज करें

दोनों समूहों के लिए n = 10 के लिए: यहाँ छवि विवरण दर्ज करें

जैसा कि ऊपर के चार्ट से देखा जा सकता है कि नमूना आकार और उपसमूह के बीच अंतर के बीच एक अंतर प्रतीत होता है जिसके परिणामस्वरूप शून्य परिकल्पना के तहत विभिन्न प्रकार के पी-मूल्य वितरण होते हैं जो समान नहीं होते हैं।

तो क्या हम यह निष्कर्ष निकाल सकते हैं कि पी-मान छोटे नमूना आकार के साथ यादृच्छिक रूप से नियंत्रित और नियंत्रित प्रयोगों के लिए विश्वसनीय नहीं हैं?

पहले प्लॉट के लिए आर कोड

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

प्लॉट 2-5 के लिए आर कोड

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

मुझे आपकी स्थितियों और समस्या का विवरण पहले से समझने में थोड़ा मुश्किल लगा। टाइप I और टाइप II तकनीकी शब्द हैं जो टाइप 1 सबग्रुप और टाइप 2 सबग्रुप के आपके उपयोग के लिए अलग हैं। जहां तक ​​मैं आपको बता सकता हूं कि आप वितरण के माध्यम से डेटा के साथ एक टी-टेस्ट लागू कर रहे हैं। क्या वह सही है?
माइकल ल्यू

हां, दो सामान्य वितरणों का मिश्रण। "टाइप 1" एन को संदर्भित करता है (0,1), टाइप 2 एन (माध्य 2,1) है। जहां माध्य 2 = (2,3,10, या 100)। क्षमा करें, मैं इसे टाइप ए, टाइपबी में बदल सकता हूं यदि आपको लगता है कि इससे मदद मिलेगी?
फ्लास्क

जवाबों:


4

आप बहुत छोटे नमूनों के लिए अज्ञात भ्रमित चर से निपटने में यादृच्छिकता की सीमाओं को इंगित करने के लिए सही हैं। हालांकि, समस्या यह नहीं है कि पी-मूल्य विश्वसनीय नहीं हैं, लेकिन उनका अर्थ नमूना आकार और विधि की मान्यताओं और आबादी के वास्तविक गुणों के बीच संबंध के साथ भिन्न होता है।

आपके परिणामों के बारे में मेरा कहना है कि जब तक उपसमूह के साधनों में अंतर नहीं होता, तब तक पी-मान काफी अच्छा प्रदर्शन करता था, किसी भी समझदार प्रयोगकर्ता को पता होगा कि प्रयोग करने से पहले एक मुद्दा था।

यह विचार कि एक प्रयोग किया जा सकता है और डेटा की प्रकृति की उचित समझ के संदर्भ के बिना विश्लेषण किया जा सकता है। एक छोटे डेटासेट का विश्लेषण करने से पहले आपको डेटा के बारे में पर्याप्त रूप से पता होना चाहिए कि विश्लेषण में निहित मान्यताओं की रक्षा करने में सक्षम हो। ऐसा ज्ञान आमतौर पर समान या समान प्रणाली का उपयोग करके पूर्व अध्ययनों से आता है, ऐसे अध्ययन जो औपचारिक प्रकाशित कार्य या अनौपचारिक 'प्रारंभिक' प्रयोग हो सकते हैं।


मैं आपके द्वारा कहे गए सभी से सहमत हूं, हालांकि टी-टेस्ट को अक्सर "कर्मकांड" के रूप में प्रदर्शित किया जाता है क्योंकि गर्ड गिगेरेंजर इसे डाल देंगे। व्यवहार में इन परीक्षणों को करने वाले लोगों के पास समय / झुकाव नहीं है कि वे क्या कर रहे हैं की बारीकियों को समझें। इस कारण से मुझे लगता है कि "अविश्वसनीय" विशेषण उपयुक्त हो सकता है। मैं उन शोधकर्ताओं को जानता हूं जब आप वितरण के बारे में पूछते हैं (क्या कोई एक उच्च था, या उस बड़ी त्रुटि पट्टी का क्या कारण था?) ने कभी इस पर ध्यान नहीं दिया।
फ्लास्क

1
खैर, पी-वैल्यू वास्तव में 'मीन' है, जो कि ज्यादातर लोग मानते हैं, उससे अलग है। यहां तक ​​कि कई कागजात जो पी-मूल्यों की 'प्रमाण के साथ अपूरणीय' के रूप में आलोचना करते हैं और जैसे गलत हैं। मैंने कल arXiv पर एक पेपर अपलोड किया है जो P-मानों के गुणों की पड़ताल करता है और दिखाता है कि वे किस प्रकार के साक्ष्य से संबंधित हैं जो प्रयोगकर्ता उपयोग कर सकते हैं। इसका शीर्षक 'टू पी या नॉट टू पी: पी-वैल्यूज़ ऑफ़ नेचर-वैल्यूज़ एंड साइंटिफिक प्लेस इन साइंटिफिक इंफ़ेक्शन' है और इसका आर्काइव सबमिशन नंबर 826269 है। यह सोमवार से उपलब्ध होना चाहिए।
माइकल ल्यू

क्या आप इस प्रश्न पर एक नज़र डाल सकते हैं, जिसे किसी भी कारण से कोई प्यार नहीं मिला है? । मैं मानता हूं कि पी वैल्यू कुछ हैं और आपका पेपर इसे स्पष्ट करने में मदद कर सकता है, लेकिन एक शोधकर्ता के रूप में मुझे यह स्पष्ट करना होगा कि ग्राउंड पोव पर बूट यह है कि वे हमें विफल कर चुके हैं। या तो दुरुपयोग या जन्मजात अनुचितता के कारण, यह अस्पष्ट है। मैं यहां कई प्रश्न पूछ रहा हूं ताकि सांख्यिकीविदों को इस पर विचार करने का प्रयास करना चाहिए।
फ्लास्क

2

पारिस्थितिक अनुसंधान में, प्रायोगिक इकाइयों (विषयों) को उपचार के गैर-आयामी असाइनमेंट मानक अभ्यास है जब नमूना आकार छोटा होता है और एक या अधिक भ्रमित चर का सबूत होता है। यह गैर-आयामी असाइनमेंट "इंटरसेपर्स" विषयों को संभवतः भ्रमित करने वाले चर के स्पेक्ट्रम के पार करता है, जो कि वास्तव में यादृच्छिक असाइनमेंट करने वाला है। लेकिन छोटे नमूने के आकार में, यादृच्छिककरण इस पर खराब प्रदर्शन करने की अधिक संभावना है (जैसा कि ऊपर दिखाया गया है) और इसलिए इस पर भरोसा करना एक बुरा विचार हो सकता है।

क्योंकि अधिकांश क्षेत्रों में यादृच्छिकरण की इतनी दृढ़ता से वकालत की जाती है (और ठीक इसी तरह), यह भूलना आसान है कि अंतिम लक्ष्य पक्षपात को कम करने के बजाय कठोर यादृच्छिककरण का पालन करना है। हालांकि, यह शोधकर्ता (ओं) पर अवलंबित है कि वे उलझे हुए चर के सूट को प्रभावी ढंग से चित्रित कर सकें और गैर-आयामी असाइनमेंट को एक ऐसे दोषपूर्ण तरीके से अंजाम दे सकें जो प्रायोगिक परिणामों के लिए अंधा हो और सभी उपलब्ध सूचनाओं और संदर्भों का उपयोग करता हो।

सारांश के लिए, हर्लबर्ट, स्टुअर्ट एच। 1984 में पीपी 192-198 को देखें। छद्म मूल्यांकन और क्षेत्र प्रयोगों के डिजाइन। पारिस्थितिक मोनोग्राफ 54 (2) पीपी.187-211।


मुझे यह पढ़कर बहुत अच्छा लगा, लेकिन मुझे इस बात का मलाल है कि आपके पैराग्राफ के पैराग्राफ में "पूर्वाग्रह" का उपयोग गलत हो सकता है क्योंकि उस शब्द का एक विशिष्ट सांख्यिकीय अर्थ है जो आपके कथन को गलत ठहराएगा। यदि आप इसके बजाय कि यादृच्छिकीकरण को रोकने के लिए करना है कहने की कोशिश कर नहीं कर रहे हैं सत्यानाशी (एक आकलनकर्ता की अशुद्धि का एक उपाय के रूप में) (एक बोलचाल अर्थ में "पूर्वाग्रह" का एक रूप) के बजाय पूर्वाग्रह को कम?
whuber

मैं एक सांख्यिकीय अर्थ में पूर्वाग्रह की बात कर रहा हूं। आंकड़ों में, "पूर्वाग्रह" एक आँकड़ा और उस पैरामीटर के बीच का अंतर है जिसका वह अनुमान लगाता है। जैसा कि आप उल्लेख करते हैं, एक अनुमानक का पूर्वाग्रह आकलनकर्ता के अपेक्षित मूल्य और उस पैरामीटर के सही मूल्य के बीच का अंतर है जो इसका आकलन कर रहा है। अपनी पोस्ट में, "पूर्वाग्रह" द्वारा मैं डेटा से गणना किए गए आँकड़ों और उन मापदंडों के बीच अंतर का उल्लेख कर रहा था, जो वे अनुमान लगाते हैं- उदाहरण के लिए, नमूना माध्य (x बार) और वास्तविक माध्य (mu) के बीच।
डैरेन जेम्स

जहाँ तक मुझे जानकारी है, बेतरतीब नमूने का इस्तेमाल पूर्वाग्रह को कम करने के लिए नहीं किया जाता है, और न ही कई परिस्थितियों में यह वैध रूप से दावा किया जा सकता है कि यह पूर्वाग्रह को कम करता है।
whuber

आप गलत कर रहे हैं। यादृच्छिककरण का प्राथमिक लक्ष्य स्वतंत्रता के प्रभाव का अनुकरण करना है। यह विषयों को उपचार के व्यवस्थित असाइनमेंट के माध्यम से उत्पन्न होने वाले पूर्वाग्रहों को समाप्त करके करता है। ये पक्षपात गलत अनुमानों का उत्पादन करते हैं - सबसे महत्वपूर्ण, पक्षपातपूर्ण विचरण अनुमानों - प्रकार I और II त्रुटि पर नियंत्रण का नुकसान। यहां तक ​​कि भ्रमित चर (जो वास्तव में स्वतंत्रता की कमी के लिए राशि है) बस छोड़े गए चर पूर्वाग्रह का मामला है। लेकिन आपको इसके लिए मेरा शब्द लेने की आवश्यकता नहीं है ... यदि आप ऊपर दिए गए हर्लबर्ट पेपर से असंबद्ध हैं, तो यहां परामर्श करने के लिए कुछ अन्य संसाधन हैं:
डैरेन जेम्स

कोचरन, डब्ल्यूजी और जीएम कॉक्स। 1957. प्रायोगिक डिजाइन। न्यूयॉर्क: विली। फेडरर, डब्ल्यूटी 1955। प्रायोगिक डिजाइन। न्यूयॉर्क: मैकमिलन। हिंकेलमैन, के।, और केम्पथोर्न, ओ। 1994. डिजाइन और प्रयोगों का विश्लेषण। विली: न्यूयॉर्क। कुहल, आरओ 2000। प्रयोगों का डिजाइन: अनुसंधान डिजाइन और विश्लेषण के सांख्यिकीय सिद्धांत। बेलमोंट, सीए: ब्रूक्स / कोल।
डैरेन जेम्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.