एक प्रयोग डिजाइन में एक संभावित उलझन


12

प्रश्न का अवलोकन

चेतावनी: इस प्रश्न के लिए सेट अप की बहुत आवश्यकता है। कृपया मेरा साथ दें।

मेरा और मेरा एक सहयोगी एक प्रयोग डिजाइन पर काम कर रहे हैं। डिज़ाइन को बड़ी संख्या में बाधाओं के आसपास काम करना चाहिए, जिसे मैं नीचे सूचीबद्ध करूंगा। मैंने एक ऐसी डिज़ाइन विकसित की है जो बाधाओं को संतुष्ट करती है और जो हमें हमारे हित के प्रभावों का निष्पक्ष अनुमान देती है। हालांकि, मेरे सहयोगी का मानना ​​है कि डिजाइन में एक भ्रम है। हमने बिना किसी प्रस्ताव के इस बिंदु विज्ञापन को रोक दिया है, इसलिए इस बिंदु पर मैं कुछ बाहरी राय चाहूंगा।

मैं अध्ययन के लक्ष्य, हमारी बाधाओं, संभावित संघर्ष का वर्णन करूंगा, और मेरा मानना ​​है कि यह "भ्रम" नीचे एक समस्या नहीं है। जैसा कि आप प्रत्येक अनुभाग को पढ़ते हैं, मेरे समग्र प्रश्न को ध्यान में रखते हैं:

क्या मेरे द्वारा वर्णित डिज़ाइन में कोई गड़बड़ है?

[इस प्रयोग का विवरण संशोधित किया गया है, लेकिन मेरे प्रश्न पूछने के लिए आवश्यक आवश्यक तत्व समान हैं]

प्रयोग लक्ष्य

हम यह निर्धारित करना चाहते हैं कि क्या सफेद पुरुषों द्वारा लिखे गए निबंधों का मूल्यांकन सफेद महिलाओं, काले पुरुषों या काले महिलाओं द्वारा लिखे गए निबंधों ( निबंध लेखक चर) से अधिक अनुकूल रूप से किया जाता है । हम यह भी निर्धारित करना चाहते हैं कि क्या हम जो पूर्वाग्रह पाते हैं, वह उच्च या निम्न गुणवत्ता अनुदान ( गुणवत्ता चर) में अधिक दिखाता है । अंत में, हम 12 अलग-अलग विषयों ( विषय चर) के बारे में लिखे गए निबंधों को शामिल करना चाहते हैं । हालांकि, केवल पहले दो चर पर्याप्त रुचि के हैं; हालांकि विषय निबंधों में भिन्न होना चाहिए, लेकिन हम इस बात में दिलचस्पी नहीं रखते हैं कि मूल्यांकन पूरे विषयों में कैसे भिन्न होते हैं।

प्रतिबन्ध

  1. प्रतिभागियों की संख्या और निबंध की संख्या दोनों की सीमाएं हैं जिन्हें हम एकत्र कर सकते हैं। परिणाम यह है कि लेखकों को पूरी तरह से प्रतिभागियों के बीच जोड़तोड़ नहीं किया जा सकता है, और न ही इसे पूरी तरह से निबंध (यानी, प्रत्येक व्यक्तिगत निबंध को कई स्थितियों में सौंपा जाना चाहिए) के बीच हेरफेर किया जा सकता है।
  2. यद्यपि प्रत्येक निबंध में श्वेत पुरुष, श्वेत महिला, अश्वेत पुरुष और अश्वेत महिला संस्करण हो सकते हैं, लेकिन प्रत्येक निबंध केवल उच्च और निम्न गुणवत्ता वाला हो सकता है और केवल एक विषय हो सकता है। या, इस बाधा को एक अलग तरीके से रखने के लिए, निबंध के भीतर न तो गुणवत्ता और न ही विषय में हेरफेर किया जा सकता है, क्योंकि वे किसी दिए गए निबंध की अंतर्निहित विशेषताएं हैं।
  3. थकान के कारण, निबंध की एक सीमा है जो किसी प्रतिभागी का मूल्यांकन कर सकता है।
  4. सभी निबंध जो किसी दिए गए व्यक्ति को पढ़ते हैं, उन्हें किसी एक विषय के बारे में होना चाहिए। दूसरे शब्दों में, निबंध पूरी तरह से प्रतिभागियों को यादृच्छिक पर नहीं सौंपे जा सकते हैं, क्योंकि हमें यह सुनिश्चित करने की आवश्यकता है कि प्रत्येक प्रतिभागी केवल एक ही विषय के निबंध पढ़ता है।
  5. प्रत्येक भागीदार केवल एक निबंध को कथित तौर पर एक गैर श्वेत पुरुष लेखक द्वारा देखा जा सकता है, क्योंकि हम नहीं चाहते हैं कि प्रतिभागियों को प्रयोग के उद्देश्य के बारे में संदेह हो क्योंकि उनके कई निबंध ब्लैक या महिला लेखकों द्वारा लिखे गए हैं।

प्रस्तावित डिजाइन

मेरा प्रस्तावित डिज़ाइन पहले प्रत्येक निबंध को 4 अलग-अलग लेखक संस्करणों (श्वेत पुरुष, श्वेत महिला, आदि) में हेरफेर करता है। एक समान विषय के चार निबंध तब "सेट" को परिभाषित करने के लिए उपयोग किए जाते हैं, जिनमें से प्रत्येक में दो उच्च और दो निम्न गुणवत्ता वाले निबंध होते हैं। प्रत्येक प्रतिभागी को दिए गए सेट से तीन निबंध प्राप्त होते हैं जो नीचे दिए गए चित्र में दिए गए हैं। प्रत्येक भागीदार तब तीन निबंधों में से प्रत्येक को एक ही रेटिंग प्रदान करता है जिसे उसे सौंपा गया है।

प्रयोग डिजाइन

संभावित उलझन

मेरे सहयोगी का मानना ​​है कि उपरोक्त डिज़ाइन में एक उलझन है। वह कहते हैं, समस्या यह है कि, जब एक उच्च गुणवत्ता वाले निबंध को एक गैर श्वेत पुरुष लेखक द्वारा लेखक को सौंपा जाता है, तो इसे हमेशा एक उच्च गुणवत्ता निबंध और एक निम्न गुणवत्ता निबंध (निबंध 1 के लिए) के साथ जोड़ा जाता है, प्रतिभागियों को 1-3 देखें चित्र में)। दूसरी ओर, जब उसी निबंध को श्वेत पुरुष लेखकों द्वारा लिखे जाने का काम सौंपा जाता है, तो इसे एक उच्च गुणवत्ता वाले निबंध और एक निम्न गुणवत्ता वाले निबंध के साथ तीन बार (निबंध 1, प्रतिभागियों के लिए 4-6) और दो निम्न गुणवत्ता वाले निबंध तीन के साथ जोड़ा जाता है। समय (निबंध 1 के लिए, प्रतिभागियों को 7-9)।

निम्न गुणवत्ता वाले निबंधों के लिए एक समान समस्या मौजूद है। जब निम्न गुणवत्ता वाले निबंध में एक गैर श्वेत पुरुष लेखक होता है, तो उसे हमेशा निम्न गुणवत्ता वाले निबंध और उच्च गुणवत्ता वाले निबंध (निबंध 3 के लिए, प्रतिभागियों को 7-9 देखें) के साथ देखा जाता है। हालाँकि, जब उस निबंध में एक श्वेत पुरुष लेखक होता है, तो उसे तीन बार (निबंध 3, प्रतिभागियों के लिए 10-12) और दो उच्च गुणवत्ता वाले निबंधों के लिए तीन बार (निबंध 3 के लिए) एक उच्च गुणवत्ता वाले निबंध और एक निम्न गुणवत्ता वाले निबंध के साथ देखा जाता है। प्रतिभागी 1-3)।

उपरोक्त पैटर्न समस्याग्रस्त हो सकता है यदि हम "विपरीत प्रभाव" के अस्तित्व को मानते हैं। विशेष रूप से, यदि उच्च गुणवत्ता के निबंधों का मूल्यांकन औसतन अधिक अनुकूल रूप से किया जाता है, जब उन्हें दो निम्न गुणवत्ता वाले निबंधों के साथ जोड़ा जाता है, जब उन्हें एक निम्न गुणवत्ता वाले निबंध और एक उच्च गुणवत्ता वाले निबंध (एक उचित धारणा) के साथ जोड़ा जाता है, तो श्वेत पुरुष निबंधों की तुलना में उच्च रेटिंग प्राप्त कर सकते हैं। श्वेत महिला, श्वेत पुरुष, और अश्वेत महिला लेखिका के अलावा अन्य कारणों से निबंध।

उच्च गुणवत्ता वाले निबंधों के लिए एक विपरीत प्रभाव निम्न गुणवत्ता वाले निबंधों के विपरीत प्रभाव से संतुलित हो सकता है या नहीं भी; यह है, यह हो सकता है या नहीं हो सकता है कि दो उच्च गुणवत्ता निबंध के साथ रखा कम गुणवत्ता निबंध विशेष रूप से प्रतिकूल मूल्यांकन कर रहे हैं। भले ही, मेरे सहकर्मी का दावा है, किसी भी तरह के विपरीत प्रभावों की संभावना इस डिजाइन को निर्धारित करने के उद्देश्यों के लिए समस्याग्रस्त प्रस्तुत करती है कि क्या सफेद पुरुषों द्वारा लिखे गए निबंधों का मूल्यांकन अन्य लेखकों के निबंधों की तुलना में अधिक अनुकूल है।

मेरा मानना ​​है कि संभावित उलझन कोई समस्या नहीं है

मेरे लिए जो मायने रखता है, वह यह है कि क्या हम श्वेत पुरुष निबंधों का मूल्यांकन अन्य निबंधों की तुलना में अलग-अलग तरीके से कर सकते हैं (यानी, क्या हम अपनी रुचि के प्रभावों का अनुमान लगा सकते हैं), इसके विपरीत प्रभावों की उपस्थिति में भी। इसलिए मैंने एक सिमुलेशन आयोजित किया, जहां मैंने 50 डेटासेटों का अनुकरण किया, जिसमें विपरीत प्रभाव शामिल थे और एक मॉडल फिट किया जो हमारी रुचि के प्रभावों के लिए परीक्षण करता है।

विशिष्ट मॉडल एक मिश्रित प्रभाव वाला मॉडल है जिसमें निबंध के लिए यादृच्छिक अंतर (प्रत्येक निबंध का मूल्यांकन कई प्रतिभागियों द्वारा किया जाता है) और प्रतिभागी (प्रत्येक प्रतिभागी कई निबंधों का मूल्यांकन करता है)। निबंध के स्तर में दौड़, लिंग और उनकी बातचीत के लिए यादृच्छिक ढलान शामिल हैं (दोनों चर निबंध के भीतर हेरफेर किए जाते हैं) और प्रतिभागी स्तर में गुणवत्ता के लिए एक यादृच्छिक ढलान होता है (गुणवत्ता प्रतिभागियों के भीतर हेरफेर की जाती है)। ब्याज के प्रभाव दौड़, लिंग, दौड़ और लिंग के बीच बातचीत और इन चर और गुणवत्ता में से प्रत्येक के बीच उच्च-क्रम की बातचीत के प्रभाव हैं। इस सिमुलेशन का लक्ष्य यह निर्धारित करना था कि क्या डेटा में विपरीत प्रभाव शुरू करने से दौड़, लिंग, जाति और लिंग के बीच की बातचीत के गंभीर प्रभाव पैदा होंगे, और इन चर और गुणवत्ता के बीच उच्च-क्रम की बातचीत। अधिक जानकारी के लिए नीचे दिए गए कोड को देखें।

सिमुलेशन के अनुसार, विपरीत प्रभावों की उपस्थिति हमारे हित के किसी भी प्रभाव का अनुमान नहीं लगाती है। इसके अलावा, विपरीत प्रभाव के आकार का अनुमान उसी सांख्यिकीय मॉडल में लगाया जा सकता है जैसे कि डिजाइन में अन्य प्रभाव; मेरे लिए, यह पहले से ही सुझाव देता है कि मेरे सहयोगी द्वारा पहचाने गए "विपरीत प्रभाव" एक भ्रम नहीं हैं। हालाँकि, मेरे सहयोगी को संदेह है।

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

एक बार फिर, मेरा समग्र प्रश्न यह है कि क्या मेरे द्वारा बताए गए डिजाइन में कोई गड़बड़ है? यदि कोई कंफ़्यूज़न मौजूद नहीं है, तो मुझे इस बात का वर्णन करने में दिलचस्पी होगी कि संभावित "कंट्रास्ट इफेक्ट्स" क्यों नहीं हैं, ताकि मैं अपने सहकर्मी को यह समझा सकूं।


2
बस एक टिप्पणी: निबंध कैसे रेट होने वाले हैं? मैं पूछता हूं क्योंकि यदि कई चूहे काम पर जा रहे हैं, तो आपको यह याद रखना होगा कि विभिन्न चूहे की रेटिंग बहुत सुसंगत नहीं है, इसलिए आपको चूहे के बीच परिवर्तनशीलता का भी ध्यान रखना चाहिए।
टिम

प्रत्येक प्रतिभागी को उसके द्वारा सौंपे गए तीन निबंधों में से प्रत्येक को एक रेटिंग प्रदान करता है।
पैट्रिक एस। फ़ॉश्चर

मैंने सवाल के निकाय में रेटिंग प्रक्रिया के बारे में विस्तार से जोड़ा है।
पैट्रिक एस। फ़ॉश्चर

हममें से जो अपरिचित हैं, उनके लिए क्या आप संक्षेप में विश्लेषण और "ब्याज के प्रभाव" की व्याख्या कर सकते हैं?
एंथनी

कोई बात नहीं, @Anthony। मैंने उन विवरणों को प्रश्न में जोड़ा है।
पैट्रिक एस। फोर्शर

जवाबों:


1

मैं एक संबंधित भ्रम के बारे में चिंतित हूँ - 'प्रत्येक प्रतिभागी केवल एक निबंध को कथित तौर पर एक गैर श्वेत पुरुष लेखक द्वारा देख सकता है, क्योंकि हम नहीं चाहते कि प्रतिभागियों को प्रयोग के उद्देश्य के बारे में संदेह हो क्योंकि उनके बहुत से निबंध हैं काले या महिला लेखकों द्वारा लिखित। '

इसका मतलब यह है कि परिणाम का कोई फर्क नहीं पड़ता है, आप यह निर्धारित नहीं कर पाएंगे कि क्या यह गोरे पुरुष लेखकता और अन्य लेखकों के बीच अंतर के कारण है, या बस 'बहुसंख्यक लेखकत्व' और 'अल्पसंख्यक लेखकत्व' के बीच।

यदि दिखाया गया डिज़ाइन भी प्रस्तुति क्रम को दर्शाता है (मुझे लगता है कि यह नहीं है, लेकिन जांचना बेहतर है) तो यह एक और मुद्दा लगता है।


आंकड़ा प्रस्तुति आदेश को प्रतिबिंबित नहीं करता है।
पैट्रिक एस। फ़ॉश्चर

1
मैं "बहुमत" और "अल्पसंख्यक" प्राधिकरण द्वारा मानता हूं, आपका मतलब उन निबंधों के अनुपात से है जो एक दी गई दौड़ / लिंग संयोजन हैं (यानी, 2/3 श्वेत पुरुष, 1/3 अन्य)? यह सच है कि प्रत्येक प्रतिभागी के लिए, श्वेत पुरुष निबंध दूसरों की तुलना में अधिक मात्रा में मौजूद निबंधों की रचना करते हैं। हालाँकि, श्वेत पुरुष उन निबंधकारों की जनसंख्या का अधिक अनुपात रचते हैं, जिनका हम अध्ययन करना चाहते हैं। हमने तय किया है कि यह "भ्रम" (जो वास्तव में समस्या का हिस्सा हो सकता है) एक कृत्रिम स्थिति बनाने की तुलना में कम समस्याग्रस्त है जिसमें श्वेत पुरुष और अल्पसंख्यक-लिखित निबंधों का ठीक आधा हिस्सा है।
पैट्रिक एस। फ़ॉश्चर

1

यदि प्रत्येक प्रतिभागी केवल दो निबंध (एक श्वेत पुरुष और एक दूसरे) का मूल्यांकन करता है तो क्या डिजाइन सरल नहीं होगा? ऐसा है, प्रतिभागियों के पास दो निबंध हैं, लेकिन क्या उनका मानना ​​है कि ढेर में ज्यादातर पुरुष निबंध शामिल हैं। वे सिर्फ संयोग से उन दोनों को पाने के लिए हुए। कार्ड के जादूगर इसे "मजबूर" कहते हैं। यदि इसके लिए बहुत अधिक प्रतिभागियों की आवश्यकता होगी, तो 12 से कम विषयों का परीक्षण करें। बारह बहुत है।


1

इस नमूने के आकार के साथ, आप कुछ भी कैसे निष्कर्ष निकाल सकते हैं? यदि आपने इस प्रयोग को कई बार दोहराया है, तो चार मार्कर जो एक सफेद पुरुष और एक काले पुरुष दोनों प्राप्त करते हैं, वे सभी सफेद पुरुषों को 16 में से एक परीक्षण में बेहतर अंक प्रदान करेंगे।


यह इस अध्ययन का एक बहुत छोटा संस्करण है। पूर्ण अध्ययन में निबंध का मूल्यांकन करने वाले 432 लोग हैं।
पैट्रिक एस। फोर्चर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.