प्रश्न का अवलोकन
चेतावनी: इस प्रश्न के लिए सेट अप की बहुत आवश्यकता है। कृपया मेरा साथ दें।
मेरा और मेरा एक सहयोगी एक प्रयोग डिजाइन पर काम कर रहे हैं। डिज़ाइन को बड़ी संख्या में बाधाओं के आसपास काम करना चाहिए, जिसे मैं नीचे सूचीबद्ध करूंगा। मैंने एक ऐसी डिज़ाइन विकसित की है जो बाधाओं को संतुष्ट करती है और जो हमें हमारे हित के प्रभावों का निष्पक्ष अनुमान देती है। हालांकि, मेरे सहयोगी का मानना है कि डिजाइन में एक भ्रम है। हमने बिना किसी प्रस्ताव के इस बिंदु विज्ञापन को रोक दिया है, इसलिए इस बिंदु पर मैं कुछ बाहरी राय चाहूंगा।
मैं अध्ययन के लक्ष्य, हमारी बाधाओं, संभावित संघर्ष का वर्णन करूंगा, और मेरा मानना है कि यह "भ्रम" नीचे एक समस्या नहीं है। जैसा कि आप प्रत्येक अनुभाग को पढ़ते हैं, मेरे समग्र प्रश्न को ध्यान में रखते हैं:
क्या मेरे द्वारा वर्णित डिज़ाइन में कोई गड़बड़ है?
[इस प्रयोग का विवरण संशोधित किया गया है, लेकिन मेरे प्रश्न पूछने के लिए आवश्यक आवश्यक तत्व समान हैं]
प्रयोग लक्ष्य
हम यह निर्धारित करना चाहते हैं कि क्या सफेद पुरुषों द्वारा लिखे गए निबंधों का मूल्यांकन सफेद महिलाओं, काले पुरुषों या काले महिलाओं द्वारा लिखे गए निबंधों ( निबंध लेखक चर) से अधिक अनुकूल रूप से किया जाता है । हम यह भी निर्धारित करना चाहते हैं कि क्या हम जो पूर्वाग्रह पाते हैं, वह उच्च या निम्न गुणवत्ता अनुदान ( गुणवत्ता चर) में अधिक दिखाता है । अंत में, हम 12 अलग-अलग विषयों ( विषय चर) के बारे में लिखे गए निबंधों को शामिल करना चाहते हैं । हालांकि, केवल पहले दो चर पर्याप्त रुचि के हैं; हालांकि विषय निबंधों में भिन्न होना चाहिए, लेकिन हम इस बात में दिलचस्पी नहीं रखते हैं कि मूल्यांकन पूरे विषयों में कैसे भिन्न होते हैं।
प्रतिबन्ध
- प्रतिभागियों की संख्या और निबंध की संख्या दोनों की सीमाएं हैं जिन्हें हम एकत्र कर सकते हैं। परिणाम यह है कि लेखकों को पूरी तरह से प्रतिभागियों के बीच जोड़तोड़ नहीं किया जा सकता है, और न ही इसे पूरी तरह से निबंध (यानी, प्रत्येक व्यक्तिगत निबंध को कई स्थितियों में सौंपा जाना चाहिए) के बीच हेरफेर किया जा सकता है।
- यद्यपि प्रत्येक निबंध में श्वेत पुरुष, श्वेत महिला, अश्वेत पुरुष और अश्वेत महिला संस्करण हो सकते हैं, लेकिन प्रत्येक निबंध केवल उच्च और निम्न गुणवत्ता वाला हो सकता है और केवल एक विषय हो सकता है। या, इस बाधा को एक अलग तरीके से रखने के लिए, निबंध के भीतर न तो गुणवत्ता और न ही विषय में हेरफेर किया जा सकता है, क्योंकि वे किसी दिए गए निबंध की अंतर्निहित विशेषताएं हैं।
- थकान के कारण, निबंध की एक सीमा है जो किसी प्रतिभागी का मूल्यांकन कर सकता है।
- सभी निबंध जो किसी दिए गए व्यक्ति को पढ़ते हैं, उन्हें किसी एक विषय के बारे में होना चाहिए। दूसरे शब्दों में, निबंध पूरी तरह से प्रतिभागियों को यादृच्छिक पर नहीं सौंपे जा सकते हैं, क्योंकि हमें यह सुनिश्चित करने की आवश्यकता है कि प्रत्येक प्रतिभागी केवल एक ही विषय के निबंध पढ़ता है।
- प्रत्येक भागीदार केवल एक निबंध को कथित तौर पर एक गैर श्वेत पुरुष लेखक द्वारा देखा जा सकता है, क्योंकि हम नहीं चाहते हैं कि प्रतिभागियों को प्रयोग के उद्देश्य के बारे में संदेह हो क्योंकि उनके कई निबंध ब्लैक या महिला लेखकों द्वारा लिखे गए हैं।
प्रस्तावित डिजाइन
मेरा प्रस्तावित डिज़ाइन पहले प्रत्येक निबंध को 4 अलग-अलग लेखक संस्करणों (श्वेत पुरुष, श्वेत महिला, आदि) में हेरफेर करता है। एक समान विषय के चार निबंध तब "सेट" को परिभाषित करने के लिए उपयोग किए जाते हैं, जिनमें से प्रत्येक में दो उच्च और दो निम्न गुणवत्ता वाले निबंध होते हैं। प्रत्येक प्रतिभागी को दिए गए सेट से तीन निबंध प्राप्त होते हैं जो नीचे दिए गए चित्र में दिए गए हैं। प्रत्येक भागीदार तब तीन निबंधों में से प्रत्येक को एक ही रेटिंग प्रदान करता है जिसे उसे सौंपा गया है।
संभावित उलझन
मेरे सहयोगी का मानना है कि उपरोक्त डिज़ाइन में एक उलझन है। वह कहते हैं, समस्या यह है कि, जब एक उच्च गुणवत्ता वाले निबंध को एक गैर श्वेत पुरुष लेखक द्वारा लेखक को सौंपा जाता है, तो इसे हमेशा एक उच्च गुणवत्ता निबंध और एक निम्न गुणवत्ता निबंध (निबंध 1 के लिए) के साथ जोड़ा जाता है, प्रतिभागियों को 1-3 देखें चित्र में)। दूसरी ओर, जब उसी निबंध को श्वेत पुरुष लेखकों द्वारा लिखे जाने का काम सौंपा जाता है, तो इसे एक उच्च गुणवत्ता वाले निबंध और एक निम्न गुणवत्ता वाले निबंध के साथ तीन बार (निबंध 1, प्रतिभागियों के लिए 4-6) और दो निम्न गुणवत्ता वाले निबंध तीन के साथ जोड़ा जाता है। समय (निबंध 1 के लिए, प्रतिभागियों को 7-9)।
निम्न गुणवत्ता वाले निबंधों के लिए एक समान समस्या मौजूद है। जब निम्न गुणवत्ता वाले निबंध में एक गैर श्वेत पुरुष लेखक होता है, तो उसे हमेशा निम्न गुणवत्ता वाले निबंध और उच्च गुणवत्ता वाले निबंध (निबंध 3 के लिए, प्रतिभागियों को 7-9 देखें) के साथ देखा जाता है। हालाँकि, जब उस निबंध में एक श्वेत पुरुष लेखक होता है, तो उसे तीन बार (निबंध 3, प्रतिभागियों के लिए 10-12) और दो उच्च गुणवत्ता वाले निबंधों के लिए तीन बार (निबंध 3 के लिए) एक उच्च गुणवत्ता वाले निबंध और एक निम्न गुणवत्ता वाले निबंध के साथ देखा जाता है। प्रतिभागी 1-3)।
उपरोक्त पैटर्न समस्याग्रस्त हो सकता है यदि हम "विपरीत प्रभाव" के अस्तित्व को मानते हैं। विशेष रूप से, यदि उच्च गुणवत्ता के निबंधों का मूल्यांकन औसतन अधिक अनुकूल रूप से किया जाता है, जब उन्हें दो निम्न गुणवत्ता वाले निबंधों के साथ जोड़ा जाता है, जब उन्हें एक निम्न गुणवत्ता वाले निबंध और एक उच्च गुणवत्ता वाले निबंध (एक उचित धारणा) के साथ जोड़ा जाता है, तो श्वेत पुरुष निबंधों की तुलना में उच्च रेटिंग प्राप्त कर सकते हैं। श्वेत महिला, श्वेत पुरुष, और अश्वेत महिला लेखिका के अलावा अन्य कारणों से निबंध।
उच्च गुणवत्ता वाले निबंधों के लिए एक विपरीत प्रभाव निम्न गुणवत्ता वाले निबंधों के विपरीत प्रभाव से संतुलित हो सकता है या नहीं भी; यह है, यह हो सकता है या नहीं हो सकता है कि दो उच्च गुणवत्ता निबंध के साथ रखा कम गुणवत्ता निबंध विशेष रूप से प्रतिकूल मूल्यांकन कर रहे हैं। भले ही, मेरे सहकर्मी का दावा है, किसी भी तरह के विपरीत प्रभावों की संभावना इस डिजाइन को निर्धारित करने के उद्देश्यों के लिए समस्याग्रस्त प्रस्तुत करती है कि क्या सफेद पुरुषों द्वारा लिखे गए निबंधों का मूल्यांकन अन्य लेखकों के निबंधों की तुलना में अधिक अनुकूल है।
मेरा मानना है कि संभावित उलझन कोई समस्या नहीं है
मेरे लिए जो मायने रखता है, वह यह है कि क्या हम श्वेत पुरुष निबंधों का मूल्यांकन अन्य निबंधों की तुलना में अलग-अलग तरीके से कर सकते हैं (यानी, क्या हम अपनी रुचि के प्रभावों का अनुमान लगा सकते हैं), इसके विपरीत प्रभावों की उपस्थिति में भी। इसलिए मैंने एक सिमुलेशन आयोजित किया, जहां मैंने 50 डेटासेटों का अनुकरण किया, जिसमें विपरीत प्रभाव शामिल थे और एक मॉडल फिट किया जो हमारी रुचि के प्रभावों के लिए परीक्षण करता है।
विशिष्ट मॉडल एक मिश्रित प्रभाव वाला मॉडल है जिसमें निबंध के लिए यादृच्छिक अंतर (प्रत्येक निबंध का मूल्यांकन कई प्रतिभागियों द्वारा किया जाता है) और प्रतिभागी (प्रत्येक प्रतिभागी कई निबंधों का मूल्यांकन करता है)। निबंध के स्तर में दौड़, लिंग और उनकी बातचीत के लिए यादृच्छिक ढलान शामिल हैं (दोनों चर निबंध के भीतर हेरफेर किए जाते हैं) और प्रतिभागी स्तर में गुणवत्ता के लिए एक यादृच्छिक ढलान होता है (गुणवत्ता प्रतिभागियों के भीतर हेरफेर की जाती है)। ब्याज के प्रभाव दौड़, लिंग, दौड़ और लिंग के बीच बातचीत और इन चर और गुणवत्ता में से प्रत्येक के बीच उच्च-क्रम की बातचीत के प्रभाव हैं। इस सिमुलेशन का लक्ष्य यह निर्धारित करना था कि क्या डेटा में विपरीत प्रभाव शुरू करने से दौड़, लिंग, जाति और लिंग के बीच की बातचीत के गंभीर प्रभाव पैदा होंगे, और इन चर और गुणवत्ता के बीच उच्च-क्रम की बातचीत। अधिक जानकारी के लिए नीचे दिए गए कोड को देखें।
सिमुलेशन के अनुसार, विपरीत प्रभावों की उपस्थिति हमारे हित के किसी भी प्रभाव का अनुमान नहीं लगाती है। इसके अलावा, विपरीत प्रभाव के आकार का अनुमान उसी सांख्यिकीय मॉडल में लगाया जा सकता है जैसे कि डिजाइन में अन्य प्रभाव; मेरे लिए, यह पहले से ही सुझाव देता है कि मेरे सहयोगी द्वारा पहचाने गए "विपरीत प्रभाव" एक भ्रम नहीं हैं। हालाँकि, मेरे सहयोगी को संदेह है।
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
एक बार फिर, मेरा समग्र प्रश्न यह है कि क्या मेरे द्वारा बताए गए डिजाइन में कोई गड़बड़ है? यदि कोई कंफ़्यूज़न मौजूद नहीं है, तो मुझे इस बात का वर्णन करने में दिलचस्पी होगी कि संभावित "कंट्रास्ट इफेक्ट्स" क्यों नहीं हैं, ताकि मैं अपने सहकर्मी को यह समझा सकूं।