पलान्टिर के एशियाई भेदभाव का मामला: संभावनाओं की गणना कैसे की गई?


14

मैंने इस लेख को पलान्टिर के मामले के बारे में पढ़ा है जहाँ श्रम की कमी के कारण एशियाई लोगों के साथ भेदभाव का आरोप लगा रहे हैं। क्या किसी को पता है कि उन्हें ये संभावना अनुमान कहाँ से मिले?

मुझे आइटम (ए) में 1/741 नहीं मिल रहा है।

(ए) क्यूए इंजीनियर की स्थिति के लिए, 730 से अधिक योग्य आवेदकों के एक पूल से - लगभग 77% जिनमें से एशियाई थे - पलान्टिर ने छह गैर-एशियाई आवेदकों और केवल एक एशियाई आवेदक को काम पर रखा था। OFCCP द्वारा गणना की गई प्रतिकूल प्रभाव तीन मानक विचलन से अधिक है। संभावना के अनुसार यह परिणाम 741 में लगभग एक है।

(ख) ११६० से अधिक योग्य आवेदकों के एक पूल से सॉफ्टवेयर इंजीनियर की स्थिति के लिए, जिनमें से लगभग of५% एशियाई थे - पलान्टिर ने १४ गैर-एशियाई आवेदकों और केवल ११ एशियाई आवेदकों को काम पर रखा था। OFCCP द्वारा गणना की गई प्रतिकूल प्रभाव पांच मानक विचलन से अधिक है। संभावना है कि मौका के अनुसार यह परिणाम 3.4 मिलियन में लगभग एक है।

(ग) क्यूए इंजीनियर इंटर्न पद के लिए, १३० से अधिक योग्य आवेदकों के एक पूल से - लगभग of३% जिनमें से एशियाई थे - पलान्टिर ने १-गैर-एशियाई आवेदकों और केवल चार एशियाई आवेदकों को काम पर रखा था। OFCCP द्वारा गणना की गई प्रतिकूल प्रभाव छह मानक विचलन से अधिक है। संभावना के अनुसार यह परिणाम एक अरब में लगभग एक है।


क्या आप 1/741 के अलावा कुछ पाने के लिए की गई गणना दिखा सकते हैं?
बेन बोल्कर

1
मेरा अनुमान एक तरफा था - यदि आप इसे दो तरफा परिकल्पना परीक्षण की तरह बनाने के लिए दोगुना करते हैं, तो आप उस 1/741 नंबर के बहुत करीब हो जाते हैं।
ग्रेगर -

3
मैं मानता हूं कि दोहरीकरण का इस मामले में कोई मतलब नहीं है, मैं सिर्फ यह अनुमान लगाने की कोशिश कर रहा था कि क्या किया जा सकता है। सवाल यह नहीं है कि सही उत्तर क्या है, लेकिन वे इस अनुमान पर कैसे पहुंचे
ग्रेगर -

1
यह बहुत अच्छा होगा अगर किसी को पीडीएफ स्क्रीन शॉट को टेक्स्ट कोटे में बदलना है ...
अमीबा का कहना है कि मोनिका

1
मैं finereaderonline.com का उपयोग करके आपके स्क्रीनशॉट को OCR करने में कामयाब रहा ।
अमीबा का कहना है कि मोनिका

जवाबों:


20

मैं भेदभाव के मामलों के साथ अनुभव से इसे रिवर्स-इंजीनियर करने जा रहा हूं। मैं निश्चित रूप से स्थापित कर सकता हूं जहां "741 में एक" , आदि के मूल्य आए थे। हालाँकि, अनुवाद में इतनी जानकारी खो गई थी कि मेरा बाकी का पुनर्निर्माण यह देखने पर निर्भर करता है कि लोग कैसे कठघरे की सेटिंग में आँकड़े बनाते हैं। मैं केवल कुछ विवरणों पर अनुमान लगा सकता हूं।


चूंकि 1960 के दशक (टाइटल VI) में भेदभाव-विरोधी कानून पारित किए गए थे, इसलिए संयुक्त राज्य अमेरिका की अदालतों ने पी-मूल्यों को देखना और उनकी तुलना और 0.01 की सीमा तक करना सीख लिया है । उन्होंने मानकीकृत प्रभावों को देखना भी सीखा है, जिन्हें आमतौर पर "मानक विचलन" कहा जाता है और उनकी तुलना "दो से तीन मानक विचलन" की सीमा से की जाती है। भेदभाव के मुकदमे के लिए एक प्रथम दृष्टया मामला कायम करने के लिए, वादी आम तौर पर एक सांख्यिकीय गणना का प्रयास करते हैं, जो इन थ्रेसहोल्ड से अधिक "असमान प्रभाव" दिखाती है। यदि ऐसी गणना का समर्थन नहीं किया जा सकता है, तो मामला आमतौर पर आगे नहीं बढ़ सकता है।0.050.01

अभियोगी के लिए सांख्यिकीय विशेषज्ञ अक्सर इन परिचित शब्दों में अपने परिणामों को उद्धृत करने का प्रयास करते हैं। विशेषज्ञों में से कुछ एक सांख्यिकीय परीक्षण करते हैं जिसमें अशक्त परिकल्पना "कोई प्रतिकूल प्रभाव नहीं" व्यक्त करती है, यह मानते हुए कि रोजगार के फैसले विशुद्ध रूप से यादृच्छिक थे और कर्मचारियों की किसी भी अन्य विशेषताओं से अपरिवर्तित थे। (चाहे वह एक-पूंछ वाला या दो-पूंछ वाला विकल्प विशेषज्ञ और परिस्थितियों पर निर्भर हो सकता है।) वे फिर इस परीक्षण के पी-मूल्य को मानक "सामान्य वितरण" के रूप में संदर्भित करके "मानक विचलन" की संख्या में परिवर्तित कर देते हैं। - यहां तक ​​कि जब मानक सामान्य मूल परीक्षण के लिए अप्रासंगिक है। इस गोल चक्कर में वे अपने निष्कर्ष को स्पष्ट रूप से न्यायाधीश तक पहुंचाने की उम्मीद करते हैं।

आकस्मिक तालिकाओं में संक्षेपित किए जा सकने वाले डेटा का पसंदीदा परीक्षण फिशर का सटीक परीक्षण है। इसके नाम में "सटीक" की घटना विशेष रूप से वादी को भाता है, क्योंकि यह एक सांख्यिकीय निर्धारण को दर्शाता है जो त्रुटि के बिना बनाया गया है (जो कुछ भी हो सकता है!)।

यहाँ, तब, श्रम विभाग की गणना का मेरा (सट्टा पुनर्निर्माण) है।

  1. वे (जैसे कि एक के रूप में फिशर सटीक टेस्ट, या यह की तरह कुछ भाग गया एक पी-मूल्य यादृच्छिकीकरण के माध्यम से निर्धारित के साथ परीक्षण)। यह परीक्षण मैथ्यू गन के जवाब में वर्णित एक अतिवृद्धि वितरण मानता है। (इस शिकायत में शामिल लोगों की कम संख्या के लिए, हाइपरमेट्रिक वितरण को सामान्य वितरण द्वारा अच्छी तरह से अनुमानित नहीं किया गया है।)χ2

  2. उन्होंने इसका पी-मान एक सामान्य जेड स्कोर ("मानक विचलन की संख्या") में बदल दिया।

  3. उन्होंने Z अंक को निकटतम पूर्णांक में गोल किया: "तीन मानक विचलन से अधिक," "पांच मानक विचलन से अधिक है," और "छह मानक विचलन से अधिक है।" (क्योंकि इन Z- स्कोर के कुछ गोल ऊपर अधिक मानक विचलन के लिए, मैं सही साबित कर सकते नहीं "से अधिक है", सब मैं क्या कर सकते हैं यह बोली है।)

  4. शिकायत में इन अभिन्न जेड स्कोर को पी-मान में बदल दिया गया था! फिर से मानक सामान्य वितरण का उपयोग किया गया था।

  5. इन पी-वैल्यू का वर्णन किया गया है (यकीनन भ्रामक तरीके से) "संभावना के अनुसार यह परिणाम हुआ।"

इस अटकलें टिप्पणी का समर्थन करने के लिए, कि तीन मामलों में फिशर सटीक परीक्षण के लिए पी मूल्यों लगभग रहे हैं , 1 / 565,000 , और 1 / ५८०००००० । इनमें से संभालने पूल पर आधारित होते हैं 730 , 1160 , और 130 "इससे अधिक" करने के लिए इसी 730 , 1160 , और 130 , क्रमशः। इन नंबरों का सामान्य Z स्कोर होता है - 3.16 , - 4.64 , और - 5.521/12801/5650001/58000000730116013073011601303.164.645.52, क्रमशः, जब गोल तीन, पांच और छह मानक विचलन होते हैं, तो शिकायत में दिखाई देने वाली संख्या बिल्कुल। वे के (एक पूंछ) सामान्य पी मूल्यों अनुरूप , 1 / 3500000 , और 1 / 1000000000 : ठीक मूल्यों शिकायत में उद्धृत।1/7411/35000001/1000000000


Rइन गणनाओं को करने के लिए यहां कुछ कोड का उपयोग किया गया है।

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
वाह, मैं अनुमान नहीं लगा सकता कि यह किया जा सकता है। यह डरावना है।
अक्कल

7
(+1) सीएसआई: आँकड़े।
Firebug

5

हाइपरजोमेट्रिक वितरण का उपयोग करके ठीक से अंतराल की गणना कैसे करें:

knKN

MATLAB में, एक तरफा परीक्षण के लिए, आप कॉल कर सकते हैं pval = hygecdf(k, N, K, n);या इस मामले में pval = hygecdf(1, 730, 562, 7)जो लगभग .0007839 है।

माध्य और मानक विचलन निम्न द्वारा दिए गए हैं:

μ=nKNs=nKNNKNNnN1

χ2

OFCCP का उपयोग करने वाले फ़ार्मुलों की तलाश में, इस साइट को मैंने देखा कि शायद यह मददगार हो सकती है: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

कुछ गणनाओं का सारांश:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
मुझे एक ही परिणाम मिला लेकिन अलग तरह से। यह 1/741 के पास नहीं है
Aksakal
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.