पृष्ठभूमि: मेरा संगठन वर्तमान में अमेरिकी श्रम सर्वेक्षण (अमेरिकी जनगणना ब्यूरो द्वारा एक सर्वेक्षण परियोजना) के आधार पर उन समूहों के लिए कुल श्रम शक्ति उपलब्धता के लिए अपने कर्मचारियों की विविधता के आंकड़ों (विकलांगों,% महिलाओं,% दिग्गजों) के साथ तुलना करता है। यह एक गलत मानदंड है, क्योंकि हमारे पास नौकरियों का एक बहुत विशिष्ट सेट है जिसमें श्रम बल की तुलना में अलग-अलग जनसांख्यिकी हैं। उदाहरण के लिए, कहिए कि मेरा संगठन ज्यादातर इंजीनियर है। मेरे राज्य में इंजीनियरिंग केवल 20% महिलाएं हैं। अगर हम खुद की तुलना कुल श्रम शक्ति बेंचमार्क से करें, जो 50% महिलाओं की तरह है, तो इससे घबराहट होती है कि "हमारे पास केवल 20% महिलाएं हैं, यह एक आपदा है!" जब वास्तव में, 20% है तो हमें उम्मीद करनी चाहिए क्योंकि श्रम परिदृश्य कैसा दिखता है।
मेरा लक्ष्य: मैं जो करना चाहूंगा वह अमेरिकन कम्युनिटी सर्वे ऑक्यूपेशन डेटा (विविधता श्रेणी द्वारा) लेना है और अपने व्यवसाय में नौकरियों की संरचना के आधार पर इसे फिर से वजन करना है। यहां सामाजिक और सामुदायिक सेवा कार्यकर्ताओं के लिए एक नमूना डेटा सेट है । मैं इन जॉब कोड्स को एक साथ सूचीबद्ध करना चाहता हूं (क्योंकि हमारा क्रॉसवॉक जॉब ग्रुप्स के लिए है, विशिष्ट जॉब कोड्स के लिए नहीं), तो मैं उस बेंचमार्क को वेट करना चाहता हूं जो उस कैटेगरी के लोगों की संख्या के आधार पर होता है (उदा। हमारे 3,000 सोशल। सामुदायिक सेवा कार्यकर्ता), फिर मैं अन्य सभी नौकरी समूहों के लिए भी यही करना चाहता हूं, उन नंबरों को एक साथ जोड़ें, और हमारे कुल श्रमिकों को विभाजित करें। यह मुझे एक नया पुन: भारित विविधता माप देगा (6% व्यक्तियों के लिए जो एक विकलांगता के साथ 2% व्यक्तियों को विकलांगता के साथ)।
मेरे प्रश्न: मैं इस अंतिम रोल-अप बेंचमार्क में त्रुटि के मार्जिन को कैसे फिट करूं? मेरे पास कच्ची जनगणना डेटा सेट (स्पष्ट रूप से) नहीं है, लेकिन आप तालिका के शीर्ष पर "मार्जिन ऑफ़ एरर" के लिए "एस्टीमेट" फ़ील्ड को टॉगल करके प्रदान किए गए लिंक में प्रत्येक संख्या के लिए त्रुटि के मार्जिन को देख सकते हैं। मेरे अन्य सहकर्मी जो इस डेटा के साथ काम कर रहे हैं, पूरी तरह से त्रुटि के मार्जिन को अनदेखा करने का इरादा रखते हैं, लेकिन मुझे चिंता है कि हम अपने लिए एक सांख्यिकीय अर्थहीन बेंचमार्क बना रहे हैं। ऊपर वर्णित हेरफेर के बाद क्या यह डेटा अभी भी उपयोग करने योग्य है?