अमेरिकी समुदाय सर्वेक्षण विविधता डेटा को फिर से भारित करने में त्रुटि के मार्जिन को कैसे प्रभावित करेगा?


10

पृष्ठभूमि: मेरा संगठन वर्तमान में अमेरिकी श्रम सर्वेक्षण (अमेरिकी जनगणना ब्यूरो द्वारा एक सर्वेक्षण परियोजना) के आधार पर उन समूहों के लिए कुल श्रम शक्ति उपलब्धता के लिए अपने कर्मचारियों की विविधता के आंकड़ों (विकलांगों,% महिलाओं,% दिग्गजों) के साथ तुलना करता है। यह एक गलत मानदंड है, क्योंकि हमारे पास नौकरियों का एक बहुत विशिष्ट सेट है जिसमें श्रम बल की तुलना में अलग-अलग जनसांख्यिकी हैं। उदाहरण के लिए, कहिए कि मेरा संगठन ज्यादातर इंजीनियर है। मेरे राज्य में इंजीनियरिंग केवल 20% महिलाएं हैं। अगर हम खुद की तुलना कुल श्रम शक्ति बेंचमार्क से करें, जो 50% महिलाओं की तरह है, तो इससे घबराहट होती है कि "हमारे पास केवल 20% महिलाएं हैं, यह एक आपदा है!" जब वास्तव में, 20% है तो हमें उम्मीद करनी चाहिए क्योंकि श्रम परिदृश्य कैसा दिखता है।

मेरा लक्ष्य: मैं जो करना चाहूंगा वह अमेरिकन कम्युनिटी सर्वे ऑक्यूपेशन डेटा (विविधता श्रेणी द्वारा) लेना है और अपने व्यवसाय में नौकरियों की संरचना के आधार पर इसे फिर से वजन करना है। यहां सामाजिक और सामुदायिक सेवा कार्यकर्ताओं के लिए एक नमूना डेटा सेट है । मैं इन जॉब कोड्स को एक साथ सूचीबद्ध करना चाहता हूं (क्योंकि हमारा क्रॉसवॉक जॉब ग्रुप्स के लिए है, विशिष्ट जॉब कोड्स के लिए नहीं), तो मैं उस बेंचमार्क को वेट करना चाहता हूं जो उस कैटेगरी के लोगों की संख्या के आधार पर होता है (उदा। हमारे 3,000 सोशल। सामुदायिक सेवा कार्यकर्ता), फिर मैं अन्य सभी नौकरी समूहों के लिए भी यही करना चाहता हूं, उन नंबरों को एक साथ जोड़ें, और हमारे कुल श्रमिकों को विभाजित करें। यह मुझे एक नया पुन: भारित विविधता माप देगा (6% व्यक्तियों के लिए जो एक विकलांगता के साथ 2% व्यक्तियों को विकलांगता के साथ)।

मेरे प्रश्न: मैं इस अंतिम रोल-अप बेंचमार्क में त्रुटि के मार्जिन को कैसे फिट करूं? मेरे पास कच्ची जनगणना डेटा सेट (स्पष्ट रूप से) नहीं है, लेकिन आप तालिका के शीर्ष पर "मार्जिन ऑफ़ एरर" के लिए "एस्टीमेट" फ़ील्ड को टॉगल करके प्रदान किए गए लिंक में प्रत्येक संख्या के लिए त्रुटि के मार्जिन को देख सकते हैं। मेरे अन्य सहकर्मी जो इस डेटा के साथ काम कर रहे हैं, पूरी तरह से त्रुटि के मार्जिन को अनदेखा करने का इरादा रखते हैं, लेकिन मुझे चिंता है कि हम अपने लिए एक सांख्यिकीय अर्थहीन बेंचमार्क बना रहे हैं। ऊपर वर्णित हेरफेर के बाद क्या यह डेटा अभी भी उपयोग करने योग्य है?


3
ACS को फिर से न करें - यह एक नाजुक, अत्यधिक परिष्कृत उत्पाद है, और सभी उचित सम्मान के साथ मुझे नहीं लगता कि आप जनगणना ब्यूरो के सामूहिक रूप से अच्छे सांख्यिकीविद् हैं। यदि आप देशव्यापी तुलना के लिए एसीएस या सीपीएस में अपने काम के अनुरूप नौकरी की परिभाषा प्राप्त कर सकते हैं , तो सेब से लेकर सेब की तुलना आपके व्यवसाय के लिए उचित विविधता के लिए एसीएस पर आधारित "विविधता" श्रेणियों की अपेक्षित संख्या की गणना करना होगा। लक्षित करता है।
StasK

2
स्टास, मैं आपसे सहमत हूं, लेकिन जैसा कि मैं नीचे इंगित करता हूं, यह वास्तव में एसीएस का पुन: लोड नहीं है।
स्टीव सैमुअल्स

सर्वेक्षण के आंकड़ों में, "पुन: वजन" का अर्थ होगा मूल सर्वेक्षण भार। इसका एक उदाहरण पोस्ट-स्तरीकरण, नमूना रेकिंग या कैलिब्रेशन होगा ताकि जनगणना या एसीएस के अनुसार, बाहरी रूप से ज्ञात पुनरीक्षित नमूना मिलान वितरण के लिए कुछ सीमांत वितरण हो। Danica प्रक्रिया का उल्लेख ACS भार को नहीं छूता है।
स्टीव सैमुअल्स

जो परिमित जनसंख्या मात्रा आप जानना चाहते हैं, उसे लिखने में क्या मदद मिल सकती है। क्या एसीएस में वेट भी है? ये विचरण अनुमान के साथ मदद कर सकते हैं।
probabilityislogic

जवाबों:


8

अपडेट 2014-01-15

मुझे एहसास है कि मैंने दानिका के मूल प्रश्न का उत्तर नहीं दिया है कि क्या अप्रत्यक्ष रूप से समायोजित अनुपात के लिए त्रुटि का मार्जिन एसीएस में समान दर के लिए त्रुटि के मार्जिन से बड़ा या छोटा होगा। इसका उत्तर है: यदि कंपनी श्रेणी के अनुपात राज्य ACS अनुपात से बहुत भिन्न नहीं होते हैं, तो नीचे दी गई त्रुटि का मार्जिन ACS के त्रुटि के मार्जिन से छोटा होगा। कारण: अप्रत्यक्ष दर संगठन की नौकरी की श्रेणी के व्यक्ति को (या रिश्तेदार अनुपात) निश्चित संख्याओं के रूप में मानती है । विकलांगों के एसीएस अनुमान की आवश्यकता होती है, वास्तव में, उन अनुपातों का एक अनुमान , और त्रुटि का मार्जिन इसे प्रतिबिंबित करने के लिए बढ़ेगा।

वर्णन करने के लिए, विकलांग दर को इस प्रकार लिखें:

P^adj=ninpi^

p^ii

दूसरी ओर, ACS अनुमानित दर, प्रभाव में है:

P^acs=(NiN)^pi^

NiNNi/Ni

Ni/Npi

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001n2/n=0.999SE(P^adj)=0.079

अपडेट 2014-01-14

संक्षिप्त जवाब

मेरी राय में, बिना सीआइ या त्रुटि के मार्जिन (आधी सीआई लंबाई) के बिना इस तरह के आंकड़े पेश करना गैरजिम्मेदार होगा। इनकी गणना करने के लिए, आपको ACS Public Use Microdata नमूना (PUMS) ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ) डाउनलोड और विश्लेषण करने की आवश्यकता होगी ।

लंबा जवाब

यह वास्तव में एसीएस का पुन: भार नहीं है। यह अप्रत्यक्ष मानकीकरण का एक संस्करण है, जो महामारी विज्ञान में एक मानक प्रक्रिया है (किसी भी एपि टेक्स्ट को देखें या देखें)। इस स्थिति में राज्य ACS नौकरी (श्रेणी) विकलांगता दर संगठन नौकरी श्रेणी कर्मचारी गणना द्वारा भारित की जाती है। यह संगठन में अक्षम लोगों की अपेक्षित संख्या की गणना करेगा E, जिनकी तुलना अवलोकन संख्या से की जा सकती है O। तुलना के लिए सामान्य मीट्रिक एक मानकीकृत अनुपात है R= (O/E)। (सामान्य शब्द "एसएमआर" है, "मानकीकृत मृत्यु दर अनुपात" के लिए, लेकिन यहां "परिणाम" उपलब्ध सूचकांक है)। Rअवलोकन विकलांगता दर (O/n)और अप्रत्यक्ष रूप से मानकीकृत दर का अनुपात भी है (E/n), जहां nसंगठन के कर्मचारियों की संख्या है।

इस मामले में, ऐसा प्रतीत होता है कि केवल एक CI के लिए Eया E/nउसकी आवश्यकता होगी, इसलिए मैं इसके साथ शुरू करूंगा:

अगर

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

फिर

 E = sum (n_i p_i)

का विचरण Eहै:

 var(E) = nn' V nn

जहां nnसंगठन श्रेणी की कॉलम वेक्टर गणना है और Vएसीएस श्रेणी की विकलांगता दरों का अनुमानित विचरण-सहसंयोजक मैट्रिक्स है।

इसके अलावा, तुच्छ se(E) = sqrt(var(E))और se(E/n) = se(E)/n

और E के लिए 90% CI है

  E ± 1.645 SE(E)

के nलिए CI प्राप्त करने के लिए विभाजित करें E/n

अनुमान लगाने के लिए var(E)आपको ACS Public Use Microdata Sample (PUMS) डेटा ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ) डाउनलोड करने और विश्लेषण करने की आवश्यकता होगी ।

मैं केवल var(E)स्टाटा में कंप्यूटिंग के लिए प्रक्रिया की बात कर सकता हूं । जैसा कि मुझे नहीं पता कि यह आपके लिए उपलब्ध है, मैं विवरणों को सुरक्षित रखूंगा। हालाँकि, आर या (संभवतः) एसएएस की सर्वेक्षण क्षमताओं के बारे में जानकार किसी को भी उपरोक्त समीकरणों से कोड प्रदान कर सकते हैं।

अनुपात के लिए आत्मविश्वास अंतराल R

के लिए कॉन्फिडेंस अंतराल Rआमतौर पर एक पॉइज़न धारणा पर आधारित है O, लेकिन यह धारणा गलत हो सकती है।

हम विचार कर सकते हैं Oऔर Eस्वतंत्र होने के लिए, इसलिए

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))की गणना के बाद एक और स्टाटा कदम के रूप में गणना की जा सकती है var(E)

पॉसन स्वतंत्रता की धारणा के तहत:

 var(log O) ~ 1/E(O).

स्टैटा जैसा एक कार्यक्रम, एक नकारात्मक द्विपद मॉडल या सामान्यीकृत रैखिक मॉडल को फिट कर सकता है और आपको एक अधिक सटीक विचरण शब्द दे सकता है।

के लिए लगभग 90% CI log Rहै

 log R ± 1.645 sqrt(var(log R))

और समापन बिंदु के लिए CI प्राप्त करने के लिए exponentiated किया जा सकता है R


log(R)R

यह मुझे ऐसा मामला नहीं लगा, जहां स्मीयर करना उचित था, लेकिन मैं गलत हो सकता था। आप क्या सुझाव देंगे?
स्टीव सैमुअल्स

सीवी पर उल्लिखित कुछ विधियों में सीआई को बढ़ावा देना, डेल्टा विधि और संभावना फ़ंक्शन को रूपरेखा देना शामिल है।
whuber

आपके उत्तर के लिए धन्यवाद। क्या आर के साथ पीयूएमएस डेटा खींचना संभव है? मेरे पास एसएएस नहीं है। मैंने जनगणना के द्वारा दिए गए DataFerret टूल का उपयोग करने से पहले PUMS डेटा को खींच लिया है, लेकिन मुझे यकीन नहीं है कि मुझे कुछ भी देता है जो मैं एक्सेल में उपयोगी रूप से हेरफेर कर सकता हूं, जो कि मेरे पास है। मैं स्पष्ट रूप से आर स्थापित कर सकता हूं, लेकिन मुझे इसके साथ कोई अनुभव नहीं है।
दानिका

1
आपका स्वागत है, डैनिका। यदि यह उत्तर मददगार है, तो कृपया इसे आधिकारिक रूप से स्वीकार करने के लिए चेक मार्क को हिट करें। ध्यान दें कि मैंने उत्तर को अपडेट कर दिया है। मेरा सुझाव है कि आप एसीएस के मार्जिन को उचित लोगों के लिए रूढ़िवादी विकल्प के रूप में पेश करते हैं।
स्टीव सैमुअल्स

4

एफडब्ल्यूआईडब्ल्यू एसीएस और यहां पीयूएमएस तक पहुंचने के लिए अच्छे संसाधन हैं ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html )।

इसके अलावा CRAN पर ACS डेटा को संभालने के लिए एक पैकेज है - जिसे स्वाभाविक रूप से ACS कहा जाता है - जिसे मैंने ACS डेटा के साथ एटिपिकल चीजें करने के लिए वास्तव में मददगार पाया है। यह पैकेज के लिए एक अच्छा कदम-दर-चरण है (दुर्भाग्य से प्रलेखन सुपर सहज नहीं है) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

निशुल्क सॉफ्टवेयर के साथ इस समस्या को हल करने के लिए @ pricele2's answer..in ऑर्डर में http://asdfree.com लिंक को जोड़ना , मैं आपको इन चरणों का पालन करने के लिए प्रोत्साहित करूंगा:

(1) ( दो घंटे की कड़ी मेहनत ) r भाषा से परिचित हो जाते हैं। पहले 50 वीडियो देखें, दो मिनट प्रत्येक

http://twotorials.com/

(2) ( एक घंटे का आसान निर्देश-पालन ) अपने कंप्यूटर पर monetdb इंस्टॉल करें

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( तीस मिनट के निर्देश-निम्नलिखित + रात भर डाउनलोड ) अपने कंप्यूटर पर एसी पम्स डाउनलोड करें। केवल उन वर्षों को प्राप्त करें जिनकी आपको आवश्यकता है।

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(४) ( सीखने और प्रोग्रामिंग के चार घंटे और अपने काम को जाँचना) उन चरों को फिर से तैयार करना जो आपको उन विनिर्देशों के अनुसार पुनरावृत्त करने की आवश्यकता है, जो कुछ विशिष्टताओं के लिए आवश्यक हैं।

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(५) ( वास्तविक विश्लेषण के दो घंटे ) आपके द्वारा ढूंढी जा रही सटीक कमांड को चलाते हैं, मानक त्रुटि को पकड़ते हैं, और एक विश्वास अंतराल की गणना करते हैं।

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( प्रोग्रामिंग के चार घंटे ) यदि आपको अनुपात अनुमानक की आवश्यकता है, तो अनुपात अनुमान उदाहरण का पालन करें (सही-सर्वेक्षण-समायोजित मानक त्रुटि के साथ) यहां:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


धन्यवाद, वे उत्कृष्ट संसाधन हैं। यदि कोई अन्य व्यक्ति इस जानकारी की तलाश में यहां आता है, तो मैं जिस आर ट्यूटोरियल का उपयोग कर रहा हूं, वे datacamp.com और coursera.org/course/proprog हैं । डेटा कैंप एक शानदार इंटरैक्टिव ट्यूटोरियल है। कौरसेरा पाठ्यक्रम चीजों के लिए सिद्धांत / संरचना / नामों पर अधिक भारी है।
दानिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.