मैं छोटे क्षेत्रों में बड़े पैमाने पर 1% माइक्रोडेटा नमूने का उपयोग करके छोटे क्षेत्रों के लिए जनगणना माइक्रोडेटा का अनुकरण कैसे कर सकता हूं?


9

मैं भौगोलिक एकत्रीकरण (ऑस्ट्रेलियाई जनगणना संग्रह जिलों) के छोटे स्तरों पर एक व्यक्तिगत-स्तरीय बहुभिन्नरूपी विश्लेषण करना चाहूंगा। स्पष्ट रूप से, गोपनीयता के इन छोटे स्तरों पर जनगणना गोपनीयता कारणों से उपलब्ध नहीं है इसलिए मैं अन्य विकल्पों की जांच कर रहा हूं। ब्याज के लगभग सभी चर स्पष्ट हैं। मेरे पास अपने निपटान में दो डेटासेट हैं:

  • 1% जनगणना का नमूना स्थानिक एकत्रीकरण (~ 190,000 की आबादी और जनसांख्यिकी के विशाल स्थानिक अलगाव के साथ एक क्षेत्र) के बहुत बड़े स्तर पर उपलब्ध है।

  • चर के लिए फ़्रिक्वेंसी टेबल मैं छोटे क्षेत्र स्तर (500 छोटे क्षेत्रों, मतलब पॉप = 385, एसडी = 319, माध्य = 355) में रुचि रखता हूं।

मैं इन दो डेटासेटों का उपयोग छोटे क्षेत्र स्तर पर जनसंख्या वितरण का अनुकरण करने के लिए कैसे कर सकता हूं जो कि छोटे क्षेत्र की वास्तविक आबादी के लिए जितना संभव हो उतना करीब है?

मैं सराहना करता हूं कि ऐसा करने के लिए नियमित तरीके हो सकते हैं; यदि ऐसा है तो एक पाठ्यपुस्तक या प्रासंगिक पत्रिका लेख के लिए एक संकेत की काफी सराहना की जाएगी।


संभवतः संबंधित (मुझे एक समान समस्या हो रही है): आंकड़े.stackexchange.com/questions/14399/… गिब्स नमूना हो सकता है कि यहां क्या जरूरत है।
mzuba

आप अमेरिकी सांख्यिकी संघ की एसआरएमएसनेट मेलिंग सूची पर अपना प्रश्न पूछना चाहते हैं। यदि आप ऑस्ट्रेलिया में हैं, तो मैं रे चैंबर्स से संपर्क करूंगा - मुझे लगता है कि दक्षिणी गोलार्ध में उससे बेहतर SAE को कोई नहीं जानता :)।
StasK

यह समस्या "डेसीमेट्रिक मैपिंग" से निकटता से संबंधित है।
whuber

1
मैं @whuber से सहमत हूं, और dasymetric मानचित्रण विषय सामग्री के रूप में अच्छी तरह से करने के लिए ब्याज की हो सकती है। दुर्भाग्य से, यह काफी हद तक मेरे जवाब में उद्धृत पारिस्थितिक इंजेक्शन साहित्य से अलग है (मैं अधिक साहित्य पर ढेर नहीं करना चाहता!) आप क्या सोचते हैं?
एंडी डब्ल्यू

1
कुछ डैसिमेट्रिक मैपिंग तकनीक ने छोटे क्षेत्रों में डेटा को प्रक्षेपित करने के लिए सहायक डेटा का उपयोग करना शुरू कर दिया है। पारिस्थितिक इंजेक्शन और डायसिमेट्रिक मैपिंग के लक्ष्य कुछ अलग हैं (भविष्यवाणी / पूर्वानुमान और अनुमान के बीच के अंतर के कुछ हद तक अनुरूप)। मैं उन स्रोतों पर एक और पोस्ट लिखूंगा जो मैंने एकत्र किए हैं कि मुझे लगता है कि ब्याज भी होगा। दुर्भाग्य से मैं साहित्य के एक समूह का हवाला देने से ज्यादा उपयोगी सलाह नहीं दे सकता। यह एक लोकप्रिय समकालीन विषय है, और उम्मीद है कि आप इसमें योगदान कर सकते हैं!
एंडी डब्ल्यू

जवाबों:


5

दशमेटिक मैपिंग मुख्य रूप से वर्तमान में प्रसारित डेटा की तुलना में छोटे क्षेत्रों में जनसंख्या अनुमानों को प्रक्षेपित करने पर केंद्रित है ( विषय पर उपयोगी संदर्भों के एक मेजबान के लिए यह प्रश्न देखें )। अक्सर यह केवल क्षेत्रों की पहचान (भूमि विशेषताओं के आधार पर) द्वारा किया जाता था जिसमें स्पष्ट रूप से कोई आबादी मौजूद नहीं होती है, और फिर जनसंख्या घनत्व (उन क्षेत्रों को छोड़कर) का पुनर्मूल्यांकन किया जाता है। एक उदाहरण यह हो सकता है कि अगर किसी शहर में पानी का एक शरीर है, तो दूसरा हो सकता है यदि आप औद्योगिक भूमि पार्सल की पहचान करते हैं जिसमें कोई आवासीय आबादी नहीं हो सकती है। डैसिमेट्रिक मैपिंग के लिए अधिक हालिया दृष्टिकोण जनसंख्या अनुमानों को आवंटित करने के लिए एक संभाव्य ढांचे में अन्य सहायक डेटा को शामिल करते हैं (Kyriakidis, 2004; लियू एट अल।, 2008; लिन एट अल।, 2011; झांग & क्यूयू, 2011)।

अब आपके प्रश्न का संबंध हाथ से देखना आसान है। आप छोटे क्षेत्रों की जनसंख्या का अनुमान चाहते हैं। लेकिन, यह भी स्पष्ट होना चाहिए कि यह आपके लक्ष्यों से कम कैसे हो सकता है। आप न केवल जनसंख्या डेटा चाहते हैं, बल्कि उन आबादी की विशेषताएं भी। इस स्थिति का वर्णन करने के लिए उपयोग किए जाने वाले शब्दों में से एक समर्थन समस्या का परिवर्तन है (Cressie, 1996; गोटवे एंड यंग, ​​2002)। भू-स्थानिक साहित्य से उधार लेना, जिसमें व्यक्ति बिंदु नमूनों से एक विस्तृत क्षेत्र पर एक निश्चित विशेषता की भविष्यवाणियां करने की कोशिश करता है, हाल के काम ने विभिन्न लक्ष्य क्षेत्रों के लिए क्षेत्रीय डेटा को प्रक्षेपित करने का प्रयास किया है। पियरे गूवार्ट्स के अधिकांश कार्य ऐसे क्षेत्र-टू-पॉइंट क्रिंगिंग विधियों पर केंद्रित हैं, जो कि जियोग्राफिकल एनालिसिस जर्नल का एक हालिया लेख है। अलग-अलग विषय सामग्री लागू करने की विधि के कई उदाहरण हैं (हेनिंग एट अल।, 2010), और मेरे पसंदीदा अनुप्रयोगों में से एक इस लेख में है (यंग एट अल।, 2009)।

हालांकि मैं इस समस्या का रामबाण इलाज शायद ही देखूं। अंततः पारिस्थितिक अंतर्ग्रहण और एकत्रीकरण पूर्वाग्रह के साथ समान मुद्दों में से कई के रूप में अच्छी तरह से क्षेत्र के प्रक्षेप के लक्ष्यों पर लागू होते हैं। यह इसी तरह है कि सूक्ष्म स्तर के डेटा के बीच कई रिश्ते बस एकत्रीकरण प्रक्रिया में खो जाते हैं, और इस तरह के प्रक्षेप तकनीक उन्हें पुनर्प्राप्त करने में सक्षम नहीं होंगे। इसके अलावा प्रक्रिया जिसके माध्यम से डेटा को आनुमानिक रूप से प्रक्षेपित किया जाता है (कुल स्तर के डेटा से वैरोग्राम के माध्यम से) अक्सर काफी तदर्थ चरणों से भरा होता है जो प्रक्रिया को संदिग्ध बनाना चाहिए (Goovaerts, 2008)।

दुर्भाग्य से, मैं इसे एक अलग उत्तर में पारिस्थितिक इंजेक्शन साहित्य के रूप में पोस्ट करता हूं और डेसिमेट्रिक मैपिंग और एरिया-टू-पॉइंट क्रिपिंग पर साहित्य गैर-अतिव्यापी हैं। हालांकि पारिस्थितिक इंजेक्शन पर साहित्य में इन तकनीकों के कई निहितार्थ हैं। न केवल इंटरपोलेशन तकनीक एकत्रीकरण पूर्वाग्रह के अधीन हैं, बल्कि बुद्धिमान डायसिमेट्रिक तकनीक (जो छोटे क्षेत्रों की भविष्यवाणी करने के लिए मॉडल को फिट करने के लिए कुल डेटा का उपयोग करती हैं) को एकत्रीकरण पूर्वाग्रह के लिए संदेह है। उन स्थितियों का ज्ञान जिसमें एकत्रीकरण पूर्वाग्रह होता है, उन परिस्थितियों के रूप में ज्ञानवर्धक होना चाहिए, जिनमें एरियाल इंटरपोलेशन और डायसिमेट्रिक मैपिंग काफी हद तक विफल हो जाएगी (विशेषकर असमान स्तर पर विभिन्न चर के बीच सहसंबंधों की पहचान के संबंध में)।


उद्धरण


समकालीन साहित्य में उपयोगी प्रारंभिक बिंदु के लिए धन्यवाद - मुझे डायसिमेट्रिक विधियों के बारे में पता नहीं था, जो कि जनसंख्या के घनत्व से अधिक था, इसलिए मैं इस उत्सुकता से देखूंगा।
fmark

5

गैरी किंग का काम, विशेष रूप से उनकी पुस्तक "ए सॉल्यूशन टू द इकोलॉजिकल इंफ़ेक्शन प्रॉब्लम" (पहले दो अध्याय यहाँ उपलब्ध हैं ), रुचि का होगा (साथ ही साथ वह सॉफ्टवेयर जो वह पारिस्थितिक इंजेक्शन के लिए उपयोग करता है)। राजा अपनी पुस्तक में दिखाते हैं कि कैसे समग्र डेटा का उपयोग करके प्रतिगमन डेटा के अनुमानों में सुधार किया जा सकता है जो उपलब्ध समुच्चय के आधार पर निचले स्तर के समूहीकरणों की जाँच करते हैं। यह तथ्य कि आपके डेटा ज्यादातर श्रेणीबद्ध समूह हैं, उन्हें इस तकनीक के लिए उत्तरदायी बनाता है। (हालांकि मूर्ख मत बनो, यह उतना सर्वव्यापी समाधान नहीं है जितना कि आप उम्मीद कर सकते हैं कि शीर्षक दिया गया है!) अधिक वर्तमान काम मौजूद है, लेकिन किंग्स बुक शुरू करने के लिए सबसे अच्छी जगह है।

एक और संभावना सिर्फ डेटा के संभावित सीमा (नक्शे या ग्राफ़ में) का प्रतिनिधित्व करने के लिए होगी। इसलिए उदाहरण के लिए, आप कुल स्तर (5,000 पुरुष और 5,000 महिलाएं) पर बताए गए यौन वितरण हो सकते हैं, और आप जानते हैं कि यह कुल स्तर 9,000 और 1,000 व्यक्तियों की 2 अलग-अलग छोटी क्षेत्र इकाइयों को सम्मिलित करता है। आप इसके बाद फ़ॉर्म की आकस्मिक तालिका के रूप में इसका प्रतिनिधित्व कर सकते हैं;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

यद्यपि आपके पास निचले स्तर के एकत्रीकरण के लिए कक्षों में जानकारी नहीं है, सीमांत योगों से हम प्रत्येक सेल के लिए न्यूनतम या अधिकतम संभावित मूल्यों का निर्माण कर सकते हैं। तो, इस उदाहरण में Men X Unit1सेल केवल 4,000 और 5,000 में मान ले सकता है (कभी-कभी सीमांत वितरण अधिक असमान होते हैं जितना संभव हो कोशिकाओं के अंतराल छोटे होते हैं)। जाहिरा तौर पर मेज की सीमा प्राप्त करना मेरे द्वारा अपेक्षित होने से ज्यादा कठिन है ( डोबरा और फेनबर्ग, 2000 ), लेकिन ऐसा प्रतीत होता है कि एक फ़ंक्शन eiPackआर में पुस्तकालय में उपलब्ध है ( लाउ एट अल।, 2007, पृष्ठ 43 )।

समग्र स्तर के डेटा के साथ बहुभिन्नरूपी विश्लेषण मुश्किल है, क्योंकि इस प्रकार के डेटा के साथ एकत्रीकरण पूर्वाग्रह अनिवार्य रूप से होता है। (संक्षेप में, मैं सिर्फ एकत्रीकरण पूर्वाग्रह का वर्णन करूंगा कि कई अलग-अलग व्यक्तिगत स्तर की डेटा जनरेटिंग प्रक्रियाएँ कुल स्तर के संघों में परिणत हो सकती हैं) अमेरिकन सोशियोलॉजिकल रिव्यू में लेखों की एक श्रृंखला 1970 में विषयों के लिए मेरे पसंदीदा संदर्भों में से कुछ हैं (फायरबाख, 1978; हैमोंड, 1973; हन्नान और बुरुस्टीन, 1974) हालांकि इस विषय पर कैनोनिकल स्रोत हो सकते हैं (Fotheringham & Wong, 1991; ओपिनशॉ, 1984; रॉबिन्सन, 1950) । मुझे लगता है कि संभावित सीमाओं का प्रतिनिधित्व करना जो डेटा ले सकता है संभावित रूप से भयावह हो सकता है, हालांकि आप बहुभिन्नरूपी विश्लेषण के संचालन के लिए कुल डेटा की सीमाओं से बहुत प्रभावित हैं। हालांकि सामाजिक विज्ञानों में इसे करने से किसी को नहीं रोका जाता है, हालांकि (बेहतर या बदतर के लिए!)

नोट, (जैसा कि चार्ली ने टिप्पणियों में कहा था) कि राजा के "समाधान" ने क्रिटिसिज्म (एंसलिन एंड चो, 2002; फ्रीडमैन एट अल।, 1998) की उचित मात्रा में राहत पाई है। यद्यपि ये क्रिटिसिज्म किंग्स मैथड के गणित के बारे में नहीं कहे जाते हैं, लेकिन उन स्थितियों के संबंध में जो किंग की पद्धति अभी भी एग्रीगेशन बायस के लिए जिम्मेदार नहीं है (और मैं फ्रीडमैन और एंसलिन दोनों से सहमत हूं कि डेटा के लिए किन स्थितियों में सामाजिक विज्ञान अभी भी संदिग्ध है कि राजा की मान्यताओं को पूरा करने वाले लोगों की तुलना में कहीं अधिक सामान्य हैं)। यह आंशिक रूप से यही कारण है कि मैं बस सीमा की जांच करने का सुझाव देता हूं (इसमें कुछ भी गलत नहीं है), लेकिन ऐसे डेटा से व्यक्तिगत स्तर के सहसंबंधों के बारे में अनुमान लगाने से विश्वास की अधिक छलांग लगती है जो अंततः अधिकांश स्थितियों में अनुचित हैं।


उद्धरण


ध्यान दें कि अन्य लोग पारिस्थितिक पतन के मुद्दे पर राजा के दृष्टिकोण के महत्वपूर्ण हैं; डेविड फ्रीडमैन एक उल्लेखनीय उदाहरण है। यहाँ यह प्रतिक्रिया है कि फ्रीडमैन और उनके सहकर्मी राजा की पुस्तक का हवाला देते हैं, जिसका उल्लेख है: citeseerx.ist.psu.edu/viewdoc/… बेशक, किंग की एक प्रतिक्रिया है और फ्रीडमैन एट अल। प्रतिक्रिया की प्रतिक्रिया के लिए एक प्रतिक्रिया है ... मैं काफी समझ नहीं पा रहा हूं कि आप क्या करने की कोशिश कर रहे हैं और आपके पास क्या डेटा है, लेकिन मैं आमतौर पर पारिस्थितिक आक्रमण-प्रकार के विश्लेषणों से बहुत उलझन में हूं।
चार्ली

हां @ चेरली मैं सहमत हूं (और मैं विशेष रूप से फ्रीडमैन के मुद्दे पर सामान्य रूप से आनंद लेता हूं)। आंशिक रूप से यही कारण है कि मैं अपने पोस्ट के अंत में एकत्रीकरण पूर्वाग्रह पर सामान्य साहित्य को इंगित करता हूं। मुझे पूरा यकीन नहीं है कि आपके कथन का क्या अर्थ है "मैं यह पता नहीं लगा सकता कि आप क्या करने की कोशिश कर रहे हैं और आपके पास क्या डेटा है, लेकिन मैं आमतौर पर पारिस्थितिक आक्रमण-प्रकार के विश्लेषणों से बहुत उलझन में हूं", क्या यह है किंग और फ्रीडमैन के संबंध में दोनों डेटा साझा न करने की शिकायत करते हैं?
एंडी डब्ल्यू

@Andy, इस तकनीक क्या अर्थशास्त्री के रूप में आंशिक रूप से पहचान वितरण (पता करने के लिए एक ही है springer.com/statistics/statistical+theory+and+methods/book/... )?
StasK

@ और, नहीं, अस्पष्टता के लिए खेद है। मैं वास्तव में ओपी से बात कर रहा था। यदि उसके पास छोटे क्षेत्र में फ़्रीक्वेंसी टेबल हैं और वह छोटे क्षेत्र के स्तर पर आंकड़े प्राप्त करना चाहता है, तो क्या गायब है? मुझे लगता है कि आपके पोस्ट में सुझाव के अनुसार उसके पास सिर्फ मार्जिन होना चाहिए, लेकिन सेल सामग्री नहीं।
चार्ली

@StasK, मुझे नहीं पता। मैं यह देखने के लिए जाँच करूंगा कि क्या राजा ने इस सप्ताह के अंत में मैन्स्की का कोई संदर्भ दिया है जब मेरे पास पुस्तक है। संभावना है कि कुछ ओवरलैप दिए गए पारिस्थितिक इंजेक्शन अमूर्त में उल्लिखित हैं। दोनों के बीच संबंध का पता लगाने के लिए एक और संभावित (नि: शुल्क) स्रोत पाठक राजा हो सकता है जिसे "पारिस्थितिक आक्रमण में नए तरीके" पर संपादित किया गया है ( अपनी वेबसाइट पर संपूर्णता में पोस्ट किया गया )
एंडी डब्ल्यू

2

मुझे यकीन नहीं है कि इसके लिए साहित्य में एक अच्छी तरह से परिभाषित उत्तर मौजूद है, यह देखते हुए कि Google खोज मूल रूप से बहुभिन्नरूपी छोटे क्षेत्र के आकलन पर तीन प्रयोग करने योग्य संदर्भ देती है। फाफरमैन (2002) पेपर के खंड 4 में असतत प्रतिक्रिया चर पर चर्चा करता है, लेकिन ये एकरूप मॉडल होंगे। बेशक, पदानुक्रमित बायेसियन विधियों ( राव 2003, Ch। 10 ) के साथ, आप किसी भी प्रकार के चमत्कार कर सकते हैं, लेकिन यदि अंत में आप पाते हैं कि आप अपने पुजारियों की नकल कर रहे हैं (क्योंकि आपके पास इतना कम डेटा है), यह एक भयानक होगा। आपके सिमुलेशन व्यायाम का परिणाम। इसके अलावा, राव केवल निरंतर चर व्यवहार करता है।

मुझे लगता है कि सबसे बड़ी चुनौती कोवरियन मैट्रिक्स के अपघटन के बीच और भीतर-छोटे-छोटे घटकों में होगी। 1% नमूने के साथ, आपके एसएई से केवल 3 अवलोकन होंगे, इसलिए भीतर के घटक का एक स्थिर अनुमान प्राप्त करना कठिन हो सकता है।

यदि मैं आपके जूते में होता, तो मैं छोटे क्षेत्र के बहुभिन्नरूपी यादृच्छिक प्रभाव के साथ फाफरमैन के मॉडल के बहुभिन्नरूपी विस्तार की कोशिश करता। आप वास्तव में इसके लिए एक पदानुक्रमित बायेसियन मॉडल के साथ समाप्त हो सकते हैं, अगर कोई डिज़ाइन-आधारित काम नहीं करता है।

अद्यतन (इस जवाब के लिए एंडी की टिप्पणी को संबोधित करने के लिए): छोटे क्षेत्र अनुमान ( लाहिड़ी 2003 ) के बूटस्ट्रैप तरीके विशेष रूप से अध्ययन से एक प्रशंसनीय आबादी को फिर से बनाते हैं । जबकि बूटस्ट्रैप अभ्यास का ध्यान छोटे क्षेत्र के अनुमानों के भिन्नरूपों का अनुमान लगाने के लिए है, प्रक्रियाएं ब्याज और प्रासंगिकता के लिए होनी चाहिए।


मैं Google खोज के आधार पर साहित्य की स्थिति का मूल्यांकन नहीं करूंगा। मुझे यकीन नहीं है कि छोटे क्षेत्र का अनुमान है कि लेखक इस उदाहरण में क्या देख रहा होगा। जहां तक ​​मैं समझता हूं, वह साहित्य छोटे क्षेत्रों ( क्रिगलर एंड बर्क, 2010 ) में विशेषताओं की भविष्यवाणियां करने पर केंद्रित है , या प्रति-इकाई प्रति नमूनों की विरल संख्या के आधार पर बहु-स्तरीय मॉडल में मापदंडों का आकलन कर रहा है।
एंडी डब्ल्यू

मुझे यकीन नहीं है कि छोटे क्षेत्र का अनुमान है कि मैं क्या करना चाहता हूं। जैसा कि मैं इसे समझता हूं, छोटे क्षेत्र का आकलन सारांश के आँकड़ों को एकत्र करने के लिए एक छोटे से क्षेत्र में कुछ नमूनों से जाना चाहता है। मैं इसके विपरीत (बड़े क्षेत्र की आबादी के वितरण और छोटे क्षेत्र की आबादी के छोटे क्षेत्र को एक छोटे क्षेत्र में एकत्र करने के लिए एकत्र करता हूं)। लाहिड़ी 2003 यहां एक अच्छे शुरुआती बिंदु की तरह दिखता है।
28
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.