मैं एक समस्या से निपटने की कोशिश कर रहा हूं जो एक पैनल डेटा स्टडी से गायब डेटा के इंप्रूवमेंट से संबंधित है (मुझे यकीन है कि अगर मैं 'पैनल डेटा स्टडी' का सही ढंग से उपयोग कर रहा हूं - जैसा कि मैंने आज सीखा है।) मेरे पास वर्ष 2003 के लिए कुल डेथ काउंट डेटा है। 2009 तक, सभी महीने, पुरुष और महिला, 8 विभिन्न जिलों और 4 आयु वर्ग के लिए।
डेटाफ़्रेम कुछ इस तरह दिखता है:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
2007 और 2008 में फैले 10 महीनों के लिए सभी जिलों से कुल मौतों को दर्ज नहीं किया गया था। मैं एक बहु प्रतिनियुक्ति विधि के माध्यम से इन लापता मूल्य का अनुमान लगाने की कोशिश कर रहा हूं। या तो सामान्यीकृत रैखिक मॉडल या SARIMA मॉडल का उपयोग करना।
मेरा सबसे बड़ा मुद्दा सॉफ्टवेयर का उपयोग और कोडिंग है। मैंने Stackoverflow पर एक सवाल पूछा, जहाँ मैं डेटा को इस तरह छोटे समूहों में निकालना चाहता हूँ:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
जा रहा हूँ
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
लेकिन किसी ने सुझाव दिया कि मुझे अपना सवाल यहाँ लाना चाहिए - शायद एक दिशा पूछी जाए? वर्तमान में मैं इस डेटा को एक उचित समय-श्रृंखला / पैनल अध्ययन के रूप में आर में प्रवेश करने में असमर्थ हूं। मेरा अंतिम उद्देश्य 2007 और 2008 में कुछ महीनों के amelia2
लिए लापता होने के TotalDeaths
लिए इस डेटा और पैकेज को अपने कार्यों के साथ उपयोग करना है। लापता।
कोई मदद, यह कैसे करना है और शायद इस समस्या से निपटने के लिए सुझाव को सराहना की जाएगी।
यदि यह मदद करता है, तो मैं क्लिंट रॉबर्ट्स ने अपने पीएचडी थीसिस में क्या किया है, इसी तरह के दृष्टिकोण का पालन करने की कोशिश कर रहा हूं ।
संपादित करें:
@ समय के अनुसार 'समय' और 'समूह' चर बनाने के बाद:
> head(dat)
District Gender Year Month AgeGroup Unnatural Natural Total time group
1 Khayelitsha Female 2001 1 0 0 6 6 1 Khayelitsha.Female.0
2 Khayelitsha Female 2001 1 01-4 1 3 4 1 Khayelitsha.Female.01-4
3 Khayelitsha Female 2001 1 05-14 0 0 0 1 Khayelitsha.Female.05-14
4 Khayelitsha Female 2001 1 15up 8 73 81 1 Khayelitsha.Female.15up
5 Khayelitsha Female 2001 2 0 2 9 11 2 Khayelitsha.Female.0
6 Khayelitsha Female 2001 2 01-4 0 2 2 2 Khayelitsha.Female.01-4
जैसा कि आप नोटिस करते हैं, वास्तव में 'प्राकृतिक' और 'अप्राकृतिक' विस्तार है।
Amelia
एक सा के साथ खेल रहा हूं, लेकिन इसे छोड़ दिया (इससे पहले)। मैंने पहले विगनेट को देखा है (लेकिन इसे किसी तरह खो दिया है!) बस इस पर एक त्वरित नज़र थी और इसके माध्यम से गुजरना होगा। मेरे पास अब एक समस्या यह है कि मैं कैसेgroup
औरtime
चर बनाने के लिए अनिश्चित हूं । (मैंने उन्हें समय श्रृंखला विश्लेषण / पूर्वानुमान के लिए बनाने की कोशिश की, लेकिन इसके चारों ओर एक लूप मिला।) मुझे यकीन है कि यह विगेट में है - इसलिए अगर मैं संघर्ष कर रहा हूं तो मैं आपको वापस मिलूंगा। धन्यवाद फिर से :)