संक्षेप में मेरा प्रश्न: क्या R MICE (डेटा प्रतिरूपण) के चलने के समय में सुधार करने के तरीके हैं?
मैं एक डेटा सेट (30 चर, 1.3 मिलियन पंक्तियों) के साथ काम कर रहा हूं जिसमें (काफी यादृच्छिक रूप से) गायब डेटा है। 30 में से लगभग 15 चरों में लगभग 8% टिप्पणियों में NA हैं। लापता डेटा को लागू करने के लिए, मैं MICE फ़ंक्शन, MICE पैकेज का हिस्सा चला रहा हूं ।
मैं बहुत धीमी गति से चलने के समय का अनुभव करता हूं, यहां तक कि एक सबसेट (100,000 पंक्तियों) पर, विधि = "फास्टपम" और एम = 1 के साथ और लगभग 15 मिनट तक चलता है।
क्या प्रदर्शन में बहुत अधिक खोए बिना चलने के समय में सुधार करने का एक तरीका है? (चूहों। pimpute.mean काफी तेज है, लेकिन जानकारी के महत्वपूर्ण नुकसान के साथ आता है!)।
प्रतिकारक कोड:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")