मेरे पास एक बहुत बड़ा डेटासेट है और लगभग 5% यादृच्छिक मूल्य गायब हैं। ये चर एक दूसरे के साथ सहसंबद्ध हैं। निम्नलिखित उदाहरण R डाटासेट केवल एक खिलौना उदाहरण है जिसमें डमी सहसंबद्ध डेटा है।
set.seed(123)
# matrix of X variable
xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000)
colnames(xmat) <- paste ("M", 1:10000, sep ="")
rownames(xmat) <- paste("sample", 1:200, sep = "")
#M variables are correlated
N <- 2000000*0.05 # 5% random missing values
inds <- round ( runif(N, 1, length(xmat)) )
xmat[inds] <- NA
> xmat[1:10,1:10]
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
sample1 -1 -1 1 NA 0 -1 1 -1 0 -1
sample2 1 1 -1 1 0 0 1 -1 -1 1
sample3 0 0 1 -1 -1 -1 0 -1 -1 -1
sample4 1 0 0 -1 -1 1 1 0 1 1
sample5 NA 0 0 -1 -1 1 0 NA 1 NA
sample6 -1 1 0 1 1 0 1 1 -1 -1
sample7 NA 0 1 -1 0 1 -1 0 1 NA
sample8 1 -1 -1 1 0 -1 -1 1 -1 0
sample9 0 -1 0 -1 1 -1 1 NA 0 1
sample10 0 -1 1 0 1 0 0 1 NA 0
क्या इस स्थिति में लापता मूल्यों को लागू करने का एक (सबसे अच्छा) तरीका है? क्या रैंडम फॉरेस्ट एल्गोरिथ्म मददगार है? आर में किसी भी काम कर समाधान बहुत सराहना की जाएगी।
संपादन:
(1) गुम मूल्यों बेतरतीब ढंग से चर और samples.As बीच वितरित कर रहे चर की संख्या है बहुत बड़ी है, जबकि - (10000 उदाहरण में यहाँ) नमूनों की संख्या से ऊपर डमी उदाहरण यह 200 तो जब के बारे में है में यहाँ छोटा है हम सभी चर (10000) पर किसी भी नमूने को देखते हैं, उच्च संभावना है कि कुछ चर पर लापता मूल्य होगा - बड़ी संख्या में चर के कारण। इसलिए सिर्फ सैंपल डिलीट करना विकल्प नहीं है।
(२) परिवर्तनशील होने की प्रक्रिया में चर को मात्रात्मक या गुणात्मक (बाइनरी) दोनों के रूप में माना जा सकता है। एकमात्र निर्णय यह है कि हम कितनी अच्छी तरह से इसका अनुमान लगा सकते हैं (सटीकता)। इसलिए 1 के बजाय 0.98 जैसी भविष्यवाणियां स्वीकार्य हो सकती हैं बल्कि 0 बनाम 1 या -1 बनाम 1. मुझे कंप्यूटिंग समय और सटीकता के बीच व्यापार करने की आवश्यकता हो सकती है।
(३) मैं यह सोच रहा हूँ कि ओवरफिटिंग परिणामों को कैसे प्रभावित कर सकता है क्योंकि नमूनों की संख्या की तुलना में चर की संख्या बड़ी है।
(4) चूंकि लापता मानों की कुल मात्रा लगभग 5% है और यादृच्छिक है (किसी भी चर या नमूनों में केंद्रित नहीं है क्योंकि चर या नमूने जो बहुत अधिक लापता मान हैं, निकालने के लिए सावधानी बरती गई थी)
(5) विश्लेषण के लिए डेटा को पूरा करना पहला उद्देश्य है और सटीकता माध्यमिक है। तो सटीकता के प्रति भी संवेदनशील नहीं।