मैं अपनी समस्या को एक उदाहरण से समझाता हूँ। मान लीजिए कि आप किसी व्यक्ति की आय का अनुमान लगाना चाहते हैं, जो कुछ विशेषताएं बताती है: {आयु, लिंग, देश, क्षेत्र, शहर}। आपके पास एक प्रशिक्षण डाटासेट है
train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),
RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5),
CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8),
Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50),
Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")),
Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23))
train
CountryID RegionID CityID Age Gender Income
1 1 1 1 23 M 31
2 1 1 1 48 F 42
3 1 1 2 62 M 71
4 1 2 3 63 F 65
5 2 3 4 25 M 50
6 2 3 5 41 F 51
7 2 4 6 45 M 101
8 2 4 6 19 F 38
9 3 5 7 37 F 47
10 3 5 7 41 F 50
11 3 5 7 31 F 55
12 3 5 8 50 M 23
अब मान लें कि मैं एक नए व्यक्ति की आय की भविष्यवाणी करना चाहता हूं जो सिटी 7 में रहता है। मेरे प्रशिक्षण सेट में सिटी 7 में लोगों के साथ 3 नमूने हैं (मान लीजिए कि यह बहुत है) इसलिए मैं शायद सिटी 7 में औसत आय का उपयोग कर सकता हूं इस नए व्यक्ति की आय की भविष्यवाणी करें।
अब मान लीजिए मैं एक नए व्यक्ति की आय का अनुमान लगाना चाहता हूं जो सिटी 2 में रहता है। मेरे प्रशिक्षण सेट में केवल सिटी 2 के साथ 1 नमूना है, इसलिए सिटी 2 में औसत आय शायद एक विश्वसनीय भविष्यवक्ता नहीं है। लेकिन मैं शायद क्षेत्र 1 में औसत आय का उपयोग कर सकता हूं।
इस विचार को थोड़ा विस्तार देते हुए, मैं अपने प्रशिक्षण डेटासेट को रूपांतरित कर सकता हूं
Age Gender CountrySamples CountryIncome RegionSamples RegionIncome CitySamples CityIncome
1: 23 M 4 52.25 3 48.00 2 36.5000
2: 48 F 4 52.25 3 48.00 2 36.5000
3: 62 M 4 52.25 3 48.00 1 71.0000
4: 63 F 4 52.25 1 65.00 1 65.0000
5: 25 M 4 60.00 2 50.50 1 50.0000
6: 41 F 4 60.00 2 50.50 1 51.0000
7: 45 M 4 60.00 2 69.50 2 69.5000
8: 19 F 4 60.00 2 69.50 2 69.5000
9: 37 F 4 43.75 4 43.75 3 50.6667
10: 41 F 4 43.75 4 43.75 3 50.6667
11: 31 F 4 43.75 4 43.75 3 50.6667
12: 50 M 4 43.75 4 43.75 1 23.0000
इसलिए, लक्ष्य किसी भी तरह से प्रत्येक के लिए वजन / साख देने के लिए प्रत्येक के लिए प्रशिक्षण नमूनों की संख्या का उपयोग करते हुए औसत CityIncome, RegionIncome, और CountryIncome को संयोजित करना है। (आदर्श रूप में, अभी भी आयु और लिंग की जानकारी शामिल है।)
इस प्रकार की समस्या को हल करने के लिए क्या सुझाव हैं? मैं बेतरतीब जंगल या ग्रेडिएंट बूस्टिंग जैसे ट्री बेस्ड मॉडल्स का इस्तेमाल करना पसंद करता हूं, लेकिन मुझे अच्छा प्रदर्शन करने में दिक्कत हो रही है।
अद्यतन करें
किसी को भी इस समस्या को रोकने के लिए, मैंने आपके प्रस्तावित समाधान का परीक्षण करने के लिए नमूना डेटा तैयार किया है ।