मेरे पास मेरे फेसबुक एप्लिकेशन का एक डेटाबेस है और मैं उपयोगकर्ताओं की उम्र का अनुमान लगाने के लिए मशीन सीखने का उपयोग करने की कोशिश कर रहा हूं, जो कि वे फेसबुक साइट को पसंद करते हैं।
मेरे डेटाबेस की तीन महत्वपूर्ण विशेषताएं हैं:
मेरे प्रशिक्षण सेट में उम्र का वितरण (योग में उपयोगकर्ताओं का 12k) युवा उपयोगकर्ताओं (यानी मेरे पास 1157 उपयोगकर्ता हैं जिनकी आयु 27 वर्ष है, और 65 वर्ष की आयु के 23 उपयोगकर्ता हैं)
कई साइटों में 5 से अधिक लाइक नहीं हैं (मैंने 5 लाइबर्स से कम एफबी साइटों को फ़िल्टर किया है)।
नमूनों की तुलना में कई और विशेषताएं हैं।
तो, मेरे सवाल हैं: आगे की विश्लेषण के लिए डेटा तैयार करने के लिए आप क्या रणनीति सुझाएंगे? क्या मुझे किसी प्रकार की आयामी कमी करनी चाहिए? इस मामले में किस एमएल विधि का उपयोग करना सबसे उपयुक्त होगा?
मैं मुख्य रूप से पायथन का उपयोग करता हूं, इसलिए पायथन-विशिष्ट संकेत बहुत सराहना करेंगे।