मैं 200,000+ नमूनों के साथ एक डेटासेट पर काम कर रहा हूं और प्रति नमूने लगभग 50 विशेषताएं: 10 निरंतर चर और अन्य ~ 40 श्रेणीबद्ध चर (देश, भाषा, वैज्ञानिक क्षेत्र आदि) हैं। इन श्रेणीबद्ध चरों के लिए, आपके पास 150 विभिन्न देशों, 50 भाषाओं, 50 वैज्ञानिक क्षेत्रों आदि के उदाहरण हैं ...
अब तक मेरा दृष्टिकोण है:
कई संभावित मूल्य वाले प्रत्येक श्रेणीगत चर के लिए, केवल 10000 से अधिक नमूने वाले एक को ही लें, जो इस मूल्य को लेता है। यह 150 के बजाय 5-10 श्रेणियों तक कम हो जाता है।
प्रत्येक श्रेणीबद्ध एक के लिए डमी चर बनाएं (यदि 10 देशों में प्रत्येक नमूने के लिए आकार 10 का एक द्विआधारी वेक्टर जोड़ें)।
इस डेटा के साथ एक रैंडम फ़ॉरेस्ट क्लासिफ़ायर (मापदंडों आदि को क्रॉस-वैलिड करें ...) फ़ीड करें।
वर्तमान में इस दृष्टिकोण के साथ, मैं केवल 65% सटीकता प्राप्त करने का प्रबंधन करता हूं और मुझे लगता है कि अधिक किया जा सकता है। विशेष रूप से मैं अपने 1 से संतुष्ट नहीं हूं) क्योंकि मुझे लगता है कि मुझे मनमाने ढंग से "कम से कम प्रासंगिक मूल्यों" को नहीं निकालना चाहिए, क्योंकि उनके पास नमूना की संख्या है, क्योंकि ये कम प्रतिनिधित्व वाले मूल्य अधिक भेदभावपूर्ण हो सकते हैं। दूसरी ओर, मेरी रैम सभी संभावित मूल्यों को ध्यान में रखते हुए डेटा में 500 कॉलम * 200000 पंक्तियों को जोड़ नहीं सकती है।
क्या आपके पास इस श्रेणीबद्ध चर के साथ सामना करने के लिए कोई सुझाव होगा?