हाय में 1600 से अधिक श्रेणियों के बड़े श्रेणीगत मूल्यों के साथ डेटाफ्रेम है, कोई भी तरीका है जिससे मैं विकल्प पा सकता हूं ताकि मेरे पास 1600 से अधिक कॉलम न हों।
मुझे यह नीचे दिलचस्प लिंक http://amunategui.github.io/feature-hashing/#sourcecode पर मिला
लेकिन वे वर्ग / वस्तु में परिवर्तित कर रहे हैं जो मुझे नहीं चाहिए। मुझे अपना अंतिम आउटपुट डेटाफ्रेम के रूप में चाहिए ताकि मैं विभिन्न मशीन लर्निंग मॉडल के साथ परीक्षण कर सकूं? या ऐसा कोई तरीका है जिससे मैं लॉजिस्टिक रिग्रेशन या XGBoost के अलावा अन्य मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए जेनेटेड मैट्रिक्स का उपयोग कर सकता हूं?
वैसे भी क्या मैं लागू कर सकता हूं?