आर के यादृच्छिकफॉरस्ट पैकेज 32 से अधिक स्तरों के साथ कारक को संभाल नहीं सकता है। जब इसे 32 से अधिक स्तरों पर दिया जाता है, तो यह एक त्रुटि संदेश देता है:
32 से अधिक श्रेणियों के साथ श्रेणीबद्ध भविष्यवाणियों को संभाल नहीं सकते।
लेकिन डेटा मेरे पास कई कारक हैं। उनमें से कुछ के पास 1000+ स्तर हैं और उनमें से कुछ के पास 100+ हैं। यहां तक कि संयुक्त राज्यों का। राज्य ’भी है जो 52 है।
तो, यहाँ मेरा सवाल है।
ऐसी सीमा क्यों है? randomForest साधारण मामले के लिए भी चलाने से मना कर दिया।
> d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories.
यदि यह केवल मेमोरी लिमिटेशन के कारण होता है, तो शिकंजा कैसे सीख सकता है randomForeestRegressor 32 से अधिक स्तरों के साथ?
इस समस्या से निपटने का सबसे अच्छा तरीका क्या है? मान लीजिए कि मेरे पास एक्स 1, एक्स 2, ..., एक्स 50 स्वतंत्र चर हैं और वाई निर्भर चर है। और मान लीजिए कि एक्स 1, एक्स 2 और एक्स 3 में 32 से अधिक स्तर हैं। मुझे क्या करना चाहिए?
मैं जो सोच रहा हूं वह X1, X2 और X3 में से प्रत्येक के लिए क्लस्टरिंग एल्गोरिदम चला रहा है, जहां दूरी को Y में अंतर के रूप में परिभाषित किया गया है। मैं तीन क्लस्टरिंग चलाऊंगा क्योंकि तीन समस्याग्रस्त चर हैं। और प्रत्येक क्लस्टरिंग में, मैं चाहता हूं कि मैं समान स्तर पा सकता हूं। और मैं उनका विलय कर दूंगा।
यह कैसा लगता है?