ऐसा लगता है जैसे आप समझते हैं कि आप n
स्तरों के लिए सक्षम हैं, जैसा कि विरोध किया गया है n-1
, क्योंकि रैखिक प्रतिगमन के विपरीत आपको सही colearearity के बारे में चिंता करने की आवश्यकता नहीं है।
(मैं एक आर के नजरिए से इस पर आ रहा हूं, लेकिन मुझे लगता है कि यह पायथन में समान है।) जो कि कुछ चीजों पर निर्भर करता है, जैसे 1) जो पैकेज आप उपयोग कर रहे हैं और 2) आपके पास कितने कारक स्तर हैं।
1) यदि आप आर के randomForest
पैकेज का उपयोग कर रहे हैं , तो यदि आपके पास <33 कारक स्तर हैं तो आप आगे बढ़ सकते हैं और यदि आप चाहें तो उन्हें एक फीचर में छोड़ सकते हैं। ऐसा इसलिए है क्योंकि आर के यादृच्छिक वन कार्यान्वयन में, यह देखने के लिए जांच करेगा कि विभाजन के एक तरफ कौन से कारक स्तर होने चाहिए और कौन से दूसरे पर (उदाहरण के लिए, आपके 5 स्तरों को एक साथ बाईं ओर समूहित किया जा सकता है, और 7 को समूहीकृत किया जा सकता है। एक साथ दाईं ओर)। यदि आप श्रेणीगत सुविधा को n
डमी में विभाजित करते हैं , तो एल्गोरिथ्म में इसके निपटान में यह विकल्प नहीं होगा।
जाहिर है कि यदि आप जिस विशेष पैकेज का उपयोग कर रहे हैं वह श्रेणीबद्ध सुविधाओं को संभाल नहीं सकता है तो आपको केवल n
डमी वैरिएबल बनाने की आवश्यकता होगी ।
2) जैसा कि मैंने ऊपर उल्लेख किया है, आर के यादृच्छिक वन कार्यान्वयन केवल 32 कारक स्तरों को संभाल सकते हैं - यदि आपके पास इससे अधिक है, तो आपको या तो अपने कारकों को छोटे सबसेट में विभाजित करना होगा, या प्रत्येक स्तर के लिए एक डमी चर बनाना होगा।
randomForest
स्वचालित रूप से कोडित हैं, मुझेn
डमी के साथ जाना चाहिए क्योंकि कोलीनियरिटी आरएफ के लिए कोई समस्या नहीं है?