यह कहना मुश्किल है कि आपके डेटासेट के बारे में कुछ और जानने के बिना, और आपका डेटासेट आपके फीचर वेक्टर पर कितना अलग है, लेकिन मैं आपके अपेक्षाकृत छोटे नमूने सेट के कारण मानक यादृच्छिक जंगलों पर अत्यधिक यादृच्छिक वन का उपयोग करने का सुझाव दूंगा।
चरम यादृच्छिक वन मानक अपवाद वाले वन के समान सुंदर हैं, एक अपवाद है कि पेड़ों पर विभाजन को अनुकूलित करने के बजाय, अत्यधिक यादृच्छिक वन यादृच्छिक पर विभाजन बनाता है। प्रारंभ में यह एक नकारात्मक की तरह प्रतीत होगा, लेकिन इसका आम तौर पर मतलब है कि आपके पास सामान्यीकरण और गति में काफी सुधार है, हालांकि आपके प्रशिक्षण सेट पर एयूसी थोड़ा खराब होने की संभावना है।
इस तरह के कार्यों के लिए लॉजिस्टिक रिग्रेशन भी एक बहुत ठोस शर्त है, हालांकि आपकी अपेक्षाकृत कम आयामीता और छोटे नमूने के आकार के साथ मुझे ओवरफिटिंग के बारे में चिंता होगी। आप K- निकटतम पड़ोसियों का उपयोग करके जांचना चाह सकते हैं क्योंकि यह अक्सर कम आयामीताओं के साथ बहुत अच्छा प्रदर्शन करता है, लेकिन यह आमतौर पर श्रेणीबद्ध चर को बहुत अच्छी तरह से नहीं संभालता है।
यदि मुझे समस्या के बारे में अधिक जानकारी के बिना किसी को चुनना था, तो मैं निश्चित रूप से अत्यधिक यादृच्छिक वन पर अपना दांव लगाऊंगा, क्योंकि इस तरह के डेटासेट पर आपको अच्छा सामान्यीकरण देने की बहुत संभावना है, और यह संख्यात्मक और श्रेणीबद्ध डेटा के मिश्रण को भी बेहतर ढंग से संभालता है। अन्य तरीकों की तुलना में।