लंबी कहानी छोटी : क्या @untitledprogrammer ने कहा, एक लेने में मदद करने के लिए दोनों मॉडल और क्रॉस-वैलिडेट की कोशिश करें।
दोनों निर्णय पेड़ (कार्यान्वयन पर निर्भर करता है, उदाहरण के लिए C4.5) और लॉजिस्टिक प्रतिगमन केवल ठीक और निरंतर डेटा को संभालने में सक्षम होना चाहिए। लॉजिस्टिक रिग्रेशन के लिए, आप अपने श्रेणीबद्ध चर को डमी कोड करना चाहते हैं ।
जैसा कि @untitledprogrammer ने उल्लेख किया है, यह एक प्राथमिकताओं को जानना मुश्किल है कि कौन सी तकनीक आपके द्वारा निरंतर, या अन्यथा सुविधाओं के आधार पर बेहतर होगी। यह वास्तव में आपकी विशिष्ट समस्या और आपके पास मौजूद डेटा पर निर्भर करता है। ( नो फ्री लंच प्रमेय देखें )
आप इस बात को ध्यान में रखना चाहेंगे कि लॉजिस्टिक रिग्रेशन मॉडल आपके फ़ीचर स्पेस में सिंगल लीनियर डिसिजन सीमा की खोज कर रहा है, जबकि एक डिसीजन ट्री अनिवार्य रूप से एक्सिस-एलाइन किए गए लीनियर डिसिजन सीमाओं का उपयोग करके आपके फ़ीचर स्पेस को आधे स्थानों में विभाजित कर रहा है । शुद्ध प्रभाव यह है कि आपके पास एक गैर-रैखिक निर्णय सीमा है, संभवतः एक से अधिक।
यह अच्छा है जब आपके डेटा पॉइंट्स को आसानी से एक सिंगल हाइपरप्लेन द्वारा अलग नहीं किया जाता है, लेकिन दूसरी ओर, निर्णय के पेड़ इतने लचीले होते हैं कि उनमें ओवरफिटिंग होने का खतरा हो सकता है। इससे निपटने के लिए, आप छंटाई की कोशिश कर सकते हैं। लॉजिस्टिक रिग्रेशन कम होने के लिए अतिसंवेदनशील (लेकिन प्रतिरक्षा नहीं!) हो जाता है।
x यएक्सy
इसलिए आपको खुद से पूछना होगा:
- आपकी विशेष समस्या में किस तरह की निर्णय सीमा अधिक मायने रखती है?
- आप पूर्वाग्रह और विचरण को कैसे संतुलित करना चाहते हैं?
- क्या मेरी विशेषताओं के बीच बातचीत है?
बेशक, यह हमेशा एक अच्छा विचार है कि बस दोनों मॉडल की कोशिश करें और क्रॉस-सत्यापन करें। इससे आपको यह पता लगाने में मदद मिलेगी कि कौन सा बेहतर सामान्यीकरण त्रुटि होने की अधिक संभावना है।