निर्णय वृक्ष या लॉजिस्टिक प्रतिगमन?

14

मैं एक वर्गीकरण समस्या पर काम कर रहा हूं। मेरे पास एक डेटासेट है जिसमें समान संख्या में श्रेणीबद्ध चर और निरंतर चर हैं। मुझे कैसे पता चलेगा कि किस तकनीक का उपयोग करना है? एक निर्णय पेड़ और एक लॉजिस्टिक प्रतिगमन के बीच?

क्या यह मान लेना सही है कि लॉजिस्टिक रिग्रेशन निरंतर परिवर्तनीय के लिए अधिक उपयुक्त होगा और निर्णय वृक्ष निरंतर + श्रेणीगत चर के लिए अधिक उपयुक्त होगा?

classification logistic-regression decision-trees

— अरुण
स्रोत

क्या आप पंक्तियों की संख्या, स्तंभों की संख्या (कितने श्रेणीबद्ध / निरंतर) जैसी अधिक जानकारी जोड़ सकते हैं?

— नितेश

हाय @ नीतेश, मेरे पास 32 इनपुट चर + 1 लक्ष्य चर है। प्रशिक्षण डेटा के लिए रिकॉर्ड 2.5 लाख के करीब हैं और 1 लाख परीक्षण डेटा के आसपास कहते हैं। परीक्षण डेटा समय डेटा से बाहर है।

— अरुण

22

लंबी कहानी छोटी : क्या @untitledprogrammer ने कहा, एक लेने में मदद करने के लिए दोनों मॉडल और क्रॉस-वैलिडेट की कोशिश करें।

दोनों निर्णय पेड़ (कार्यान्वयन पर निर्भर करता है, उदाहरण के लिए C4.5) और लॉजिस्टिक प्रतिगमन केवल ठीक और निरंतर डेटा को संभालने में सक्षम होना चाहिए। लॉजिस्टिक रिग्रेशन के लिए, आप अपने श्रेणीबद्ध चर को डमी कोड करना चाहते हैं ।

जैसा कि @untitledprogrammer ने उल्लेख किया है, यह एक प्राथमिकताओं को जानना मुश्किल है कि कौन सी तकनीक आपके द्वारा निरंतर, या अन्यथा सुविधाओं के आधार पर बेहतर होगी। यह वास्तव में आपकी विशिष्ट समस्या और आपके पास मौजूद डेटा पर निर्भर करता है। ( नो फ्री लंच प्रमेय देखें )

आप इस बात को ध्यान में रखना चाहेंगे कि लॉजिस्टिक रिग्रेशन मॉडल आपके फ़ीचर स्पेस में सिंगल लीनियर डिसिजन सीमा की खोज कर रहा है, जबकि एक डिसीजन ट्री अनिवार्य रूप से एक्सिस-एलाइन किए गए लीनियर डिसिजन सीमाओं का उपयोग करके आपके फ़ीचर स्पेस को आधे स्थानों में विभाजित कर रहा है । शुद्ध प्रभाव यह है कि आपके पास एक गैर-रैखिक निर्णय सीमा है, संभवतः एक से अधिक।

यह अच्छा है जब आपके डेटा पॉइंट्स को आसानी से एक सिंगल हाइपरप्लेन द्वारा अलग नहीं किया जाता है, लेकिन दूसरी ओर, निर्णय के पेड़ इतने लचीले होते हैं कि उनमें ओवरफिटिंग होने का खतरा हो सकता है। इससे निपटने के लिए, आप छंटाई की कोशिश कर सकते हैं। लॉजिस्टिक रिग्रेशन कम होने के लिए अतिसंवेदनशील (लेकिन प्रतिरक्षा नहीं!) हो जाता है।

$xy$ $x$ $y$

इसलिए आपको खुद से पूछना होगा:

आपकी विशेष समस्या में किस तरह की निर्णय सीमा अधिक मायने रखती है?
आप पूर्वाग्रह और विचरण को कैसे संतुलित करना चाहते हैं?
क्या मेरी विशेषताओं के बीच बातचीत है?

बेशक, यह हमेशा एक अच्छा विचार है कि बस दोनों मॉडल की कोशिश करें और क्रॉस-सत्यापन करें। इससे आपको यह पता लगाने में मदद मिलेगी कि कौन सा बेहतर सामान्यीकरण त्रुटि होने की अधिक संभावना है।

— विक्टर मा
स्रोत

बिल्कुल @Victor।

— अनिटल्डप्रोग्रामर

@ विक्टर बहुत विस्तृत विवरण के लिए बहुत बहुत धन्यवाद।

— अरुण

6

प्रतिगमन और निर्णय पेड़ों दोनों का उपयोग करने का प्रयास करें। 10 गुना क्रॉस सत्यापन का उपयोग करके प्रत्येक तकनीक की दक्षता की तुलना करें। उच्च दक्षता के साथ एक से चिपके रहते हैं। यह निर्धारित करना मुश्किल होगा कि किस विधि से यह जानना बेहतर होगा कि आपके डेटासेट में निरंतरता है और या श्रेणीबद्ध।

— untitledprogrammer
स्रोत

1

यह वास्तव में आपके डेटा के अंतर्निहित वितरण की संरचना पर निर्भर करता है। यदि आपके पास यह विश्वास करने का मजबूत कारण है कि डेटा एक बर्नौली वितरण का अनुमान लगाता है, तो बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन अच्छा प्रदर्शन करेगा और आपको व्याख्यात्मक परिणाम देगा। हालांकि अगर अंतर्निहित वितरण में गैर-रेखीय संरचनाएं मौजूद हैं, तो आपको गंभीरता से एक गैर-पैरामीटर विधि पर विचार करना चाहिए।

जब आप निर्णय लेने वाले पेड़ को अपनी गैर-समरूप विधि के रूप में उपयोग कर सकते हैं, तो आप एक यादृच्छिक जंगल पैदा करने पर भी विचार कर सकते हैं- यह अनिवार्य रूप से डेटा के सबसेट से व्यक्तिगत निर्णय पेड़ों की एक बड़ी संख्या उत्पन्न करता है और अंतिम वर्गीकरण सभी पेड़ों का ढेर वोट है । एक यादृच्छिक वन आपको उस शेयर का अंदाजा लगाने में मदद करता है जो प्रत्येक प्रेडिक्टर वैरिएबल प्रतिक्रिया में योगदान देता है।

ध्यान में रखने के लिए एक और कारक व्याख्यात्मकता है। यदि आप केवल डेटा को वर्गीकृत करने का प्रयास कर रहे हैं, तो संभवतः आप व्याख्यात्मक और प्रतिक्रिया चर के बीच अंतर्निहित संबंधों के बारे में परवाह नहीं करते हैं। हालांकि, यदि आप व्याख्यात्मकता में सभी में रुचि रखते हैं, तो बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन की व्याख्या करना बहुत आसान है, सामान्य तौर पर पैरामीट्रिक तरीके, क्योंकि वे अंतर्निहित वितरण के बारे में धारणा बनाते हैं, आपको अधिक सहज ज्ञान युक्त व्याख्यात्मक संबंध बताते हैं।

— थेरेसा बार्टन
स्रोत

0

डिसीजन ट्री का उपयोग करने के लिए, आपको निरंतर चर को श्रेणीबद्ध में बदलना चाहिए।

एक और बात, लॉजिस्टिक रिग्रेशन का उपयोग आमतौर पर संभावना के अनुसार परिणाम की भविष्यवाणी करने के लिए किया जाता है।

— चोंग झेंग
स्रोत