Naive Bayes SVM से बेहतर प्रदर्शन कब करता है?


17

एक छोटे से पाठ वर्गीकरण समस्या में मैं देख रहा था, Naive Bayes एक SVM के समान या उससे अधिक के प्रदर्शन का प्रदर्शन कर रहा है और मैं बहुत उलझन में था।

मैं सोच रहा था कि कौन से कारक एक एल्गोरिथ्म की दूसरे पर विजय तय करते हैं। क्या ऐसी परिस्थितियां हैं जहां SVM पर Naive Bayes का उपयोग करने का कोई मतलब नहीं है? क्या कोई इस पर प्रकाश डाल सकता है?


जवाबों:


27

इस बारे में कोई एकल उत्तर नहीं है कि किसी दिए गए डेटासेट के लिए सबसे अच्छा वर्गीकरण तरीका क्या है । किसी दिए गए डेटासेट पर तुलनात्मक अध्ययन के लिए विभिन्न प्रकार के क्लासिफायर का हमेशा विचार किया जाना चाहिए। डेटासेट के गुणों को देखते हुए, आपके पास कुछ सुराग हो सकते हैं जो कुछ तरीकों को वरीयता दे सकते हैं। हालांकि, यदि संभव हो तो सभी के साथ प्रयोग करना अभी भी उचित होगा।

Naive Bayes Classifier (NBC) और सपोर्ट वेक्टर मशीन (SVM) में प्रत्येक के लिए कर्नेल फ़ंक्शन की पसंद सहित विभिन्न विकल्प हैं। वे दोनों पैरामीटर ऑप्टिमाइज़ेशन के प्रति संवेदनशील हैं (यानी अलग-अलग पैरामीटर चयन उनके आउटपुट को बदल सकते हैं) । इसलिए, यदि आपके पास यह परिणाम है कि एनबीसी एसवीएम से बेहतर प्रदर्शन कर रहा है। यह केवल चयनित मापदंडों के लिए सही है। हालाँकि, एक और पैरामीटर चयन के लिए, आप पा सकते हैं कि SVM बेहतर प्रदर्शन कर रहा है।

सामान्य तौर पर, यदि एनबीसी में स्वतंत्रता की धारणा आपके डेटासेट के चर से संतुष्ट है और वर्ग ओवरलैपिंग की डिग्री छोटी है (यानी संभावित रैखिक निर्णय सीमा), तो एनबीसी को अच्छा हासिल होने की उम्मीद होगी। कुछ डेटासेट के लिए, रैपर फीचर के चयन के साथ अनुकूलन के साथ, उदाहरण के लिए, एनबीसी अन्य सहपाठियों को हरा सकता है। यहां तक ​​कि अगर यह एक तुलनीय प्रदर्शन प्राप्त करता है, तो एनबीसी अपनी उच्च गति के कारण अधिक वांछनीय होगा।

सारांश में, हमें किसी भी वर्गीकरण पद्धति को पसंद नहीं करना चाहिए अगर यह एक संदर्भ में दूसरों से बेहतर प्रदर्शन करता है क्योंकि यह दूसरे में गंभीर रूप से विफल हो सकता है। ( डेटा मिनिंग प्रोब्लम में यह सामान्य है )।


7
(+1) जिसे नो फ्री लंच प्रमेय भी कहा जाता है । मैं पूरी तरह से पैरामीटर सेंसिटिविटी तुलना से सहमत नहीं हूं, हालांकि (सिंगल डिसीजन ट्री सबसे संवेदनशील दृष्टिकोण IMHO में से एक है), लेकिन हमें इसके बारे में यहां चर्चा नहीं करनी चाहिए :)।
स्टीफन

@ ऑस्टेन, आपकी बहुमूल्य टिप्पणी के लिए धन्यवाद। मॉडल को अनुकूलित करने के लिए कई अलग-अलग तरीके हैं और मैं मानता हूं कि हम सामान्य नहीं कर सकते कि कौन सा मॉडल सभी मामलों में अधिक सहज है। सुविधा चयन के लिए, डीटी, एनबीसी की तुलना में संभवतः कम संवेदनशील हैं, लेकिन सामान्य रूप से ऐसा नहीं हो सकता है। मैं आपकी टिप्पणी पर विचार करने के लिए उत्तर को संपादित करूंगा और यदि आप चाहें, तो आप इसे संपादित भी कर सकते हैं। बहुत बहुत धन्यवाद :)।
सूफानोम

3
पैरामीटर संवेदनशीलता पर टिप्पणी के लिए +1। यह भी ध्यान देने योग्य है कि एसवीएम को कम करने वाले सिद्धांत का एक हिस्सा एक निश्चित कर्नेल के साथ मॉडल पर लागू होता है, इसलिए जैसे ही आप हाइपर-मापदंडों को अनुकूलित करने का प्रयास करते हैं (जिसे सावधानीपूर्वक किया जाना चाहिए) सैद्धांतिक आधार के अधिकांश अब लागू नहीं होते हैं।
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.