पहले प्रयास करने के लिए शीर्ष पांच क्लासिफायर


25

जैसे स्पष्ट क्लासिफायर विशेषता

  • कम्प्यूटेशनल लागत,
  • सुविधाओं / लेबल के अपेक्षित डेटा प्रकार और
  • डेटा सेट के कुछ आकारों और आयामों के लिए उपयुक्तता,

शीर्ष पांच (या 10, 20?) एक नए डेटा सेट पर पहले प्रयास करने वाले क्लासिफायर एक के बारे में अभी तक बहुत कुछ नहीं जानते हैं (जैसे शब्दार्थ और व्यक्तिगत विशेषताओं का सहसंबंध)? आमतौर पर मैं Naive Bayes, Nearest Neighbor, Decision Tree और SVM की कोशिश करता हूं - हालांकि मेरे पास इस चयन का कोई और अच्छा कारण नहीं है क्योंकि मैं उन्हें जानता हूं और ज्यादातर यह समझते हैं कि वे कैसे काम करते हैं।

मुझे लगता है कि किसी को ऐसे वर्गीकरण का चयन करना चाहिए जो सबसे महत्वपूर्ण सामान्य वर्गीकरण दृष्टिकोणों को कवर करे । आप उस मापदंड के अनुसार या किसी अन्य कारण से किस चयन की सिफारिश करेंगे?


अद्यतन: इस प्रश्न के लिए एक वैकल्पिक सूत्रीकरण हो सकता है: "वर्गीकरण के लिए कौन से सामान्य दृष्टिकोण मौजूद हैं और कौन से विशिष्ट तरीके सबसे महत्वपूर्ण / लोकप्रिय / आशाजनक हैं?"


मुझे लगता है कि यह ( डिटेल्स.स्टैकएक्सचेंज . com/questions/3458/… ) का डुप्लिकेट है । यहां प्रश्न का एकमात्र अतिरिक्त मूल्य "कक्षा के चयन के लिए मानदंड" हो सकता है (जो प्रश्न को बहुत सामान्य बना देगा)। यदि यह एक डुप्लिकेट है, तो पास के लिए वोट करें, और फिर cw के लिए वोट दें;)
11

@steffen: आपका संदर्भित प्रश्न मददगार है, हालाँकि, मुझे लगता है कि यह कोई डुप्लिकेट नहीं है। दरअसल मेरा सवाल बल्कि सामान्य है। मैं किसी विशेष समस्या के समाधान की तलाश में नहीं हूं, लेकिन सामान्य कारणों से कि किस शिक्षार्थियों का उपयोग करना है - मैं अपने प्रश्न को तदनुसार अपडेट करूंगा।
ओबेन सोन

जवाबों:


21

यादृच्छिक वन

तेज, मजबूत, अच्छी सटीकता, ज्यादातर मामलों में ट्यून करने के लिए कुछ भी नहीं, कोई सामान्यीकरण की आवश्यकता नहीं होती है, कोलीनियरिटी के लिए प्रतिरक्षा, प्रशिक्षण के साइड इफेक्ट के रूप में काफी अच्छी त्रुटि सन्निकटन और उपयोगी महत्व रैंकिंग उत्पन्न करता है, तुच्छ रूप से समानांतर, एक आंख की झपकी में भविष्यवाणी करता है।

कमियां: केएनएन या एनबी जैसे तुच्छ तरीकों की तुलना में धीमी, समान वर्गों के साथ सबसे अच्छा काम करती है, एसवीएम की तुलना में बदतर सटीकता के लिए सख्त रूप से कर्नेल चाल की आवश्यकता होती है, एक कठिन ब्लैक-बॉक्स है, कॉफी नहीं बनाता है।


1
@mbq (+1) वर्ग असंतुलन के बारे में, हम अभी भी बैगिंग के दौरान स्तरीकृत नमूने पर भरोसा कर सकते हैं।
chl

3
@ मकब, कॉफी नहीं बनाते? वहीं एक डील-ब्रेकर है।
कार्डिनल

रैंडम वन के संकेत के लिए धन्यवाद । लेकिन क्या आप उन्हें केवल कोशिश करेंगे? यदि आप परिणामों से खुश नहीं हैं तो क्या होगा? आप किस क्लासिफायर में कोशिश करेंगे? या, अगर कोई पूछता है कि आप क्या जवाब देंगे: "आपने अन्य तरीकों की कोशिश क्यों नहीं की?"
ओबेन सोनने

@ ओनली, मुझे समझ में आया कि आप एक तरह का वन-क्लासिफायर-प्रति-उत्तर पूल बना रहे हैं।

@mbq: वास्तव में नहीं, लेकिन यह इस तरह का एक पूल बन जाता है। संभवतः मैंने अपने आप को प्रश्न में पर्याप्त स्पष्ट नहीं किया। वास्तव में मैं जानना चाहता था कि अलग-अलग सामान्य वर्गीकरण विधियों (अलग-अलग ताकत और कमजोरियों के साथ) को कवर करने के लिए किस वर्ग के सेटर्स को पहले आज़माना चाहिए। मैं हमेशा अपने आप से पूछता हूं कि क्या मुझे और अधिक क्लासिफायर नहीं करने चाहिए। यह जानते हुए कि मैंने पहले से ही सबसे विशिष्ट / आशाजनक दृष्टिकोण का प्रतिनिधित्व करने की कोशिश की थी, यहां मदद मिलेगी। लेकिन इसके लिए मुझे यह जानने की जरूरत है कि कौन से क्लासिफायर का यह सेट सही है। (मैं एक सांख्यिकी विशेषज्ञ होने से बहुत दूर हूं, इसलिए मुझे बताएं कि क्या मेरा दिमाग यहां थोड़ा घुमा हुआ है)
ओबेन सोन

7

गाऊसी प्रक्रिया क्लासिफायरियर (लैप्लस सन्निकटन का उपयोग नहीं करना), अधिमानतः हाइपर-मापदंडों के अनुकूलन के बजाय हाशिए के साथ। क्यूं कर?

  1. क्योंकि वे एक संभावित वर्गीकरण देते हैं
  2. आप एक कर्नेल फ़ंक्शन का उपयोग कर सकते हैं जो आपको गैर-वेक्टर डेटा पर सीधे काम करने और / या विशेषज्ञ ज्ञान को शामिल करने की अनुमति देता है
  3. वे मॉडल को ठीक से फिट करने में अनिश्चितता से निपटते हैं, और आप निर्णय प्रक्रिया के माध्यम से उस अनिश्चितता को प्रचारित कर सकते हैं
  4. आम तौर पर बहुत अच्छा भविष्य कहनेवाला प्रदर्शन।

downsides

  1. धीमा
  2. बहुत स्मृति की आवश्यकता है
  3. बड़े पैमाने पर समस्याओं के लिए अव्यावहारिक।

पहली पसंद हालांकि लॉजिस्टिक रिग्रेशन या रिज रिग्रेशन को नियमित किया जाएगा [फीचर सिलेक्शन के बिना] - ज्यादातर समस्याओं के लिए, बहुत ही सरल एल्गोरिदम अच्छी तरह से काम करते हैं और गलत होने के लिए अधिक कठिन होते हैं (व्यवहार में एल्गोरिदम के बीच प्रदर्शन में अंतर प्रदर्शन के अंतर से छोटा होता है उन्हें चलाने वाले ऑपरेटर के बीच)।


1

अपने आप से जब आप एक नए डेटा सेट के पास पहुँच रहे हैं तो आपको पूरी समस्या को देखना शुरू कर देना चाहिए। सबसे पहले प्रत्येक निरंतर सुविधा के लिए श्रेणीबद्ध सुविधाओं और माध्य और मानक विचलन के लिए एक वितरण प्राप्त करें। फिर:

  • X% से अधिक अनुपलब्ध मान वाली सुविधाएँ हटाएं;
  • जब कोई विशेष मूल्य अधिक हो जाता है तो सापेक्ष विशेषताओं को हटा दें, फिर सापेक्ष आवृत्ति का 90-95%;
  • CV = std / mean <0.1 के साथ निरंतर सुविधाओं को हटाएं;
  • पैरामीटर रैंकिंग प्राप्त करें, उदाहरण के लिए निरंतर और ची-वर्ग के लिए एनोवा;
  • सुविधाओं का एक महत्वपूर्ण सबसेट प्राप्त करें;

फिर मैं आमतौर पर वर्गीकरण तकनीकों को 2 सेटों में विभाजित करता हूं: सफेद बॉक्स और ब्लैक बॉक्स तकनीक। अगर आपको यह जानने की जरूरत है कि 'क्लासिफायर कैसे काम करता है' आपको पहले सेट में चुनना चाहिए, जैसे निर्णय-पेड़ या नियम-आधारित क्लासीफायर।

यदि आपको एक मॉडल का निर्माण किए बिना नए रिकॉर्ड को वर्गीकृत करने की आवश्यकता है, तो उत्सुक शिक्षार्थी को देखना चाहिए, जैसे कि KNN।

उसके बाद मुझे लगता है कि सटीकता और गति के बीच एक सीमा होना बेहतर है: तंत्रिका नेटवर्क एसवीएम की तुलना में थोड़ा धीमा है।

यह मेरी शीर्ष पाँच वर्गीकरण तकनीक है:

  1. निर्णय वृक्ष;
  2. नियम-आधारित क्लासीफायर;
  3. एसएमओ (एसवीएम);
  4. Naive Bayes;
  5. तंत्रिका जाल।

4
-1 बड़े पी छोटे एन के लिए बिल्कुल गलत वर्कफ़्लो, एफएस ओवरफिटिंग की गारंटी है।

1
kNN एक उत्सुक सीखने के बजाय एक उत्सुक नहीं है (जैसा कि आप वास्तव में कुछ भी नहीं करते हैं जब तक कि आपको वास्तव में तब नहीं करना पड़ता है जब वर्गीकृत करने के लिए एक पैटर्न आता है)? क्लासिफायर लागू करने से पहले आप जो भी प्रो-प्रोसेसिंग करते हैं, वह क्लासिफायरियर के बीच के अंतर की तुलना में प्रदर्शन पर बड़ा प्रभाव डालने की संभावना है; सुविधा चयन विशेष रूप से कठिन है (आसानी से अति-फिटिंग की ओर जाता है), और एसवीएम जैसी विधियां आमतौर पर सुविधा चयन के बिना बेहतर प्रदर्शन करती हैं। मैं निश्चित रूप से तंत्रिका नेटवर्क की सिफारिश नहीं करूंगा, अब तक कई संभावित नुकसान भी।
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.