बाइनरी वर्गीकरण एल्गोरिदम चुनें


17

मुझे बाइनरी वर्गीकरण की समस्या है:

  • प्रशिक्षण सेट में लगभग 1000 नमूने
  • बाइनरी, न्यूमेरिक और श्रेणीबद्ध सहित 10 विशेषताएँ

इस प्रकार की समस्या के लिए कौन सा एल्गोरिदम सबसे अच्छा विकल्प है?

डिफ़ॉल्ट रूप से मैं एसवीएम के साथ शुरू करने जा रहा हूं (प्रारंभिक में नाममात्र गुण मान द्विआधारी सुविधाओं में परिवर्तित हो गए हैं), क्योंकि यह अपेक्षाकृत स्वच्छ और शोर डेटा के लिए सबसे अच्छा माना जाता है।

जवाबों:


15

यह कहना मुश्किल है कि आपके डेटासेट के बारे में कुछ और जानने के बिना, और आपका डेटासेट आपके फीचर वेक्टर पर कितना अलग है, लेकिन मैं आपके अपेक्षाकृत छोटे नमूने सेट के कारण मानक यादृच्छिक जंगलों पर अत्यधिक यादृच्छिक वन का उपयोग करने का सुझाव दूंगा।

चरम यादृच्छिक वन मानक अपवाद वाले वन के समान सुंदर हैं, एक अपवाद है कि पेड़ों पर विभाजन को अनुकूलित करने के बजाय, अत्यधिक यादृच्छिक वन यादृच्छिक पर विभाजन बनाता है। प्रारंभ में यह एक नकारात्मक की तरह प्रतीत होगा, लेकिन इसका आम तौर पर मतलब है कि आपके पास सामान्यीकरण और गति में काफी सुधार है, हालांकि आपके प्रशिक्षण सेट पर एयूसी थोड़ा खराब होने की संभावना है।

इस तरह के कार्यों के लिए लॉजिस्टिक रिग्रेशन भी एक बहुत ठोस शर्त है, हालांकि आपकी अपेक्षाकृत कम आयामीता और छोटे नमूने के आकार के साथ मुझे ओवरफिटिंग के बारे में चिंता होगी। आप K- निकटतम पड़ोसियों का उपयोग करके जांचना चाह सकते हैं क्योंकि यह अक्सर कम आयामीताओं के साथ बहुत अच्छा प्रदर्शन करता है, लेकिन यह आमतौर पर श्रेणीबद्ध चर को बहुत अच्छी तरह से नहीं संभालता है।

यदि मुझे समस्या के बारे में अधिक जानकारी के बिना किसी को चुनना था, तो मैं निश्चित रूप से अत्यधिक यादृच्छिक वन पर अपना दांव लगाऊंगा, क्योंकि इस तरह के डेटासेट पर आपको अच्छा सामान्यीकरण देने की बहुत संभावना है, और यह संख्यात्मक और श्रेणीबद्ध डेटा के मिश्रण को भी बेहतर ढंग से संभालता है। अन्य तरीकों की तुलना में।


अच्छा धन्यवाद! हालांकि अभी तक निश्चित नहीं है कि मैं ERF उत्पन्न करने के लिए R पैकेज "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) का उपयोग कर सकता हूं । शायद ऩही।
इहारस

12

कम मापदंडों के लिए, बहुत सीमित नमूना आकार, और एक द्विआधारी क्लासिफायर लॉजिस्टिक प्रतिगमन पर्याप्त शक्तिशाली होना चाहिए। आप एक अधिक उन्नत एल्गोरिथ्म का उपयोग कर सकते हैं लेकिन यह संभवतः ओवरकिल है।


5

जब श्रेणीबद्ध चर मिक्स में होते हैं, तो मैं यादृच्छिक निर्णय वन के लिए पहुंचता हूं, क्योंकि यह 1-एन-एन एन्कोडिंग परिवर्तन के बिना सीधे श्रेणीबद्ध चर को संभालता है। इससे जानकारी कम होती है।


5

रैखिक एसवीएम एक अच्छा प्रारंभिक बिंदु होना चाहिए। सही अनुमान लगाने वाले को चुनने के लिए इस गाइड पर एक नज़र डालें ।


2

पहले जटिल तरीकों के उपयोग की अनुशंसा नहीं करेंगे। प्रारंभ में (kNN, NBC, आदि) तेजी से सरल दृष्टिकोणों का उपयोग करें, फिर रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, LDA, कार्ट (RF), KREG के माध्यम से प्रगति करें और फिर कम से कम एसवीएम, ग्रेडिएंट एसेंट एसवीएम, एएनएन और फिर मेटाह्यूरस्टिक्स (लालची) GA, झुंड खुफिया, चींटी कॉलोनी अनुकूलन, आदि के साथ पहाड़ी पहाड़ी चढ़ाई

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.