आपके आवेदन के लिए सबसे अच्छा आउट-ऑफ-द-बॉक्स बॉक्स-क्लास क्लासीफायर क्या है? [बन्द है]


15

नियम:

  • प्रति उत्तर एक क्लासिफायरियर
  • अगर आप सहमत हैं तो मतदान करें
  • downvote / डुप्लिकेट निकालें।
  • अपना आवेदन टिप्पणी में रखें

जवाबों:


14

बेतरतीब जंगल

  • आसानी से जटिल संरचना / गैर-संबंध संबंध पर कब्जा कर लेता है
  • चर के पैमाने पर अपरिवर्तनीय
  • श्रेणीबद्ध भविष्यवक्ताओं के लिए डमी चर बनाने की कोई आवश्यकता नहीं है
  • चर चयन की ज्यादा जरूरत नहीं है
  • ओवरफिट करने के लिए अपेक्षाकृत कठिन है

Aptamer सक्रिय रूपांकनों का चयन, वन भूमि की नमी का पूर्वानुमान, अंक OCR, मल्टीस्पेक्ट्रल उपग्रह छवि विश्लेषण, संगीत जानकारी पुनर्प्राप्ति, रसायन विज्ञान ...

13

तार्किक प्रतिगमन :

  • तेज और अधिकांश डेटासेट पर अच्छा प्रदर्शन करते हैं
  • ट्यून करने के लिए लगभग कोई पैरामीटर नहीं है
  • असतत / निरंतर सुविधाओं दोनों को संभालता है
  • मॉडल आसानी से व्याख्या करने योग्य है
  • (बाइनरी वर्गीकरण के लिए वास्तव में प्रतिबंधित नहीं)

शायद धुन के लिए कोई पैरामीटर नहीं है, लेकिन किसी को गैर-रैखिकता को प्रेरित करने के लिए वास्तव में निरंतर चर (परिवर्तन, विभाजन, आदि) के साथ काम करना पड़ता है।
B_Miner

12

समर्थन वेक्टर यंत्र


एसवीएम के बारे में वास्तव में कुछ खास नहीं है , इसके अलावा यह उपयोगकर्ता को नियमितीकरण के बारे में सोचने के लिए मजबूर करता है। अधिकांश व्यावहारिक समस्याओं के लिए [कर्नेल] रिज प्रतिगमन बस के रूप में अच्छी तरह से काम करता है।
डिक्रान मार्सुपियल

2
@dikran मुझे लगता है कि SVM एक बेहतरीन क्लासिफायरियर है क्योंकि यह विरल और आउटलेर्स के लिए मज़बूत है - यह लॉजिस्टिक रिग्रेशन के लिए सही नहीं है! और यही कारण है कि एसवीएम अत्याधुनिक क्लासिफायरियर है। केवल एक समस्या है जो समस्या हो सकती है - समय जटिलता - लेकिन मुझे लगता है कि यह ठीक है।
सनकूलू

@suncoolsu यदि आप स्पार्सिटी चाहते हैं, तो आपको एसवीएम के साथ LASSO के साथ नियमित लॉजिस्टिक रिग्रेशन से अधिक स्पार्सिटी मिलती है। एसवीएम की विरलता नुकसान फ़ंक्शन का एक उप-उत्पाद है, इसलिए आपको उतने नहीं मिलते जितना कि आप एक एल्गोरिथ्म के साथ करते हैं जहां स्पार्सिटी एक डिज़ाइन लक्ष्य है। अक्सर हाइपर-पैरामीटर के इष्टतम मूल्य के साथ (जैसे क्रॉस-मान्यता के माध्यम से चुना जाता है) एसवीएम के विरलता के अधिकांश। एसवीएम नियमित लॉजिस्टिक प्रतिगमन की तुलना में आउटलेर्स के लिए अधिक मजबूत नहीं है - यह ज्यादातर नियमितीकरण है जो मायने रखता है, न कि काज हानि।
डिक्रान मार्सुपियल

@ डिकन - मेरी बात बिल्कुल - किसी तरह का दंड महत्वपूर्ण है। आप पा सकते हैं कि Priors का उपयोग करके, दंड आदि जोड़कर
suncoolsu

1
@suncoolsu जिस स्थिति में, SVM एक महान क्लासिफायरियर नहीं है, यह कई नियमित क्लासिफायरफायरों में से एक है, जैसे रिज रिग्रेशन, नियमित लॉजिस्टिक रिग्रेशन, गॉसियन प्रॉसेस। एसवीएम का मुख्य लाभ कम्प्यूटेशनल सीखने के सिद्धांत से इसकी अपील है। व्यवहार में, अन्य विचार अधिक महत्वपूर्ण हैं, जैसे कि क्या आपको संभाव्य वर्गीकरणकर्ता की आवश्यकता है, जहां अन्य नुकसान कार्यों के बेहतर होने की संभावना है। IMHO, कर्नेल विधियों के व्यापक परिवार के बजाय SVM पर बहुत अधिक ध्यान दिया जाता है।
डिक्रान मार्सुपियल

7

शोर डेटा के साथ पर्यवेक्षित समस्याओं के लिए नियमित रूप से भेदभाव करने वाला

  1. कम्प्यूटेशनल रूप से कुशल
  2. डेटा में शोर और आउटलेयर के लिए मजबूत
  3. दोनों रैखिक विवेचक (एलडी) और द्विघात विभेदक (क्यूडी) क्लासिफायरियर को एक ही कार्यान्वयन से प्राप्त किया जा सकता है जो एलडी क्लासिफायर के लिए नियमितीकरण मापदंडों '[लैम्ब्डा, आर]' से '[1 0]' और '[0 0]' के लिए निर्धारित किया जा सकता है। क्यूडी क्लासिफायरियर - संदर्भ उद्देश्यों के लिए बहुत उपयोगी है।
  4. मॉडल की व्याख्या और निर्यात करना आसान है
  5. विरल और 'विस्तृत' डेटा सेट के लिए अच्छी तरह से काम करता है जहाँ कक्षा सहसंयोजक मैट्रिक्स अच्छी तरह से परिभाषित नहीं किया जा सकता है।
  6. प्रत्येक वर्ग के लिए विभेदक मानों के लिए सॉफ्टमैक्स फ़ंक्शन को लागू करके प्रत्येक नमूने के लिए पश्चगामी वर्ग संभाव्यता का अनुमान लगाया जा सकता है।

फ्रीडमैन एट अल द्वारा मूल 1989 के पेपर को यहां लिंक करें । इसके अलावा, कुन्चेवा ने अपनी पुस्तक "कॉम्बिनेशन पैटर्न क्लासीफायर " में बहुत अच्छी व्याख्या की ।


5

ग्रेडिएंट बूस्टेड पेड़।

  • कम से कम बहुत सारे अनुप्रयोगों पर आरएफ के रूप में सटीक
  • लापता मूल्यों को मूल रूप से शामिल करता है
  • वर महत्व (जैसे आरएफ शायद निरंतर और कई स्तर के नाममात्र के पक्षपाती हैं)
  • आंशिक निर्भरता वाले भूखंड
  • GBM बनाम R में यादृच्छिक: MUCH बड़े डेटासेट को संभालता है

4

गाऊसी प्रक्रिया क्लासिफायरियर - यह संभाव्य भविष्यवाणियां देता है (जो तब उपयोगी होता है जब आपके परिचालन संबंधी वर्ग की आवृत्तियां आपके प्रशिक्षण सेट में उन लोगों से भिन्न होती हैं, या आपकी झूठी-सकारात्मक / झूठी-नकारात्मक लागतों के समतुल्य अज्ञात या परिवर्तनशील होती हैं)। यह एक फाइनेंशियल डेटासेट से "मॉडल का अनुमान लगाने" में अनिश्चितता के कारण मॉडल भविष्यवाणियों में अनिश्चितता का एक अनुमान भी प्रदान करता है। सह-विचरण समारोह एसवीएम में कर्नेल फ़ंक्शन के बराबर है, इसलिए यह सीधे गैर-वेक्टर डेटा (जैसे तार या ग्राफ़ आदि) पर भी काम कर सकता है। गणितीय ढांचा भी साफ-सुथरा है (लेकिन लाप्लास सन्निकटन का उपयोग नहीं करते हैं)। सीमांत संभावना को अधिकतम करने के माध्यम से स्वचालित मॉडल का चयन।

लॉजिस्टिक रिग्रेशन और एसवीएम की अच्छी विशेषताओं को अनिवार्य रूप से जोड़ती है।


क्या आर पैकेज है कि आप इसे लागू करने की सलाह देते हैं? इस पद्धति के लिए आपका पसंदीदा कार्यान्वयन क्या है? धन्यवाद!
17

मुझे डर है कि मैं एक MATLAB उपयोगकर्ता हूँ (मैं GPML पैकेज का उपयोग कर रहा हूँ gaussianprocess.org/gpml/code/matlab/doc ), तो मैं आर कार्यान्वयन के बारे में सलाह नहीं दे सकता, लेकिन आप यहां उपयुक्त कुछ मिल सकता है gaussianprocess.org/# कोड । यदि R में GP के लिए एक अच्छा पैकेज नहीं है, तो किसी को एक लिखने की आवश्यकता है!
डिक्रान मार्सुपियल

ठीक है धन्यवाद। क्या यह कार्यप्रणाली किसी को "महत्वपूर्ण चर" का चयन करने की अनुमति देती है, जैसे कि यादृच्छिक जंगलों के परिवर्तनीय महत्व या SVM के साथ पुनरावर्ती सुविधा का उन्मूलन?
जूलियट

हां, आप एक "स्वचालित प्रासंगिकता निर्धारण" सहसंयोजक फ़ंक्शन का उपयोग कर सकते हैं, और मॉडल के लिए बायेसियन सबूत को अधिकतम करके हाइपर-मापदंडों का चयन कर सकते हैं (हालांकि यह एसवीएमएस के साथ एक ही तरह की ओवर-फिटिंग समस्याओं में चल सकता है, इसलिए अक्सर मॉडल चयन सुविधा के बिना बेहतर प्रदर्शन करता है)।
डिक्रान मार्सुपियल

4

एल 1-नियमित लॉजिस्टिक प्रतिगमन।

  • यह कम्प्यूटेशनल रूप से तेज है।
  • इसकी एक सहज व्याख्या है।
  • इसमें केवल एक आसानी से समझ में आने वाला हाइपरपैरमीटर है जिसे स्वचालित रूप से क्रॉस-वेलिडेशन द्वारा ट्यून किया जा सकता है, जो अक्सर जाने का एक अच्छा तरीका है।
  • इसके गुणांक कृंतक रैखिक हैं और हाइपरपरमीटर के साथ उनका संबंध तुरंत और सरल भूखंड में आसानी से दिखाई देता है।
  • यह चर चयन के लिए कम संदिग्ध तरीकों में से एक है।
  • इसके अलावा यह एक बहुत अच्छा नाम है।

+1 हाइपर-पैरामीटर को विश्लेषणात्मक रूप से भी एकीकृत किया जा सकता है, इसलिए कई अनुप्रयोगों के लिए क्रॉस-सत्यापन की कोई वास्तविक आवश्यकता नहीं है, उदाहरण के लिए देखें theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf और जैव सूचना विज्ञान .oxfordjournals.org / सामग्री / 22/19 / 2348.full.pdf
डिक्रान मार्सुपियल

3

KNN


3

Naive Bayes और रैंडम Naive Bays


2
क्या आप एक समस्या का वर्णन दे सकते हैं जहां आरएनबी ने आपको अच्छे परिणाम दिए हैं?
कसुज ल्यू

No ;-) This was only to revive the pool.

1

K-means clustering for unsupervised learning.


The question specifically asks for a classifier.
Prometheus
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.