मान लीजिए मैं कुछ वर्गीकरण समस्या पर काम कर रहा हूं। (धोखाधड़ी का पता लगाना और टिप्पणी करना दो समस्याएं हैं जो मैं अभी काम कर रहा हूं, लेकिन मैं सामान्य रूप से किसी भी वर्गीकरण कार्य के बारे में उत्सुक हूं।)
मुझे कैसे पता चलेगा कि मुझे किस क्लासिफायर का उपयोग करना चाहिए?
- निर्णय वृक्ष
- SVM
- बायेसियन
- तंत्रिका नेटवर्क
- K- निकटतम पड़ोसी
- क्यू-लर्निंग
- जन्म प्रमेय
- मार्कोव निर्णय प्रक्रियाएं
- संवादी तंत्रिका नेटवर्क
- रैखिक प्रतिगमन या लॉजिस्टिक प्रतिगमन
- बूस्टिंग, बैगिंग, दासता
- बेतरतीब पहाड़ी चढ़ाई या नकली annealing
- ...
किन मामलों में इनमें से एक "प्राकृतिक" पहली पसंद है, और उस एक को चुनने के लिए क्या सिद्धांत हैं?
मेरे द्वारा खोजे जा रहे जवाबों के प्रकार (मैनिंग एट अल। इंट्रोडक्शन टू इंफॉर्मेशन रिट्रीवल बुक):
ए। यदि आपका डेटा लेबल किया गया है, लेकिन आपके पास केवल एक सीमित राशि है, तो आपको उच्च पूर्वाग्रह के साथ एक क्लासिफायरफ़ायर का उपयोग करना चाहिए (उदाहरण के लिए, बेव बेयर) ।
मैं यह अनुमान लगा रहा हूं क्योंकि उच्च-पूर्वाग्रह वाले क्लासिफायरियर में कम विचरण होगा, जो कि कम मात्रा में डेटा के कारण अच्छा है।
ख। यदि आपके पास एक टन डेटा है, तो क्लासिफायर वास्तव में इतना अधिक मायने नहीं रखता है, इसलिए आपको शायद केवल अच्छे स्केलेबिलिटी वाला क्लासिफायर चुनना चाहिए।
अन्य दिशानिर्देश क्या हैं? यहां तक कि जैसे उत्तर "यदि आपको अपने मॉडल को किसी ऊपरी प्रबंधन वाले व्यक्ति को समझाना होगा, तो शायद आपको निर्णय पेड़ का उपयोग करना चाहिए, क्योंकि निर्णय नियम काफी पारदर्शी हैं"। मैं कार्यान्वयन / पुस्तकालय मुद्दों के बारे में कम परवाह करता हूं, हालांकि।
मानक बायेसियन क्लासिफायर के अलावा, कुछ अलग प्रश्न के लिए, टिप्पणी स्पैम पहचान (ईमेल स्पैम के विपरीत) के लिए 'मानक राज्य के अत्याधुनिक' तरीके हैं?