मैं वर्तमान में खुद को सिखा रहा हूं कि कैसे वर्गीकरण करना है, और विशेष रूप से मैं तीन तरीकों को देख रहा हूं: वेक्टर मशीनों, तंत्रिका नेटवर्क और लॉजिस्टिक प्रतिगमन का समर्थन करें। मैं यह समझने की कोशिश कर रहा हूं कि लॉजिस्टिक रिग्रेशन कभी भी अन्य दो की तुलना में बेहतर प्रदर्शन करेगा।
लॉजिस्टिक रिग्रेशन की मेरी समझ से, विचार पूरे डेटा के लिए लॉजिस्टिक फ़ंक्शन को फिट करने का है। इसलिए यदि मेरा डेटा द्विआधारी है, तो लेबल 0 के साथ मेरे सभी डेटा को मान 0 (या इसके करीब) पर मैप किया जाना चाहिए, और मूल्य 1 के साथ मेरे सभी डेटा को 1 मान (या इसके करीब) पर मैप किया जाना चाहिए। अब, क्योंकि लॉजिस्टिक फ़ंक्शन निरंतर और सुचारू है, इस प्रतिगमन को निष्पादित करने के लिए वक्र को फिट करने के लिए मेरे सभी डेटा की आवश्यकता होती है; निर्णय सीमा के पास डेटा बिंदुओं पर कोई अधिक महत्व नहीं है, और सभी डेटा बिंदु अलग-अलग मात्रा में नुकसान में योगदान करते हैं।
हालांकि, समर्थन वेक्टर मशीनों और तंत्रिका नेटवर्क के साथ, निर्णय सीमा के पास केवल वे डेटा बिंदु महत्वपूर्ण हैं; जब तक निर्णय सीमा के एक ही तरफ एक डेटा बिंदु रहता है, तब तक यह उसी नुकसान में योगदान देगा।
इसलिए, लॉजिस्टिक रिग्रेशन कभी भी वेक्टर मशीनों या न्यूरल नेटवर्क्स का समर्थन करता है, यह देखते हुए कि यह "बेकार संसाधनों" को बहुत सारे महत्वहीन (आसानी से वर्गीकृत करने योग्य) डेटा को फिट करने की कोशिश पर है, बजाय निर्णय के चारों ओर केवल कठिन डेटा पर केंद्रित है। सीमा?