एसवीएम में आप दो चीजों की खोज कर रहे हैं: सबसे कम न्यूनतम मार्जिन वाला एक हाइपरप्लेन, और एक हाइपरप्लेन जो सही रूप में संभव के रूप में कई उदाहरणों को अलग करता है। समस्या यह है कि आप हमेशा दोनों चीजें प्राप्त नहीं कर पाएंगे। सी पैरामीटर यह निर्धारित करता है कि आपकी इच्छा बाद के लिए कितनी महान है। इसका वर्णन करने के लिए मैंने एक छोटा सा उदाहरण नीचे दिया है। बाईं ओर आपके पास एक कम c है जो आपको एक बहुत बड़ा न्यूनतम मार्जिन (बैंगनी) देता है। हालाँकि, इसके लिए यह आवश्यक है कि हम नीले वृत्त की उपेक्षा करें जिसे हम सही वर्गीकृत करने में विफल रहे हैं। सही पर आप एक उच्च सी। अब आप बाहरी की उपेक्षा नहीं करेंगे और इस तरह बहुत कम मार्जिन के साथ समाप्त होंगे।
तो इनमें से कौन सा क्लासिफायर सर्वश्रेष्ठ है? यह इस बात पर निर्भर करता है कि आप जिस भविष्य के डेटा की भविष्यवाणी करेंगे, वह कैसा दिखता है, और सबसे अधिक बार आप निश्चित रूप से यह नहीं जानते हैं। यदि भविष्य का डेटा ऐसा दिखता है:
तब एक बड़े c मान का उपयोग करके सीखा गया क्लासिफायरियर सबसे अच्छा होता है।
दूसरी ओर, यदि भविष्य का डेटा ऐसा दिखता है:
तब निम्न सी मान का उपयोग करके सीखा गया क्लासिफायरर सर्वश्रेष्ठ है।
आपके डेटा सेट के आधार पर, c बदलने से अलग हाइपरप्लेन का उत्पादन हो सकता है या नहीं भी हो सकता है। यदि यह एक अलग हाइपरप्लेन का उत्पादन करता है , तो इसका मतलब यह नहीं है कि आपका क्लासिफायर विशेष रूप से आपके द्वारा वर्गीकृत करने के लिए उपयोग किए गए डेटा के लिए विभिन्न वर्गों का उत्पादन करेगा। वीकेए डेटा की कल्पना करने और एक एसवीएम के लिए विभिन्न सेटिंग्स के साथ खेलने के लिए एक अच्छा उपकरण है। यह आपको एक बेहतर विचार प्राप्त करने में मदद कर सकता है कि आपका डेटा कैसे दिखता है और क्यों c मान बदलने से वर्गीकरण त्रुटि नहीं बदलती है। सामान्य तौर पर, कुछ प्रशिक्षण उदाहरणों और कई विशेषताओं के होने से डेटा का रैखिक पृथक्करण करना आसान हो जाता है। यह भी तथ्य है कि आप अपने प्रशिक्षण डेटा पर मूल्यांकन कर रहे हैं और नए अनदेखी डेटा अलगाव को आसान नहीं बनाते हैं।
आप किसी मॉडल से किस तरह का डेटा सीखने की कोशिश कर रहे हैं? कितना डाटा? क्या हम इसे देख सकते हैं?