आमतौर पर, निर्णय यह है कि रैखिक या आरबीएफ (उर्फ गॉसियन) कर्नेल का उपयोग करना है या नहीं। विचार करने के लिए दो मुख्य कारक हैं:
- रैखिक कर्नेल के लिए अनुकूलन समस्या का समाधान करना बहुत तेज़ है, उदाहरण के लिए LIBLINEAR देखें।
- आमतौर पर, सबसे अच्छा भविष्य कहनेवाला प्रदर्शन नॉनलाइन कर्नेल (या कम से कम उतना ही अच्छा) के लिए बेहतर होता है।
यह दिखाया गया है कि रैखिक कर्नेल RBF का एक विकृत संस्करण है , इसलिए रैखिक कर्नेल ठीक से ट्यून किए गए RBF कर्नेल से अधिक सटीक नहीं है। मेरे द्वारा लिंक किए गए पेपर से अमूर्त का उद्धरण देना:
विश्लेषण यह भी इंगित करता है कि यदि गॉसियन कर्नेल का उपयोग करके पूर्ण मॉडल का चयन किया गया है, तो रैखिक एसवीएम पर विचार करने की कोई आवश्यकता नहीं है।
वेक्टर वर्गीकरण (परिशिष्ट C) का समर्थन करने के लिए अंगूठे का एक बुनियादी नियम संक्षेप में NTU के व्यावहारिक मार्गदर्शिका में शामिल किया गया है ।
यदि सुविधाओं की संख्या बड़ी है, तो किसी को उच्च आयामी स्थान पर डेटा मैप करने की आवश्यकता नहीं हो सकती है। यही है, नॉनलाइनर मैपिंग प्रदर्शन में सुधार नहीं करती है। रैखिक कर्नेल का उपयोग करना काफी अच्छा है, और कोई केवल पैरामीटर सी की खोज करता है।
आपका निष्कर्ष कमोबेश सही है लेकिन आपका तर्क पीछे की ओर है। व्यवहार में, रैखिक कर्नेल बहुत अच्छा प्रदर्शन करने के लिए जाता है, जब सुविधाओं की संख्या बड़ी होती है (जैसे कि किसी उच्च आयामी सुविधा स्थान पर मैप करने की आवश्यकता नहीं होती है)। इसका एक विशिष्ट उदाहरण इनपुट वर्गीकरण में हजारों आयामों के साथ दस्तावेज़ वर्गीकरण है।
उन मामलों में, गैर-कर्नेल गुठली जरूरी नहीं कि रैखिक एक से अधिक सटीक हो। इसका मूल रूप से मतलब है कि नॉनलाइन कर्नेल अपनी अपील खो देते हैं: उन्हें पूर्वानुमान प्रदर्शन में कोई फायदा नहीं होने के साथ अधिक संसाधनों को प्रशिक्षित करने की आवश्यकता होती है, इसलिए परेशान क्यों होते हैं।
टी एल; डॉ
हमेशा पहले रैखिक की कोशिश करें क्योंकि यह ट्रेन (और परीक्षण) के लिए तेज़ है। यदि सटीकता पर्याप्त है, तो अच्छी तरह से किए गए काम के लिए खुद को पीठ पर थपथपाएं और अगली समस्या पर आगे बढ़ें। यदि नहीं, तो एक नॉनलाइन कर्नेल आज़माएँ।