सदिश मशीन के लिए रैखिक कर्नेल और गैर-रेखीय कर्नेल?


45

समर्थन वेक्टर मशीन का उपयोग करते समय, क्या आरबीएफ जैसे रैखिक कर्नेल बनाम नॉनलाइनियर कर्नेल चुनने पर कोई दिशानिर्देश हैं? मैंने एक बार सुना है कि गैर-रैखिक कर्नेल अच्छी तरह से प्रदर्शन नहीं करता है, क्योंकि सुविधाओं की संख्या बड़ी है। क्या इस मुद्दे पर कोई संदर्भ हैं?


1
मेरी समझ से, यह हाथ में समस्या पर आधारित है और व्यवहार में इस तरह के थम्बब्रल्स का उपयोग करना खतरनाक है।
htrahdis

जवाबों:


66

आमतौर पर, निर्णय यह है कि रैखिक या आरबीएफ (उर्फ गॉसियन) कर्नेल का उपयोग करना है या नहीं। विचार करने के लिए दो मुख्य कारक हैं:

  1. रैखिक कर्नेल के लिए अनुकूलन समस्या का समाधान करना बहुत तेज़ है, उदाहरण के लिए LIBLINEAR देखें।
  2. आमतौर पर, सबसे अच्छा भविष्य कहनेवाला प्रदर्शन नॉनलाइन कर्नेल (या कम से कम उतना ही अच्छा) के लिए बेहतर होता है।

यह दिखाया गया है कि रैखिक कर्नेल RBF का एक विकृत संस्करण है , इसलिए रैखिक कर्नेल ठीक से ट्यून किए गए RBF कर्नेल से अधिक सटीक नहीं है। मेरे द्वारा लिंक किए गए पेपर से अमूर्त का उद्धरण देना:

विश्लेषण यह भी इंगित करता है कि यदि गॉसियन कर्नेल का उपयोग करके पूर्ण मॉडल का चयन किया गया है, तो रैखिक एसवीएम पर विचार करने की कोई आवश्यकता नहीं है।

वेक्टर वर्गीकरण (परिशिष्ट C) का समर्थन करने के लिए अंगूठे का एक बुनियादी नियम संक्षेप में NTU के व्यावहारिक मार्गदर्शिका में शामिल किया गया है ।

यदि सुविधाओं की संख्या बड़ी है, तो किसी को उच्च आयामी स्थान पर डेटा मैप करने की आवश्यकता नहीं हो सकती है। यही है, नॉनलाइनर मैपिंग प्रदर्शन में सुधार नहीं करती है। रैखिक कर्नेल का उपयोग करना काफी अच्छा है, और कोई केवल पैरामीटर सी की खोज करता है।

आपका निष्कर्ष कमोबेश सही है लेकिन आपका तर्क पीछे की ओर है। व्यवहार में, रैखिक कर्नेल बहुत अच्छा प्रदर्शन करने के लिए जाता है, जब सुविधाओं की संख्या बड़ी होती है (जैसे कि किसी उच्च आयामी सुविधा स्थान पर मैप करने की आवश्यकता नहीं होती है)। इसका एक विशिष्ट उदाहरण इनपुट वर्गीकरण में हजारों आयामों के साथ दस्तावेज़ वर्गीकरण है।

उन मामलों में, गैर-कर्नेल गुठली जरूरी नहीं कि रैखिक एक से अधिक सटीक हो। इसका मूल रूप से मतलब है कि नॉनलाइन कर्नेल अपनी अपील खो देते हैं: उन्हें पूर्वानुमान प्रदर्शन में कोई फायदा नहीं होने के साथ अधिक संसाधनों को प्रशिक्षित करने की आवश्यकता होती है, इसलिए परेशान क्यों होते हैं।

टी एल; डॉ

हमेशा पहले रैखिक की कोशिश करें क्योंकि यह ट्रेन (और परीक्षण) के लिए तेज़ है। यदि सटीकता पर्याप्त है, तो अच्छी तरह से किए गए काम के लिए खुद को पीठ पर थपथपाएं और अगली समस्या पर आगे बढ़ें। यदि नहीं, तो एक नॉनलाइन कर्नेल आज़माएँ।


1
मेरे पास कर्नेल ट्रिक के लिए यह विवरण है: आंकड़े.stackexchange.com/questions/131138/…

37

एंड्रयू Ng 14:46 से शुरू होने वाले इस वीडियो में अंगूठे के स्पष्टीकरण का एक अच्छा नियम देता है , हालांकि पूरा वीडियो देखने लायक है।

प्रमुख बिंदु

  • रैखिक कर्नेल का उपयोग करें जब सुविधाओं की संख्या टिप्पणियों की संख्या से बड़ी हो।
  • जब टिप्पणियों की संख्या सुविधाओं की तुलना में बड़ी हो, तो गाऊसी कर्नेल का उपयोग करें।
  • यदि गॉसियन कर्नेल का उपयोग करते समय टिप्पणियों की संख्या 50,000 से अधिक है, तो यह एक मुद्दा हो सकता है; इसलिए, एक रैखिक कर्नेल का उपयोग करना चाह सकता है।

सहमत ................
डेटामेंज़

1
लिंक डेड है: मुझे लगता है कि यह वही वीडियो है: youtube.com/watch?v=hDh7jmEGoY0
ihebiheb
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.