एसवीएम को वर्गीकरण संभावनाओं के रूप में व्याख्या करना गलत क्यों है?


11

एसवीएम की मेरी समझ यह है कि यह एक लॉजिस्टिक रिग्रेशन (LR) के समान है, अर्थात सुविधाओं का एक भारित योग सिग्मॉइड फ़ंक्शन को एक वर्ग से संबंधित होने की संभावना प्राप्त करने के लिए दिया जाता है, लेकिन इसके बजाय क्रॉस-एन्ट्रॉपी (लॉजिस्टिक) नुकसान समारोह, प्रशिक्षण काज नुकसान का उपयोग करके किया जाता है। काज हानि का उपयोग करने का लाभ यह है कि कर्नेल को अधिक कुशल बनाने के लिए व्यक्ति विभिन्न संख्यात्मक चालें कर सकता है। हालाँकि, एक कमी यह है कि परिणामी मॉडल में संबंधित LR मॉडल की तुलना में कम जानकारी हो सकती है। इसलिए, उदाहरण के लिए, बिना कर्नेलिएशन (एक रैखिक कर्नेल का उपयोग करके) एसवीएम निर्णय की सीमा अभी भी उसी स्थान पर होगी जहां एलआर 0.5 की संभावना का उत्पादन करेगा, लेकिन कोई यह नहीं बता सकता है कि कक्षा से संबंधित की संभावना कितनी जल्दी दूर हो जाती है। निर्णय सीमा।

मेरे दो प्रश्न हैं:

  1. क्या मेरी व्याख्या सही है?
  2. काज हानि के उपयोग से एसवीएम परिणामों को संभाव्यता के रूप में व्याख्या करने के लिए यह कैसे अमान्य हो जाता है?

जवाबों:


8

एक एसवीएम एक सिग्माइड फ़ंक्शन में कुछ भी नहीं खिलाता है। यह डेटा के लिए एक अलग हाइपरप्लेन को फिट करता है जो आपके प्रशिक्षण सेट से सभी डेटा बिंदुओं को रखने की कोशिश करता है जो एक तरफ एक वर्ग के होते हैं, और दूसरी कक्षा के सभी बिंदुओं पर। नतीजतन, यह वर्ग बताता है कि आपका फ़ीचर वेक्टर किस ओर है। औपचारिक रूप से, यदि हम फीचर वेक्टर को और हाइपरप्लेन गुणांक को और में इंटरसेप्ट करते हैं, तो क्लास असाइनमेंट । एक SVM राशियों को खोजने के लिए को खोजने के लिएxββ0y=sign(βx+β0)β,β0जो सबसे बड़ी संभावित मार्जिन के साथ काज हानि को कम करता है। इसलिए, क्योंकि एक एसवीएम केवल इस बात की परवाह करता है कि आप किस हाइपरप्लेन के किनारे पर हैं, आप इसके क्लास असाइनमेंट को संभावनाओं में नहीं बदल सकते।

रैखिक एसवीएम (कोई कर्नेल नहीं) के मामले में, निर्णय सीमा एक लॉजिस्टिक रिग्रेशन मॉडल के समान होगी, लेकिन आप एसवीएम को फिट करने के लिए उपयोग किए जाने वाले नियमितीकरण की ताकत के आधार पर भिन्न हो सकते हैं। क्योंकि SVM और LR विभिन्न अनुकूलन समस्याओं को हल करते हैं, इसलिए आपको निर्णय सीमा के लिए समान समाधान की गारंटी नहीं है।

एसवीएम के बारे में कई संसाधन हैं जो चीजों को स्पष्ट करने में मदद करेंगे: यहां एक उदाहरण है, और एक अन्य


हिग्स बोसोन यह बहुत उपयोगी है, धन्यवाद! बस कुछ अनुवर्ती प्रश्न: (1) क्या आप कोई सहज उदाहरण दे सकते हैं जब एक SVM निर्णय सीमा LR के लिए नहीं होगी? (2) रैखिक SVM और LR में से एक आम तौर पर दूसरे की तुलना में बेहतर है, या हैं? समस्याओं के प्रकार जिनके लिए या तो बेहतर है?
जिंजरब्रेड

2
एलेक्स: सामान्य तौर पर, रैखिक एसवीएम और एलआर आमतौर पर व्यवहार में तुलनात्मक रूप से प्रदर्शन करते हैं। यदि आप एक संभाव्य आउटपुट चाहते हैं, तो LR का उपयोग करें। यदि आप केवल क्लास असाइनमेंट की परवाह करते हैं, तो आप या तो उपयोग कर सकते हैं। यदि आप एक उदाहरण चाहते हैं जहां उनकी निर्णय सीमाएं बहुत भिन्न होंगी, तो आप निर्णय सीमा से दूर गलत वर्ग के मुट्ठी भर बिंदुओं के साथ एक रेखीय रूप से वियोज्य डेटा की कल्पना कर सकते हैं। बाहरी लोग लॉजिस्टिक रिग्रेशन सीमा को अपनी ओर खींचते हैं, लेकिन अगर आपके पास पर्याप्त बड़े नियमितीकरण शब्द के साथ एक एसवीएम है, तो यह प्रभावी रूप से आउटलेर्स की उपेक्षा करेगा।
हिग्स ब्रॉसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.