मैं समर्थन वेक्टर मशीनों के सामान्यीकरण की क्षमता के लिए सैद्धांतिक परिणामों में रुचि रखता हूं, उदाहरण के लिए वर्गीकरण त्रुटि की संभावना और इन मशीनों के वाप्निक-चेरोवेनेकिस (वीसी) आयाम पर सीमा। हालांकि, साहित्य के माध्यम से पढ़ने से मुझे यह आभास हुआ है कि कुछ इसी तरह के आवर्ती परिणाम लेखक से लेखक के लिए थोड़ा भिन्न होते हैं, विशेष रूप से किसी दिए गए बाध्य के लिए आवश्यक तकनीकी स्थितियों के बारे में।
निम्नलिखित में मैं एसवीएम समस्या की संरचना को याद करूंगा और मुख्य सामान्यीकरण परिणामों के राज्य 3 जो मुझे एक रूप में या किसी अन्य रूप में मिला है मैं पूरे प्रदर्शनी में 3 मुख्य संदर्भ देता हूं।
समस्या सेटिंग :
मान लें कि हमारे पास स्वतंत्र और समान रूप से वितरित (iid) जोड़े का डेटा नमूना है जहां सभी , और । हम एक सपोर्ट वेक्टर मशीन (SVM) का निर्माण करते हैं जो द्वारा परिभाषित अलग-अलग हाइपरप्लेन के बीच न्यूनतम मार्जिन अधिकतम करता है , और , और बीच निकटतम बिंदु और द्वारा परिभाषित दो वर्गों को अलग करने के लिए । हम एसवीएम को सुस्त चर पेश करके नरम मार्जिन के माध्यम से कुछ त्रुटियों को स्वीकार करते हैं - लेकिन सादगी के लिए हम गुठली की संभावना को अनदेखा करते हैं। समाधान पैरामीटर और निम्नलिखित उत्तल द्विघात अनुकूलन कार्यक्रम को हल करके प्राप्त किए जाते हैं:बी ∗
हम इस मशीन की सामान्यीकरण क्षमता में रुचि रखते हैं।
वाप्निक-चेर्वोनेंकिस आयाम :
एक पहला परिणाम (वाप्निक, 2000) के कारण होता है, जिसमें वह एक अलग हाइपरप्लेन के वीसी आयाम को काटता है, प्रमेय 5.1। दे, हमारे पास है:
यह परिणाम फिर से पाया जा सकता है (बर्जेस, 1998), प्रमेय 6. हालांकि, ऐसा लगता है कि बर्गस प्रमेय, वैपनिक द्वारा एक ही परिणाम की तुलना में अधिक प्रतिबंधात्मक है, क्योंकि उसे विशेष श्रेणी के वर्गीकरण को परिभाषित करने की आवश्यकता है, जिसे गैप-टॉलरेट क्लासीफायर के रूप में जाना जाता है। जिससे एसवीएम संबंधित है प्रमेय का वर्णन करने के लिए।
त्रुटियों की संभावना पर सीमा :
(वापनिक, 2000) में, पृष्ठ 139 में प्रमेय 5.2 एसवीएम सामान्यीकरण क्षमता पर निम्नलिखित सीमा देता है:
जहाँ SVM के सपोर्ट वैक्टर की संख्या है। यह परिणाम क्रमशः (बर्ज, 1998), समीकरणों (86) और (93) में फिर से मिल रहे हैं। लेकिन फिर से, बर्गेस को वैपनिक से अलग लगता है क्योंकि वह अलग-अलग प्रमेयों में अलग-अलग स्थितियों के साथ न्यूनतम फ़ंक्शन के भीतर घटकों को अलग करता है।
(Vapnik, 2000), p.133 में दिखाई देने वाला एक और परिणाम निम्नलिखित है। फिर से यह मानते हुए कि, सभी के लिए , और दे और , हम परिभाषित के बराबर होना चाहिए:
हम SVM द्वारा misclassified प्रशिक्षण उदाहरणों की संख्या होने के लिए को भी परिभाषित करते हैं। तब संभावना के साथ हम जोर सकता है कि संभावना है कि एक परीक्षण उदाहरण के द्वारा सही ढंग से अलग नहीं किया जा जाएगा -margin hyperplane यानी SVM के साथ मार्जिन बाध्य किया गया है:
हालाँकि, (हस्ती, तिब्शीरानी और फ्रीडमैन, 2009), पी .438 में, एक बहुत ही समान परिणाम पाया जाता है:
निष्कर्ष :
ऐसा लगता है कि इन परिणामों के बीच कुछ हद तक संघर्ष है। दूसरी ओर, इन संदर्भों में से दो, हालांकि एसवीएम साहित्य में विहित, थोड़ा पुराना (1998 और 2000) होना शुरू होता है, खासकर अगर हम मानते हैं कि एसवीएम एल्गोरिथ्म में अनुसंधान नब्बे के दशक के मध्य में शुरू हुआ था।
मेरे प्रश्न हैं:
- क्या ये परिणाम आज भी मान्य हैं, या वे गलत साबित हुए हैं?
- क्या तब से अपेक्षाकृत ढीली परिस्थितियों के साथ तंग सीमाएं प्राप्त हुई हैं? यदि हां, तो मैं उन्हें किसके द्वारा और कहां से पा सकता हूं?
- अंत में, क्या कोई संदर्भ सामग्री है जो एसवीएम के बारे में मुख्य सामान्यीकरण परिणामों को वर्गीकृत करती है?
संदर्भ :
वापनिक, वीएन (1998)। सांख्यिकीय सीखना सिद्धांत , पहला संस्करण, जॉन विले एंड संस
वापनिक, वीएन (2000)। द नेचरल ऑफ स्टैटिस्टिकल लर्निंग थ्योरी , द्वितीय संस्करण, स्प्रिंगर