एसवीएम पर सामान्यीकरण सीमा


11

मैं समर्थन वेक्टर मशीनों के सामान्यीकरण की क्षमता के लिए सैद्धांतिक परिणामों में रुचि रखता हूं, उदाहरण के लिए वर्गीकरण त्रुटि की संभावना और इन मशीनों के वाप्निक-चेरोवेनेकिस (वीसी) आयाम पर सीमा। हालांकि, साहित्य के माध्यम से पढ़ने से मुझे यह आभास हुआ है कि कुछ इसी तरह के आवर्ती परिणाम लेखक से लेखक के लिए थोड़ा भिन्न होते हैं, विशेष रूप से किसी दिए गए बाध्य के लिए आवश्यक तकनीकी स्थितियों के बारे में।

निम्नलिखित में मैं एसवीएम समस्या की संरचना को याद करूंगा और मुख्य सामान्यीकरण परिणामों के राज्य 3 जो मुझे एक रूप में या किसी अन्य रूप में मिला है मैं पूरे प्रदर्शनी में 3 मुख्य संदर्भ देता हूं।

समस्या सेटिंग :

मान लें कि हमारे पास स्वतंत्र और समान रूप से वितरित (iid) जोड़े का डेटा नमूना है जहां सभी , और । हम एक सपोर्ट वेक्टर मशीन (SVM) का निर्माण करते हैं जो द्वारा परिभाषित अलग-अलग हाइपरप्लेन के बीच न्यूनतम मार्जिन अधिकतम करता है , और , और बीच निकटतम बिंदु और द्वारा परिभाषित दो वर्गों को अलग करने के लिए । हम एसवीएम को सुस्त चर पेश करके नरम मार्जिन के माध्यम से कुछ त्रुटियों को स्वीकार करते हैं(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1 -ξ1,,ξn लेकिन सादगी के लिए हम गुठली की संभावना को अनदेखा करते हैं। समाधान पैरामीटर और निम्नलिखित उत्तल द्विघात अनुकूलन कार्यक्रम को हल करके प्राप्त किए जाते हैं:बी wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

हम इस मशीन की सामान्यीकरण क्षमता में रुचि रखते हैं।

वाप्निक-चेर्वोनेंकिस आयाम VC :

एक पहला परिणाम (वाप्निक, 2000) के कारण होता है, जिसमें वह एक अलग हाइपरप्लेन के वीसी आयाम को काटता है, प्रमेय 5.1। दे, हमारे पास है:R=maxxixi

VCmin((Rm)2,p)+1

यह परिणाम फिर से पाया जा सकता है (बर्जेस, 1998), प्रमेय 6. हालांकि, ऐसा लगता है कि बर्गस प्रमेय, वैपनिक द्वारा एक ही परिणाम की तुलना में अधिक प्रतिबंधात्मक है, क्योंकि उसे विशेष श्रेणी के वर्गीकरण को परिभाषित करने की आवश्यकता है, जिसे गैप-टॉलरेट क्लासीफायर के रूप में जाना जाता है। जिससे एसवीएम संबंधित है प्रमेय का वर्णन करने के लिए।

त्रुटियों की संभावना पर सीमा :

(वापनिक, 2000) में, पृष्ठ 139 में प्रमेय 5.2 एसवीएम सामान्यीकरण क्षमता पर निम्नलिखित सीमा देता है:

E[Perror]1nE[min(p,nSV,(Rw)2)]

जहाँ SVM के सपोर्ट वैक्टर की संख्या है। यह परिणाम क्रमशः (बर्ज, 1998), समीकरणों (86) और (93) में फिर से मिल रहे हैं। लेकिन फिर से, बर्गेस को वैपनिक से अलग लगता है क्योंकि वह अलग-अलग प्रमेयों में अलग-अलग स्थितियों के साथ न्यूनतम फ़ंक्शन के भीतर घटकों को अलग करता है।nSV

(Vapnik, 2000), p.133 में दिखाई देने वाला एक और परिणाम निम्नलिखित है। फिर से यह मानते हुए कि, सभी के लिए , और दे और , हम परिभाषित के बराबर होना चाहिए:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

हम SVM द्वारा misclassified प्रशिक्षण उदाहरणों की संख्या होने के लिए को भी परिभाषित करते हैं। तब संभावना के साथ हम जोर सकता है कि संभावना है कि एक परीक्षण उदाहरण के द्वारा सही ढंग से अलग नहीं किया जा जाएगा -margin hyperplane यानी SVM के साथ मार्जिन बाध्य किया गया है:nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

हालाँकि, (हस्ती, तिब्शीरानी और फ्रीडमैन, 2009), पी .438 में, एक बहुत ही समान परिणाम पाया जाता है:

ErrorTestζ

निष्कर्ष :

ऐसा लगता है कि इन परिणामों के बीच कुछ हद तक संघर्ष है। दूसरी ओर, इन संदर्भों में से दो, हालांकि एसवीएम साहित्य में विहित, थोड़ा पुराना (1998 और 2000) होना शुरू होता है, खासकर अगर हम मानते हैं कि एसवीएम एल्गोरिथ्म में अनुसंधान नब्बे के दशक के मध्य में शुरू हुआ था।

मेरे प्रश्न हैं:

  • क्या ये परिणाम आज भी मान्य हैं, या वे गलत साबित हुए हैं?
  • क्या तब से अपेक्षाकृत ढीली परिस्थितियों के साथ तंग सीमाएं प्राप्त हुई हैं? यदि हां, तो मैं उन्हें किसके द्वारा और कहां से पा सकता हूं?
  • अंत में, क्या कोई संदर्भ सामग्री है जो एसवीएम के बारे में मुख्य सामान्यीकरण परिणामों को वर्गीकृत करती है?

संदर्भ :

बर्गेस, जेसी (1998)। "पैटर्न रिकग्निशन के लिए सपोर्ट वेक्टर मशीनों पर एक ट्यूटोरियल", डेटा माइनिंग एंड नॉलेज डिस्कवरी , 2: 121-167

हस्ती, टी।, तिब्शीरानी, ​​आर। और फ्रीडमैन, जे। (2009)। सांख्यिकीय शिक्षण के तत्व , दूसरा संस्करण, स्प्रिंगर

वापनिक, वीएन (1998)। सांख्यिकीय सीखना सिद्धांत , पहला संस्करण, जॉन विले एंड संस

वाप्निक, वीएन (1999)। "सांख्यिकीय शिक्षा सिद्धांत का अवलोकन", तंत्रिका नेटवर्क पर IEEE लेनदेन , 10 (5): 988-999

वापनिक, वीएन (2000)। द नेचरल ऑफ स्टैटिस्टिकल लर्निंग थ्योरी , द्वितीय संस्करण, स्प्रिंगर


एसवीएम के लिए अत्याधुनिक (2008 के रूप में) जोखिम सीमा के संदर्भ में एक संदर्भ: "सपोर्ट वेक्टर मशीनें" (इंगो स्टाइनवर्ट, एंड्रियास क्रिस्टमैन, स्प्रिंगर 2008)
रजिस्टर करें

जवाबों:


3

मैं उस साहित्य को नहीं जानता जिसका आप विस्तार से जिक्र कर रहे हैं, लेकिन मुझे लगता है कि सामान्यीकरण की सीमा का एक व्यापक सारांश जो आज तक होना चाहिए, वह बाउचर एट अल में पाया जा सकता है। (2004) (लिंक: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- कैनबरा-ऑस्ट्रेलिया-फरवरी-2-14-2003-तुएबेन-जर्मनी-अगस्त-4-16-2003-संशोधित-व्याख्यान। पृष्ठ # पृष्ठ = 176 )

मैं निम्नलिखित विवरणों में बंधे SVM ​​के भाग को स्केच करूँगा, विवरणों को छोड़ कर साबित करूँगा।

एसवीएम बाउंड के बारे में विशेष रूप से विस्तृत करने से पहले, हमें यह समझने की आवश्यकता है कि सामान्यीकरण सीमा क्या हासिल करने की कोशिश कर रही है।

पहले हमें यह मान लें कि सच्ची संभावना ज्ञात है, तो सबसे अच्छा संभव क्लासिफायर बेयस क्लासिफायरियर होगा, अर्थात start start case P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

स्टैटिस्टिकल लर्निंग थ्योरी का लक्ष्य अब कक्षा (जैसे SVM) के एक क्लासिफायरियर के बीच का अंतर और बेज़ क्लासिफ़ायर, यानी start ध्यान दें कि डेटा दिया गया अपेक्षित नुकसान है और मॉडल वर्ग में सबसे अच्छा संभव क्लासिफायरियर । शब्द को अनुमान त्रुटि कहा जाता है और अक्सर ध्यान केंद्रित किया जाता है क्योंकि यह सन्निकटन त्रुटि (दूसरी अवधि) की तुलना में बहुत आसान हो सकता है। मैं यहाँ सन्निकटन त्रुटि भी छोड़ दूँगा।C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

अनुमान त्रुटि आगे साथ विघटित हो सकती है अब इसे दो चरणों में बांटा जा सकता है:Z

Z=ZEZ+EZ.
  1. बाउंड McDiarmid असमानता का उपयोग करZEZ

  2. बाउंड साथ जटिलताEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

McDiarmids असमानता का उपयोग करके कोई यह दिखा सकता है कि यदि नुकसान फ़ंक्शन से अधिक नहीं अंतराल में हो रहा है , तो स्टेप वन रिजल्ट ऑफ ए बाउंड ऑफ जहां विश्वास स्तर है। दूसरे चरण के लिए हम दिखा सकते हैं कि यदि आपके पास असतत हानि-कार्य है, अर्थात गैर- Lipschitz जैसे 0-1 -साथ ही, आपको रेडिमैचर कॉम्प्लेक्सिटी को आगे बढ़ाने के लिए कुलपति-आयाम की आवश्यकता होगी। हालाँकि, L- लिपसिट्ज़ फ़ंक्शंस जैसे कि हिंज-लॉस के लिए यह आगे घिरा हो सकता है जहाँB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λनियमित करने वाले को निरूपित करता है। चूंकि काज-हानि और (Gauchy-Schwartz असमानता के साथ साबित होता है) यह आगे सरल करता है। अंत में सभी परिणामों को एक साथ रखते हुए, हम की एक सीमा कर सकते हैं L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.