रैखिक एसवीएम वर्गीकरण के लिए स्केलिंग क्यों महत्वपूर्ण है?


15

रैखिक एसवीएम वर्गीकरण का प्रदर्शन करते समय, अक्सर प्रशिक्षण डेटा को सामान्य करने में सहायक होता है, उदाहरण के लिए, औसत विचलन को विभाजित करके और मानक डेटा के माध्यम से परीक्षण डेटा को मापता है। यह प्रक्रिया नाटकीय रूप से वर्गीकरण प्रदर्शन को क्यों बदलती है?


1
इस सवाल का पहले ही जवाब दिया गया है stackoverflow.com/questions/15436367/svm-scaling-input-values
jpmuc

शुक्रिया, जूंपा! हालाँकि, मैं अभी भी स्पष्ट नहीं हूं कि परीक्षण सेट को अपने स्वयं के बजाय प्रशिक्षण सेट के माध्य और एसटीडी के साथ स्केल करने की आवश्यकता क्यों है? कुछ मामलों में, बाद में लगता है कि यूकेली अच्छी तरह से या इससे भी बेहतर प्रदर्शन करती है, जब नमूने के दो वर्ग परीक्षण सेट में अच्छी तरह से संतुलित होते हैं।
किन्हुआ

1
क्योंकि तब आप सुसंगत नहीं हो रहे हैं। आप विभिन्न डेटा पर परीक्षण कर रहे हैं। कल्पना कीजिए कि आप एक गाऊसी एन (म्यू, सिग्मा) से नमूने खींचते हैं। आपने N (0,1) (
सेंटरिंग

जवाबों:


12

मुझे लगता है कि इसे एक उदाहरण के माध्यम से और अधिक स्पष्ट किया जा सकता है। मान लें कि आपके पास दो इनपुट वैक्टर हैं: X1 और X2। और मान लें कि X1 में रेंज (0.1 से 0.8) और X2 की रेंज (3000 से 50000) है। अब आपका SVM क्लासिफायर X1-X2 प्लेन में पड़ी एक रैखिक सीमा होगी। मेरा दावा है कि रैखिक निर्णय सीमा का ढलान X1 और X2 की सीमा पर निर्भर नहीं होना चाहिए, बल्कि अंकों के वितरण पर निर्भर होना चाहिए।

अब बिंदु (0.1, 4000) और (0.8, 4000) पर एक भविष्यवाणी करते हैं। फ़ंक्शन के मूल्य में शायद ही कोई अंतर होगा, इस प्रकार एसवीएम को कम सटीक बना देगा क्योंकि यह एक्स 1 दिशा में बिंदुओं के लिए कम संवेदनशीलता होगी।


7

एसवीएम अलग करने वाले विमान और सहायक वैक्टर के बीच की दूरी को अधिकतम करने की कोशिश करता है। यदि एक विशेषता (यानी इस स्थान में एक आयाम) में बहुत बड़े मूल्य हैं, तो यह दूरी की गणना करते समय अन्य सुविधाओं पर हावी होगा। यदि आप सभी सुविधाओं को पुनर्विक्रय करते हैं (उदाहरण के लिए [0, 1]), तो वे सभी दूरी मीट्रिक पर समान प्रभाव डालती हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.