वर्ग असंतुलन की समस्याओं को हल करने के लिए एक लोकप्रिय दृष्टिकोण क्लासिफायरियस को पूर्वाग्रह करना है ताकि यह सकारात्मक उदाहरणों पर अधिक ध्यान दे। यह, उदाहरण के लिए, नकारात्मक वर्ग के सापेक्ष सकारात्मक वर्ग के गर्भपात से जुड़े दंड को बढ़ाकर किया जा सकता है। एक अन्य तरीका यह है कि एक संतुलित डेटासेट बनाने के लिए बहुमत वर्ग की निगरानी करके या अल्पसंख्यक वर्ग को रेखांकित करके डेटा को रोकना है।
हालाँकि, आपके मामले में, वर्ग असंतुलन एक समस्या नहीं है। शायद यह पैरामीटर ट्यूनिंग की बात है, क्योंकि एसवीएम क्लासिफायर के लिए इष्टतम पैरामीटर खोजने के बजाय एक थकाऊ प्रक्रिया हो सकती है। RBF कर्नेल में उदाहरण के लिए दो पैरामीटर हैं:सी तथा γ। यह पहले से ज्ञात नहीं है कि कौन सा हैसी तथा γकिसी समस्या के लिए सर्वश्रेष्ठ हैं; परिणामस्वरूप कुछ प्रकार के मॉडल का चयन (पैरामीटर खोज) किया जाना चाहिए।
डेटा प्रीप्रोसेसिंग चरण में, याद रखें कि SVM के लिए आवश्यक है कि प्रत्येक डेटा इंस्टेंस को वास्तविक संख्याओं के वेक्टर के रूप में दर्शाया जाए। इसलिए, यदि श्रेणीबद्ध विशेषताएँ हैं, तो उन्हें एम-श्रेणी की विशेषता का प्रतिनिधित्व करने के लिए एम संख्या का उपयोग करके (या इसे नए बाइनरी चर के साथ बदलकर) संख्यात्मक डेटा में परिवर्तित करने की सिफारिश की गई है।
इसके अलावा, SVM लगाने से पहले वेरिएबल्स को स्केल करना महत्वपूर्ण होता है, ताकि छोटे न्यूमेरिक रेंज में उन पर हावी होने वाले अधिक न्यूमेरिक रेंज में विशेषताओं से बचा जा सके।
की जाँच करें इस पत्र ।
यदि आप R में काम कर रहे हैं, तो आपूर्ति किए गए पैरामीटर सीमाओं पर ग्रिड खोज का उपयोग करके हाइपरपैरमीटर को ट्यून करने के लिए ट्यून फ़ंक्शन (पैकेज e1071) देखें। फिर, प्लॉट.इन का उपयोग करके , आप नेत्रहीन देख सकते हैं कि मूल्यों का कौन सा सेट छोटी त्रुटि दर देता है।
समय लेने वाली पैरामीटर खोज के आसपास एक शॉर्टकट है। "Svmpath" नामक एक R पैकेज है जो एक बार में 2-वर्ग SVM क्लासिफायर के लिए संपूर्ण नियमितीकरण पथ की गणना करता है। यहां पेपर का लिंक दिया गया है जो बताता है कि यह क्या कर रहा है।
पुनश्च आप इस पेपर को दिलचस्प भी पा सकते हैं: कैलिब्रेटेड प्रायिकता अनुमान प्राप्त करना