द्विआधारी वर्गीकरण समस्या के लिए किस SVM कर्नेल का उपयोग करना है?


9

मैं एक शुरुआत कर रहा हूँ जब यह वेक्टर मशीनों का समर्थन करने के लिए आता है। क्या कुछ दिशानिर्देश हैं जो कहते हैं कि कौन सी कर्नेल (जैसे रैखिक, बहुपद) एक विशिष्ट समस्या के लिए सबसे उपयुक्त है? मेरे मामले में, मुझे वेबपेजों को इस हिसाब से वर्गीकृत करना होगा कि उनमें कुछ विशिष्ट जानकारी है या नहीं, अर्थात मुझे बाइनरी वर्गीकरण की समस्या है।

क्या आप सामान्य रूप से कह सकते हैं कि कौन सा कर्नेल इस कार्य के लिए सबसे उपयुक्त है? या क्या मुझे सबसे अच्छा खोजने के लिए अपने विशिष्ट डेटासेट पर उनमें से कई का प्रयास करना होगा? वैसे, मैं पाइथन लाइब्रेरी का उपयोग कर रहा हूं -सीखें- जो कि libSVM लाइब्रेरी का उपयोग करता है।


आप अपने वेबपृष्ठों का प्रतिनिधित्व कैसे कर रहे हैं? शब्दों का बैग? कर्नेल का चुनाव आपके इनपुट स्थान में आपके द्वारा इच्छित समानता माप पर निर्भर करता है।
14

@Memming हां, मैं बैग-ऑफ-वर्ड्स प्रतिनिधित्व का उपयोग कर रहा हूं। समानता के उपाय से आपका क्या तात्पर्य है? मैं जांच कर रहा हूं कि किसी वेबपृष्ठ में कुछ विशिष्ट प्रकार की जानकारी है या नहीं।
pemistahl

यह ट्यूटोरियल आपको उपयोगी लग सकता है यदि आपने इसे पहले से चेक नहीं किया है ( csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf )। Libsvm में मॉडल और मॉडल मापदंडों के बीच चयन करने के लिए एक अंतर्निहित k- गुना क्रॉस सत्यापन योजना है।
ज़ोरान

@PeterStahl इसके अलावा, यह इस बात पर निर्भर करता है कि आप किस प्रकार की वर्ग सीमाओं की अपेक्षा करते हैं। मेरे पास बैग-ऑफ-वर्ड स्पेस के साथ अनुभव नहीं है, इसलिए मैं आपकी बहुत मदद नहीं कर सकता।
मेमोरियल

जवाबों:


10

आप वास्तव में साहित्य में एक खुले प्रश्न के बारे में सोच रहे हैं। जैसा कि आप कहते हैं, कई प्रकार की गुठली (जैसे, रैखिक, रेडियल आधार फ़ंक्शन, सिग्मोइड, बहुपद) हैं, और अपने वर्गीकरण कार्य को उनके संबंधित समीकरणों द्वारा परिभाषित स्थान में करेंगे। मेरी जानकारी के लिए, किसी ने भी यह निश्चित रूप से नहीं दिखाया है कि एक कर्नेल हमेशा एक प्रकार के पाठ वर्गीकरण कार्य को एक दूसरे पर सबसे अच्छा प्रदर्शन करता है।

एक बात पर विचार करें कि प्रत्येक कर्नेल फ़ंक्शन में 1 या अधिक पैरामीटर हैं जिन्हें आपके डेटा सेट के लिए अनुकूलित करने की आवश्यकता होगी, जिसका अर्थ है, यदि आप इसे ठीक से कर रहे हैं, तो आपके पास एक दूसरा होल्ड-आउट प्रशिक्षण संग्रह होना चाहिए, जिस पर आप कर सकते हैं इन मापदंडों के लिए सर्वोत्तम मूल्यों की जांच करें। (मैं एक दूसरा होल्ड-आउट संग्रह कहता हूं, क्योंकि आपके पास पहले से ही एक होना चाहिए जो आप अपने क्लासिफायरियर द्वारा सर्वश्रेष्ठ इनपुट सुविधाओं का पता लगाने के लिए उपयोग कर रहे हैं।) मैंने एक प्रयोग कुछ समय पहले किया था जिसमें मैंने प्रत्येक के बड़े पैमाने पर अनुकूलन किया था। एक साधारण पाठ्य वर्गीकरण कार्य के लिए इन मापदंडों और पाया कि प्रत्येक कर्नेल यथोचित प्रदर्शन करने के लिए दिखाई दिया, लेकिन अलग-अलग विन्यासों में ऐसा किया। अगर मुझे अपने परिणाम सही रूप से याद हैं, तो सिग्मॉइड ने सबसे अच्छा प्रदर्शन किया, लेकिन बहुत विशिष्ट पैरामीटर ट्यूनिंग पर ऐसा किया - जो मुझे मेरी मशीन को खोजने में एक महीने से अधिक समय लगा।


आपके विचारों के लिए बहुत-बहुत धन्यवाद। मेरी देर से प्रतिक्रिया के लिए क्षमा करें। मैं इस समय अपने मास्टर थीसिस लिख रहा हूं जिसके लिए मुझे एसवीएम ही नहीं, कई क्लासिफायर के लिए परिणामों का मूल्यांकन करने की आवश्यकता है। दुर्भाग्य से, मेरे पास कई पैरामीटर संयोजनों का परीक्षण करने का समय नहीं है। इसलिए मैं शायद रैखिक कर्नेल से चिपक जाऊंगा।
पेमिस्टाहल

सौभाग्य! मुझे लगता है कि यह एक अच्छी कॉल है।
काइल।

7

गाऊसी कर्नेल आज़माएं।

गाऊसी कर्नेल को अक्सर पहले आज़माया जाता है और कई अनुप्रयोगों में सबसे अच्छा कर्नेल बन जाता है (आपके बैग-ऑफ़-वर्ड्स फ़ीचर के साथ) भी। आपको रैखिक कर्नेल को भी आज़माना चाहिए। अच्छे परिणाम देने की उम्मीद न करें, पाठ-वर्गीकरण की समस्याएं गैर-रैखिक होती हैं। लेकिन यह आपको अपने डेटा के लिए एक एहसास देता है और आप इस बारे में खुश हो सकते हैं कि गैर-रैखिकता आपके परिणामों में कितना सुधार करती है।

सुनिश्चित करें कि आप अपनी कर्नेल-चौड़ाई को ठीक से पार कर लें और सोचें कि आप अपनी सुविधाओं (tf-idf आदि) को सामान्य कैसे करना चाहते हैं।

मैं कहूंगा कि आप एक अलग कर्नेल चुनने के बजाय एक बेहतर सुविधा सामान्यीकरण के साथ अपने परिणामों में सुधार कर सकते हैं (अर्थात गॉसियन नहीं)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.