क्या मौजूदा एसवीएम मॉडल में प्रशिक्षण डेटा जोड़ना संभव है?


14

मैं libsvm का उपयोग कर रहा हूं और मैंने देखा कि हर बार मैं svmtrain () को कॉल करता हूं, मैं एक नया मॉडल बनाता हूं और लगता है कि मौजूदा मॉडल में डेटा डालने का कोई विकल्प नहीं है। क्या ऐसा करना संभव है? क्या मैं इस पहलू को केवल लिबस्व में नहीं देख रहा हूँ?


मुझे यकीन नहीं है कि 'मौजूदा मॉडल में डेटा डालें' से आपका क्या मतलब है? क्या आप कुछ अन्य तकनीक (एसवीएम नहीं) का उदाहरण दे सकते हैं जो आपको ऐसा करने की अनुमति देती है? उदाहरण के लिए लीजिए लॉजिस्टिक रिग्रेशन; यदि आप नया डेटा जोड़ते हैं, तो आपको मौजूदा सेट पर पुन: प्रशिक्षित सह-प्रभावकारों का एक नया सेट मिलेगा, जिसके संदर्भ में डेटा 'नया' या 'पुराना' है, यह सब सिर्फ प्रशिक्षण डेटा है। मुझे लगता है कि यदि आप एक ग्रेडिएंट डिसेंट टाइप सॉल्वर का उपयोग कर रहे हैं, तो आप पहले से अनुकूलित मानों पर आरंभ करके समय बचा सकते हैं, जो संभवतः नए समाधान के करीब होगा। क्या तुम्हारे कहने का मतलब यही था?
बोगदानोविस्ट

जवाबों:


17

ऐसा लगता है कि आप "वृद्धिशील" या "ऑनलाइन" लर्निंग एल्गोरिदम की तलाश कर रहे हैं। ये एल्गोरिदम आपको नए उदाहरणों के साथ एक क्लासिफायर अपडेट करने देता है, बिना स्क्रैच से पूरी चीज को हटाए।

यह निश्चित रूप से समर्थन वेक्टर मशीनों के साथ संभव है, हालांकि मेरा मानना ​​है कि libSVM वर्तमान में इसका समर्थन नहीं करता है। यह कई अन्य पैकेजों पर एक नज़र डालने के लायक हो सकता है जो इसे प्रदान करते हैं, जिसमें शामिल हैं

PS: @Bogdanovist: इस पर एक बहुत व्यापक साहित्य है। केएनएन स्पष्ट रूप से और मामूली रूप से वृद्धिशील है। संभावना के बजाय मायने रखता भंडारण द्वारा वृद्धिशील classifiers में एक (कुछ) Bayesian classifiers बारी कर सकते हैं। STAGGER, AQ * और आईडी ट्री के कुछ (लेकिन सभी नहीं) निर्णय वृक्ष एल्गोरिदम के परिवार भी मेरे सिर के ऊपर से वृद्धिशील हैं।


1
दिलचस्प है, सिर के लिए धन्यवाद। मैंने 'ऑनलाइन' शब्द को पहले देखा था, लेकिन तकनीकी महत्व को महसूस नहीं किया था (मुझे लगा कि इसका शाब्दिक अर्थ है 'खतरनाक इंटरनेट')।
बोगदानोविस्ट

मदद करने में खुशी! मुझे इसका उल्लेख करना चाहिए था, लेकिन कुछ ऑनलाइन / वृद्धिशील एल्गोरिदम वास्तव में "नवीनतम" उदाहरणों के लिए अधिक वजन देते हैं, जो आपके आवेदन के आधार पर उपयोगी हो सकता है या नहीं भी हो सकता है (उदाहरण के लिए, ट्विटर विषयों की भविष्यवाणी के लिए महान, कैंसर के लिए कम भयानक अनुसंधान)।
मैट क्राऊस

12

ऑनलाइन / वृद्धिशील एसवीएम उपयोगिताओं में से अधिकांश रैखिक कर्नेल के लिए हैं और मुझे लगता है कि यह उतना मुश्किल नहीं है जितना गैर-रैखिक कर्नेल के लिए है।

वर्तमान में उपलब्ध कुछ उल्लेखनीय ऑनलाइन / वृद्धिशील SVM टूल:
+ लियोन बोटस का LaSVM : यह रैखिक और गैर-रेखीय कर्नेल दोनों का समर्थन करता है। C ++ कोड
+ बोर्डस का लैंक : यह रैखिक और गैर-रेखीय दोनों गुठली का समर्थन करता है। C ++ कोड। ऐसा लगता है कि लिंक अब टूट गया है :-(
+ Gert Cauwenberghs 'कोड वृद्धिशील और विकृति : रैखिक और nonlinear गुठली दोनों का समर्थन करता है। Matlab कोड।
+ Chris Diehl's Incremental SVM Learning : रैखिक और गैर-रेखीय गुठली दोनों का समर्थन करता है। Matlab कोड
+ Alistairairशिल्टन की SVMHeavy : केवल बाइनरी वर्गीकरण और प्रतिगमन। C ++ कोड
+ फ्रांसेस्को पेरेला की OnlineSVR: केवल प्रतिगमन। मतलाब और सी ++।
+ पेगासॉस : रैखिक और nonlinear दोनों। सी और मतलाब कोड। एक जावा इंटरफ़ेस
+ लैंगफोर्ड का वोवपाल वैबिट : निश्चित नहीं :-(
+ कोबी क्रैमर का MCSVM : रैखिक और गैर-रेखीय दोनों। C कोड

एक अधिक अद्यतन सूची मेरे Quora उत्तर पर पाई जा सकती है ।


(+1) साइट पर आपका स्वागत है। यह काफी संपूर्ण सूची है! :)
कार्डिनल

4

एक अन्य संभावना अल्फा-सीडिंग है । मुझे नहीं पता कि libSVM इसका समर्थन करता है या नहीं। विचार प्रशिक्षण डेटा की एक बड़ी राशि को विखंडू में विभाजित करना है। फिर आप पहले चंक पर एक एसवीएम को प्रशिक्षित करते हैं। परिणामस्वरूप समर्थित वैक्टर आपके डेटा के कुछ नमूनों के अलावा कुछ नहीं हैं, आप उन्हें लेते हैं और अगले चंक के साथ अपने एसवीएम को प्रशिक्षित करने के लिए उनका उपयोग करते हैं। इसके अलावा, आप उस SVM का उपयोग अगले पुनरावृत्ति (सीडिंग) के लिए अल्फा मानों के प्रारंभिक अनुमान की गणना करने के लिए करते हैं। इसलिए, लाभ दो गुना हैं: प्रत्येक समस्या छोटी है और स्मार्ट आरंभीकरण के माध्यम से वे और भी तेजी से परिवर्तित होते हैं। इस तरह आप क्रमिक रूप से सरल चरणों की एक श्रृंखला को हल करने में एक बड़ी समस्या को सरल करते हैं।


क्या इस विधि को लागू करने में कोई पुस्तकालय है?
d.putto

जाहिरा तौर पर libsvm पहले से ही ऐसा करता है, या कम से कम कुछ वैरिएंट एल्गोरिदम का काम करता है ।caltech.edu
~

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.