क्या एक विरल प्रशिक्षण सेट एक एसवीएम पर प्रतिकूल प्रभाव डालता है?

मैं एसवीएम का उपयोग करके संदेशों को विभिन्न श्रेणियों में वर्गीकृत करने की कोशिश कर रहा हूं। मैंने प्रशिक्षण सेट से वांछनीय शब्दों / प्रतीकों की एक सूची तैयार की है।

प्रत्येक वेक्टर के लिए, जो एक संदेश का प्रतिनिधित्व करता है, यदि मैं 1शब्द मौजूद है तो मैं इसी पंक्ति को सेट करता हूं :

"कॉर्पस" है: [मेरी, छोटी, मेमना, तारा, ट्विंकल]

पहला संदेश: "मेरी थोड़ी सी मेमरी थी" -> [1 1 1 0 0]

दूसरा संदेश: "ट्विंकल लिटिल स्टार" -> [0 1 0 0 1 1]

मुझे लगता है कि यह एसवीएम के साथ काफी सामान्य सेटअप है, लेकिन मेरा सवाल है, सेट में हजारों शब्दों के साथ, क्या होगा यदि प्रति संदेश केवल 1-2 शब्द हैं जो वास्तव में दिखाते हैं? क्या प्रशिक्षण वैक्टर के मेरे सेट की रैखिक निर्भरता अभिसरण की क्षमता को प्रतिकूल रूप से प्रभावित करने वाली है?

classification svm sparse

— jonsca
स्रोत

क्या आपके पास बहुत अधिक डेटा है, लेकिन बहुत कम लेबल वाला डेटा है? यदि ऐसा है तो आप अर्ध-पर्यवेक्षित शिक्षा में देखना चाहते हैं। आपके अनलेब किए गए कुछ डेटा का उपयोग करने से दोनों को आपकी सटीकता बढ़नी चाहिए और ओवरफिटिंग के जोखिम को कम करना चाहिए।

— न्यूरॉन

@neuron मैंने ऐसा करने के बारे में सोचा था। अर्ध-पर्यवेक्षित वास्तुकला का एक उदाहरण क्या है?

— जोंस्का

मैंने केवल अर्ध-पर्यवेक्षित (ट्रेनिंगसेट पर उर्फ ट्रेन मॉडल, डेटा पर भविष्यवाणी करने के लिए मॉडल का उपयोग करने के तरीकों का उपयोग किया है, सभी डेटा> 0.5 की भविष्यवाणी संभावना के साथ खींचा और ट्रेनिंगसेट के साथ विलय, और नए गेटिंगसेट पर माइल बनाएं)। लेकिन मैंने फ्लेक्समिक्स का उल्लेख कुछ स्थानों पर किया है ( क्रैन.प्रोप्रोजेक्ट.org/web/packages/flexmix देखें )

— न्यूरॉन

@neuron ठीक है, अच्छा है, क्योंकि मैंने जो लेख देखे (त्वरित विकिपीडिया जैसी खोज के साथ) वास्तुकला के बारे में बहुत विशिष्ट नहीं थे। मैं बाहर की जाँच करेगा flexmix- हालांकि, मैंने अपने कैलेंडर पर "आर सीखें" को अभी कुछ वर्षों के लिए रखा है!

— jonsca

यह करो, आर अद्भुत है, जो पुस्तकालय आपके लिए उपलब्ध हो जाते हैं, वे केवल मन के हैं। Caret, sqldf / rmysql, foreach (समानांतर के लिए), ggplot2 और googlevis जैसी चीजें केवल आश्चर्यजनक सहायक उपकरण हैं। मैं पहली बार में भाषा का प्रशंसक नहीं था, लेकिन यह मुझ पर उगा है, और मुझे अब इसका उपयोग करना बहुत पसंद है।

— न्यूरॉन

स्पार्सिटी और रैखिक निर्भरता दो अलग-अलग चीजें हैं। रैखिक निर्भरता का तात्पर्य है कि कुछ फ़ीचर वैक्टर अन्य फ़ीचर वैक्टर (या उदाहरणों के लिए लागू वही) के सरल गुणक हैं। आपके द्वारा वर्णित सेटअप में मुझे लगता है कि रैखिक निर्भरता की संभावना नहीं है (इसका अर्थ है कि दो शब्दों में सभी दस्तावेजों में एक ही आवृत्ति (या इसके गुणन) है)। बस विरल सुविधाओं के होने से एसवीएम के लिए कोई समस्या नहीं होती है। इसे देखने का एक तरीका यह है कि आप को-ऑर्डिनेट कुल्हाड़ियों का एक यादृच्छिक घुमाव कर सकते हैं, जो समस्या को अपरिवर्तित छोड़ देगा और एक ही समाधान देगा, लेकिन डेटा को पूरी तरह से गैर-विरल बना देगा (यह इस भाग में है कि यादृच्छिक अनुमान कैसे काम कर सकते हैं )।

इसके अलावा ऐसा लगता है कि आप में SVM के बारे में बात कर रहे हैं आदि । ध्यान दें कि यदि आप कर्नेल SVM का उपयोग करते हैं, तो सिर्फ इसलिए कि आपके पास स्पार्स डेटासेट है, इसका मतलब यह नहीं है कि कर्नेल मैट्रिक्स स्पार्स होगा। हालाँकि, यह निम्न श्रेणी का हो सकता है। उस मामले में आप वास्तव में अधिक कुशल प्रशिक्षण के लिए इस तथ्य का लाभ उठा सकते हैं (उदाहरण के लिए कुशल एसवीएम प्रशिक्षण कम रैंक कर्नेल अभ्यावेदन का उपयोग करके देखें )।

— टीडीसी
स्रोत

सच है, मैं अपनी शब्दावली के साथ थोड़ा तेज और ढीला था। समझ में आता है।

— जोंस्का