क्या एक विरल प्रशिक्षण सेट एक एसवीएम पर प्रतिकूल प्रभाव डालता है?


12

मैं एसवीएम का उपयोग करके संदेशों को विभिन्न श्रेणियों में वर्गीकृत करने की कोशिश कर रहा हूं। मैंने प्रशिक्षण सेट से वांछनीय शब्दों / प्रतीकों की एक सूची तैयार की है।

प्रत्येक वेक्टर के लिए, जो एक संदेश का प्रतिनिधित्व करता है, यदि मैं 1शब्द मौजूद है तो मैं इसी पंक्ति को सेट करता हूं :

"कॉर्पस" है: [मेरी, छोटी, मेमना, तारा, ट्विंकल]

पहला संदेश: "मेरी थोड़ी सी मेमरी थी" -> [1 1 1 0 0]

दूसरा संदेश: "ट्विंकल लिटिल स्टार" -> [0 1 0 0 1 1]

मुझे लगता है कि यह एसवीएम के साथ काफी सामान्य सेटअप है, लेकिन मेरा सवाल है, सेट में हजारों शब्दों के साथ, क्या होगा यदि प्रति संदेश केवल 1-2 शब्द हैं जो वास्तव में दिखाते हैं? क्या प्रशिक्षण वैक्टर के मेरे सेट की रैखिक निर्भरता अभिसरण की क्षमता को प्रतिकूल रूप से प्रभावित करने वाली है?


1
क्या आपके पास बहुत अधिक डेटा है, लेकिन बहुत कम लेबल वाला डेटा है? यदि ऐसा है तो आप अर्ध-पर्यवेक्षित शिक्षा में देखना चाहते हैं। आपके अनलेब किए गए कुछ डेटा का उपयोग करने से दोनों को आपकी सटीकता बढ़नी चाहिए और ओवरफिटिंग के जोखिम को कम करना चाहिए।
न्यूरॉन

@neuron मैंने ऐसा करने के बारे में सोचा था। अर्ध-पर्यवेक्षित वास्तुकला का एक उदाहरण क्या है?
जोंस्का

1
मैंने केवल अर्ध-पर्यवेक्षित (ट्रेनिंगसेट पर उर्फ ​​ट्रेन मॉडल, डेटा पर भविष्यवाणी करने के लिए मॉडल का उपयोग करने के तरीकों का उपयोग किया है, सभी डेटा> 0.5 की भविष्यवाणी संभावना के साथ खींचा और ट्रेनिंगसेट के साथ विलय, और नए गेटिंगसेट पर माइल बनाएं)। लेकिन मैंने फ्लेक्समिक्स का उल्लेख कुछ स्थानों पर किया है ( क्रैन.प्रोप्रोजेक्ट.org/web/packages/flexmix देखें )
न्यूरॉन

@neuron ठीक है, अच्छा है, क्योंकि मैंने जो लेख देखे (त्वरित विकिपीडिया जैसी खोज के साथ) वास्तुकला के बारे में बहुत विशिष्ट नहीं थे। मैं बाहर की जाँच करेगा flexmix- हालांकि, मैंने अपने कैलेंडर पर "आर सीखें" को अभी कुछ वर्षों के लिए रखा है!
jonsca

यह करो, आर अद्भुत है, जो पुस्तकालय आपके लिए उपलब्ध हो जाते हैं, वे केवल मन के हैं। Caret, sqldf / rmysql, foreach (समानांतर के लिए), ggplot2 और googlevis जैसी चीजें केवल आश्चर्यजनक सहायक उपकरण हैं। मैं पहली बार में भाषा का प्रशंसक नहीं था, लेकिन यह मुझ पर उगा है, और मुझे अब इसका उपयोग करना बहुत पसंद है।
न्यूरॉन

जवाबों:


9

स्पार्सिटी और रैखिक निर्भरता दो अलग-अलग चीजें हैं। रैखिक निर्भरता का तात्पर्य है कि कुछ फ़ीचर वैक्टर अन्य फ़ीचर वैक्टर (या उदाहरणों के लिए लागू वही) के सरल गुणक हैं। आपके द्वारा वर्णित सेटअप में मुझे लगता है कि रैखिक निर्भरता की संभावना नहीं है (इसका अर्थ है कि दो शब्दों में सभी दस्तावेजों में एक ही आवृत्ति (या इसके गुणन) है)। बस विरल सुविधाओं के होने से एसवीएम के लिए कोई समस्या नहीं होती है। इसे देखने का एक तरीका यह है कि आप को-ऑर्डिनेट कुल्हाड़ियों का एक यादृच्छिक घुमाव कर सकते हैं, जो समस्या को अपरिवर्तित छोड़ देगा और एक ही समाधान देगा, लेकिन डेटा को पूरी तरह से गैर-विरल बना देगा (यह इस भाग में है कि यादृच्छिक अनुमान कैसे काम कर सकते हैं )।

इसके अलावा ऐसा लगता है कि आप में SVM के बारे में बात कर रहे हैं आदि । ध्यान दें कि यदि आप कर्नेल SVM का उपयोग करते हैं, तो सिर्फ इसलिए कि आपके पास स्पार्स डेटासेट है, इसका मतलब यह नहीं है कि कर्नेल मैट्रिक्स स्पार्स होगा। हालाँकि, यह निम्न श्रेणी का हो सकता है। उस मामले में आप वास्तव में अधिक कुशल प्रशिक्षण के लिए इस तथ्य का लाभ उठा सकते हैं (उदाहरण के लिए कुशल एसवीएम प्रशिक्षण कम रैंक कर्नेल अभ्यावेदन का उपयोग करके देखें )।


1
सच है, मैं अपनी शब्दावली के साथ थोड़ा तेज और ढीला था। समझ में आता है।
जोंस्का
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.