मैं एसवीएम का उपयोग करके संदेशों को विभिन्न श्रेणियों में वर्गीकृत करने की कोशिश कर रहा हूं। मैंने प्रशिक्षण सेट से वांछनीय शब्दों / प्रतीकों की एक सूची तैयार की है।
प्रत्येक वेक्टर के लिए, जो एक संदेश का प्रतिनिधित्व करता है, यदि मैं 1
शब्द मौजूद है तो मैं इसी पंक्ति को सेट करता हूं :
"कॉर्पस" है: [मेरी, छोटी, मेमना, तारा, ट्विंकल]
पहला संदेश: "मेरी थोड़ी सी मेमरी थी" -> [1 1 1 0 0]
दूसरा संदेश: "ट्विंकल लिटिल स्टार" -> [0 1 0 0 1 1]
मुझे लगता है कि यह एसवीएम के साथ काफी सामान्य सेटअप है, लेकिन मेरा सवाल है, सेट में हजारों शब्दों के साथ, क्या होगा यदि प्रति संदेश केवल 1-2 शब्द हैं जो वास्तव में दिखाते हैं? क्या प्रशिक्षण वैक्टर के मेरे सेट की रैखिक निर्भरता अभिसरण की क्षमता को प्रतिकूल रूप से प्रभावित करने वाली है?
flexmix
- हालांकि, मैंने अपने कैलेंडर पर "आर सीखें" को अभी कुछ वर्षों के लिए रखा है!