मैं आर के साथ गति प्राप्त करने की कोशिश कर रहा हूं। आखिरकार मैं आर लाइब्रेरी का उपयोग टेक्स्ट वर्गीकरण करने के लिए करना चाहता हूं। मैं बस सोच रहा था कि आर के स्केलेबिलिटी के संबंध में लोगों के अनुभव क्या हैं जब यह पाठ वर्गीकरण करने की बात आती है।
मुझे उच्च आयामी डेटा (~ 300k आयाम) में चलने की संभावना है। मैं विशेष रूप से वर्गीकरण एल्गोरिदम के रूप में एसवीएम और रैंडम फ़ॉरेस्ट का उपयोग कर रहा हूं।
क्या R लाइब्रेरीज़ मेरी समस्या के आकार को मापेंगी?
धन्यवाद।
संपादित 1: बस स्पष्ट करने के लिए, मेरे डेटा सेट में 1000-3000 पंक्तियाँ (शायद थोड़ी अधिक) और 10 वर्ग हैं।
संपादित करें 2: चूंकि मैं आर के लिए बहुत नया हूं, इसलिए मैं पोस्टर से अनुरोध करूंगा कि जहां संभव हो, वहां अधिक विशिष्ट हो। उदाहरण के लिए, यदि आप वर्कफ़्लो / पाइपलाइन का सुझाव दे रहे हैं, तो कृपया यदि संभव हो तो प्रत्येक चरण में शामिल आर पुस्तकालयों का उल्लेख करना सुनिश्चित करें। कुछ अतिरिक्त संकेत (उदाहरण के लिए, नमूना कोड आदि) केक पर टुकड़े करना होगा।
EDIT 3: सबसे पहले, आपकी टिप्पणियों के लिए सभी को धन्यवाद। और दूसरी बात, मैं माफी मांगता हूं, शायद मुझे समस्या के लिए अधिक संदर्भ देना चाहिए था। मैं आर के लिए नया हूं लेकिन पाठ वर्गीकरण के लिए इतना नहीं। मैंने पहले से ही अपने डेटा के कुछ हिस्से पर tm पैकेज का उपयोग करके पूर्व-प्रसंस्करण (स्टेमिंग, स्टॉपवार्ड रिमूवल, tf-idf रूपांतरण आदि) कर लिया है, बस चीजों के लिए एक अनुभव प्राप्त करने के लिए। टीएम लगभग 200docs पर भी इतना धीमा था कि मुझे स्केलेबिलिटी के बारे में चिंतित हो गया। फिर मैंने FSelector के साथ खेलना शुरू किया और यहां तक कि वास्तव में धीमा था। और यही वह बिंदु है जिस पर मैंने अपना ओपी बनाया है।
संपादित 4: यह सिर्फ मेरे लिए हुआ है कि मेरे पास 10 कक्षाएं हैं और प्रति कक्षा लगभग ~ 300 प्रशिक्षण दस्तावेज हैं, और मैं वास्तव में पूरे प्रशिक्षण सेट से टर्मएक्सडॉक मैट्रिक्स का निर्माण कर रहा हूं जिसके परिणामस्वरूप बहुत ही उच्च आयामीता है। लेकिन बाइनरी वर्गीकरण समस्याओं की एक श्रृंखला के लिए हर 1-आउट-ऑफ-के-वर्गीकरण समस्या को कम करने के बारे में कैसे? यह काफी k-1 चरणों में से प्रत्येक में प्रशिक्षण दस्तावेजों (और इसलिए आयामीता) की संख्या को काफी कम कर देगा, है ना? तो क्या यह दृष्टिकोण एक अच्छा है? यह सामान्य बहु-वर्ग कार्यान्वयन के लिए सटीकता की तुलना में कैसे करता है?