मैं अपने पाठ डेटा पर वर्गीकरण करना चाह रहा हूं। मेरे पास 300 classes, प्रति वर्ग (इसलिए 60000 documents in total) 200 प्रशिक्षण दस्तावेज हैं और इसका परिणाम बहुत ही उच्च आयामी डेटा (हम 1 मिलियन आयामों से अधिक हो सकता है ) में हो सकता है ।
मैं पाइपलाइन में निम्नलिखित कदम करना चाहूंगा (बस आपको इस बात का बोध कराना होगा कि मेरी आवश्यकताएं क्या हैं):
- वेक्टर को फ़ीचर करने के लिए प्रत्येक दस्तावेज़ को परिवर्तित करना (
tf-idfयाvector space model) Feature selection(Mutual Informationअधिमानतः या किसी अन्य मानक के आधार पर)- वर्गीकारक प्रशिक्षण (
SVM,Naive Bayes,Logistic RegressionयाRandom Forest) - प्रशिक्षित क्लासिफायर मॉडल के आधार पर अनदेखी डेटा की भविष्यवाणी करना।
तो सवाल यह है कि ऐसे उच्च आयामी डेटा को संभालने के लिए मैं कौन से उपकरण / रूपरेखा का उपयोग करता हूं? मैं सामान्य संदिग्धों (R, WEKA ...) से अवगत हूं, लेकिन जहां तक मेरा ज्ञान है (मैं गलत हो सकता है) संभवतः उनमें से कोई भी इस बड़े डेटा को संभाल नहीं सकता है। क्या शेल्फ़ टूल से अलग कोई और है जिसे मैं देख सकता था?
अगर मुझे इसे समानांतर करना है, तो क्या मुझे अपाचे महतो को देखना चाहिए ? ऐसा लगता है कि यह अभी तक मुझे अपेक्षित कार्यक्षमता प्रदान नहीं कर सकता है।
सभी को अग्रिम धन्यवाद।
अपडेट: मैंने इस वेबसाइट , आर मेलिंग सूची और सामान्य रूप से इंटरनेट के आसपास देखा । यह मुझे प्रतीत होता है कि मेरी स्थिति में निम्नलिखित समस्याएं उभर सकती हैं:
(1) आर ( विशेष रूप से टीएम पैकेज) का उपयोग करके मेरे डेटा का प्रीप्रोसेसिंग अव्यावहारिक हो सकता है , क्योंकि tmयह बेहद धीमा होगा।
(2) चूँकि मुझे R संकुल (पूर्व-प्रसंस्करण, विरल मैट्रीस, क्लासिफायर इत्यादि) का एक संयोजन का उपयोग करने की आवश्यकता होगी, संकुल के बीच अंतर एक समस्या बन सकता है, और मैं एक प्रारूप से दूसरे प्रारूप में डेटा परिवर्तित करने में एक अतिरिक्त उपरि उत्पन्न कर सकता हूं। । उदाहरण के लिए, अगर मैं अपने पूर्व-प्रसंस्करण का उपयोग कर रहा हूं tm(या WEKA की तरह एक बाहरी उपकरण) तो मुझे इस डेटा को रूप में परिवर्तित करने के लिए एक तरीका निकालने की आवश्यकता होगी, जिसे एच में एचपीसी पुस्तकालय पढ़ सकते हैं। और फिर से यह मेरे लिए स्पष्ट नहीं है कि क्या क्लासिफायर पैकेज सीधे डेटा में ले जाएगा जैसा कि एचपीसी पुस्तकालयों द्वारा प्रदान किया गया है।
क्या मैं सही रास्ते पर हूं? और अधिक महत्वपूर्ण बात, क्या मैं समझदारी बना रहा हूं?
foreachआर में समानांतर कोड लिखने के लिए पुस्तकालय का उपयोग कर सकते हैं । यह विशेष रूप से यादृच्छिक जंगलों के साथ मिलकर काम करता है, जो स्वाभाविक रूप से समानांतर रूप से आसान हैं।