मैं अपने पाठ डेटा पर वर्गीकरण करना चाह रहा हूं। मेरे पास 300 classes
, प्रति वर्ग (इसलिए 60000 documents in total
) 200 प्रशिक्षण दस्तावेज हैं और इसका परिणाम बहुत ही उच्च आयामी डेटा (हम 1 मिलियन आयामों से अधिक हो सकता है ) में हो सकता है ।
मैं पाइपलाइन में निम्नलिखित कदम करना चाहूंगा (बस आपको इस बात का बोध कराना होगा कि मेरी आवश्यकताएं क्या हैं):
- वेक्टर को फ़ीचर करने के लिए प्रत्येक दस्तावेज़ को परिवर्तित करना (
tf-idf
याvector space model
) Feature selection
(Mutual Information
अधिमानतः या किसी अन्य मानक के आधार पर)- वर्गीकारक प्रशिक्षण (
SVM
,Naive Bayes
,Logistic Regression
याRandom Forest
) - प्रशिक्षित क्लासिफायर मॉडल के आधार पर अनदेखी डेटा की भविष्यवाणी करना।
तो सवाल यह है कि ऐसे उच्च आयामी डेटा को संभालने के लिए मैं कौन से उपकरण / रूपरेखा का उपयोग करता हूं? मैं सामान्य संदिग्धों (R, WEKA ...) से अवगत हूं, लेकिन जहां तक मेरा ज्ञान है (मैं गलत हो सकता है) संभवतः उनमें से कोई भी इस बड़े डेटा को संभाल नहीं सकता है। क्या शेल्फ़ टूल से अलग कोई और है जिसे मैं देख सकता था?
अगर मुझे इसे समानांतर करना है, तो क्या मुझे अपाचे महतो को देखना चाहिए ? ऐसा लगता है कि यह अभी तक मुझे अपेक्षित कार्यक्षमता प्रदान नहीं कर सकता है।
सभी को अग्रिम धन्यवाद।
अपडेट: मैंने इस वेबसाइट , आर मेलिंग सूची और सामान्य रूप से इंटरनेट के आसपास देखा । यह मुझे प्रतीत होता है कि मेरी स्थिति में निम्नलिखित समस्याएं उभर सकती हैं:
(1) आर ( विशेष रूप से टीएम पैकेज) का उपयोग करके मेरे डेटा का प्रीप्रोसेसिंग अव्यावहारिक हो सकता है , क्योंकि tm
यह बेहद धीमा होगा।
(2) चूँकि मुझे R संकुल (पूर्व-प्रसंस्करण, विरल मैट्रीस, क्लासिफायर इत्यादि) का एक संयोजन का उपयोग करने की आवश्यकता होगी, संकुल के बीच अंतर एक समस्या बन सकता है, और मैं एक प्रारूप से दूसरे प्रारूप में डेटा परिवर्तित करने में एक अतिरिक्त उपरि उत्पन्न कर सकता हूं। । उदाहरण के लिए, अगर मैं अपने पूर्व-प्रसंस्करण का उपयोग कर रहा हूं tm
(या WEKA की तरह एक बाहरी उपकरण) तो मुझे इस डेटा को रूप में परिवर्तित करने के लिए एक तरीका निकालने की आवश्यकता होगी, जिसे एच में एचपीसी पुस्तकालय पढ़ सकते हैं। और फिर से यह मेरे लिए स्पष्ट नहीं है कि क्या क्लासिफायर पैकेज सीधे डेटा में ले जाएगा जैसा कि एचपीसी पुस्तकालयों द्वारा प्रदान किया गया है।
क्या मैं सही रास्ते पर हूं? और अधिक महत्वपूर्ण बात, क्या मैं समझदारी बना रहा हूं?
foreach
आर में समानांतर कोड लिखने के लिए पुस्तकालय का उपयोग कर सकते हैं । यह विशेष रूप से यादृच्छिक जंगलों के साथ मिलकर काम करता है, जो स्वाभाविक रूप से समानांतर रूप से आसान हैं।