मैं डेटा साइंस में नया हूं और 200,000 पंक्तियों और 50 कॉलमों वाले डेटा सेट में क्लस्टर खोजने में समस्या है।
चूँकि डेटा में संख्यात्मक और नाममात्र दोनों चर होते हैं, इसलिए K-Mean जैसे तरीके जो यूक्लिडियन दूरी माप का उपयोग करते हैं, एक उपयुक्त विकल्प नहीं लगता है। इसलिए मैं PAM, एग्नेस और hclust की ओर मुड़ता हूं जो एक दूरी मैट्रिक्स को इनपुट के रूप में स्वीकार करता है।
डेज़ी विधि मिश्रित-प्रकार के डेटा पर काम कर सकती है, लेकिन दूरी मैट्रिक्स बस बहुत बड़ा है: 200,000 गुणा 200,000 2 ^ 31-1 (आर 3.0.0 से पहले वेक्टर लंबाई सीमा) की तुलना में बहुत बड़ा है।
कल जारी किया गया नया आर 3.0.0 लम्बाई वाले वैक्टर का समर्थन करता है जिसकी लंबाई 2 ^ 31-1 से अधिक है। लेकिन 200,000 से 200,000 के एक डबल मैट्रिक्स को 16 जीबी की तुलना में लगातार रैम की आवश्यकता होती है जो मेरी मशीन पर संभव नहीं है।
मैं समानांतर कंप्यूटिंग और बिगमेरी पैकेज के बारे में पढ़ता हूं और निश्चित नहीं हूं कि क्या वे मदद करने जा रहे हैं: अगर मैं डेज़ी का उपयोग कर रहा हूं, तो यह एक बड़ा मैट्रिक्स उत्पन्न करेगा जो वैसे भी स्मृति में फिट नहीं हो सकता है।
मैं नमूने के बारे में पोस्ट के बारे में भी पढ़ता हूं: क्या नमूना 'बड़े डेटा' के समय में प्रासंगिक है?
तो मेरे मामले में, क्या डेटा सेट पर नमूने का उपयोग करना, नमूने पर क्लस्टर और फिर पूरे डेटा सेट की संरचना का पता लगाना प्रासंगिक है?
क्या आप मुझे कुछ सुझाव दे सकते हैं? धन्यवाद!
मेरी मशीन के बारे में:
आर संस्करण 3.0.0 (2013-04-03)
प्लेटफ़ॉर्म: x86_64-w64-mingw32 / x64 (६४-बिट)
ओएस: विंडोज 7 64 बिट
रैम: 16.0GB