मैं आर के साथ एक पाठ वर्गीकरण कार्य कर रहा हूं, और मैं 120,000 (केवल 4 मिलियन गैर-शून्य प्रविष्टियों, 1% से कम प्रविष्टियों) द्वारा 22490 आकार के साथ एक दस्तावेज़-टर्म मैट्रिक्स प्राप्त करता हूं। अब मैं पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस) का उपयोग करके आयामीता कम करना चाहता हूं। दुर्भाग्य से, आर इस विशाल मैट्रिक्स को संभाल नहीं सकता है, इसलिए मैं इस मैट्रिक्स को "मैट्रिक्स मार्केट फॉर्मेट" में एक फ़ाइल में संग्रहीत करता हूं, जिससे पीसीए करने के लिए कुछ अन्य तकनीकों का उपयोग करने की उम्मीद है।
तो क्या कोई मुझे उपयोगी पुस्तकालयों (जो भी प्रोग्रामिंग भाषा) के लिए कुछ संकेत दे सकता है, जो इस बड़े पैमाने पर मैट्रिक्स के साथ पीसीए को आसानी से कर सकता है, या अपने आप से एक लंबे समय तक पीसीए कर सकता है, दूसरे शब्दों में, पहले कोवरियन मैट्रिक्स की गणना करें, और तो covariance मैट्रिक्स के लिए eigenvalues और eigenvectors की गणना करें ।
मैं जो चाहता हूं वह सभी पीसी (120,000) की गणना करना है , और केवल शीर्ष एन पीसी को चुनना है, जो 90% विचरण के लिए जिम्मेदार है । जाहिर है, इस मामले में, मुझे 0 (कोविरियस मैट्रिक्स में) के लिए कुछ बहुत छोटे वैरिएंट मान सेट करने के लिए एक थ्रेशोल्ड को प्राथमिकता देनी होगी, अन्यथा, कोविर्सियस मैट्रिक्स को विरल नहीं किया जाएगा और इसका आकार 120,000 तक 120,000 होगा, जो है एक एकल मशीन के साथ संभालना असंभव है। इसके अलावा, लोडिंग (ईजेनवेक्टर) बहुत बड़ी होगी, और इसे विरल प्रारूप में संग्रहीत किया जाना चाहिए।
किसी भी मदद के लिए बहुत बहुत धन्यवाद !
नोट: मैं 24 जीबी रैम और 8 सीपीयू कोर के साथ एक मशीन का उपयोग कर रहा हूं।