क्या बड़े पैमाने पर पीसीए भी संभव है?


10

प्रिंसिपल कंपोनेंट एनालिसिस '(PCA) क्लासिकल तरीके से इसे इनपुट डेटा मैट्रिक्स पर किया जाता है, जिसमें कॉलम का मतलब शून्य होता है (तब PCA "वेरिएंट को अधिकतम कर सकता है")। इसे स्तंभों को केंद्रित करके आसानी से प्राप्त किया जा सकता है। हॉवेनवर, जब इनपुट मैट्रिक्स विरल होता है, तो केंद्रित मैट्रिक्स अब विरल हो जाएगा, और - यदि मैट्रिक्स बहुत बड़ा है - इस प्रकार अब मेमोरी में फिट नहीं होगा। भंडारण की समस्या के लिए एक एल्गोरिदम समाधान है?


5
यहां तक ​​कि अगर पूर्ण डेटा मैट्रिक्स स्मृति में फिट नहीं होता है, तो यह बहुत अच्छी तरह से हो सकता है कि या तो सहसंयोजक या ग्राम मैट्रिक्स स्मृति में फिट बैठता है। वे पीसीए प्रदर्शन करने के लिए पर्याप्त हैं। आप किस इनपुट डेटा मैट्रिक्स के बारे में सोच रहे हैं? यह भी देखें stats.stackexchange.com/questions/35185
अमीबा

1
@amoeba: मैं 500K नमूने (पंक्तियाँ) और 300K विशेषताएँ (कॉलम) देख रहा हूँ
रॉय

सॉफ्टवेयर के बारे में के रूप में, अपाचे स्पार्क यह है spark.apache.org/docs/latest/... आउट-ऑफ-स्मृति डेटा के साथ यकीन है कि कार्यान्वयन सौदों के लिए
टिम

जवाबों:


11

हाँ यह संभव है।

यदि डेटा मैट्रिक्स रैम में फिट नहीं होता है, तो यह अभी तक दुनिया का अंत नहीं है: कुशल एल्गोरिदम हैं जो हार्ड ड्राइव पर संग्रहीत डेटा के साथ काम कर सकते हैं। उदाहरण के लिए देखें Halko et al।, 2010 में वर्णित यादृच्छिक PCA, बड़े डेटा सेटों के प्रमुख घटक विश्लेषण के लिए एक एल्गोरिथ्म

खंड 6.2 में लेखकों ने उल्लेख किया है कि उन्होंने अपने एल्गोरिथ्म को 400k गुणा 100k डेटा मैट्रिक्स पर आज़माया और वह

वर्तमान पेपर के एल्गोरिथ्म में 1.5 जीबी रैम [...] के साथ लैपटॉप कंप्यूटर का उपयोग करते हुए, डिस्क पर संग्रहीत सभी 150 जीबी डेटा सेट को संसाधित करने के लिए 12.3 घंटे की आवश्यकता होती है।

ध्यान दें कि यह चुंबकीय हार्ड ड्राइव के पुराने दिनों में था; आज वहाँ बहुत तेजी से ठोस राज्य ड्राइव उपलब्ध हैं, इसलिए मुझे लगता है कि एक ही एल्गोरिथ्म काफी तेजी से प्रदर्शन करेगा।

यादृच्छिक पीसीए की अधिक चर्चा के लिए यह पुराना धागा भी देखें: बड़ी संख्या में सुविधाओं (> 10K) के लिए सर्वश्रेष्ठ पीसीए एल्गोरिथ्म? और Halko एट अल द्वारा 2011 की इस बड़ी समीक्षा : यादृच्छिकता के साथ संरचना की खोज: अनुमानित मैट्रिक्स विकारों के निर्माण के लिए संभाव्य एल्गोरिदम

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.