मैं अब 5 साल के लिए एसएएस पेशेवर का उपयोग कर रहा हूं। मैंने इसे अपने लैपटॉप पर स्थापित किया है और अक्सर 1,000-2,000 चर और सैकड़ों हजारों टिप्पणियों के साथ डेटासेट का विश्लेषण करना पड़ता है।
मैं एसएएस के विकल्पों की तलाश में हूं जो मुझे समान आकार के डेटा सेट पर विश्लेषण करने की अनुमति देता है। मैं उत्सुक हूं कि अन्य लोग इस तरह की स्थितियों के लिए क्या उपयोग करते हैं। यह निश्चित रूप से "बिग डेटा" नहीं है जिस तरह से आज उपयोग किया जाता है। न ही मेरे डेटासेट मेमोरी में रखने के लिए पर्याप्त हैं। मुझे एक समाधान की आवश्यकता है जो हार्ड ड्राइव पर संग्रहीत डेटा पर एल्गोरिदम लागू कर सकता है। ये वो चीजें हैं जिनकी मैंने जांच की है कोई फायदा नहीं हुआ:
- आर - बिगमेरी मेमोरी से संग्रहित मैट्रिसेस बना सकते हैं, लेकिन तत्वों को एक ही मोड में होना चाहिए। मैं ऐसे डेटा के साथ काम करता हूं जो चरित्र और संख्यात्मक के बीच लगभग 50/50 का विभाजन है। एफएफ पैकेज मुझे जो चाहिए, उसके करीब हो जाता है, लेकिन मुझे यह समझ में नहीं आता कि कौन सी प्रक्रियाएं इसके अनुकूल हैं। मुझे लगता है कि समर्थन कुछ सीमित है।
- पंडों - मैं आर के लिए एक पायथनिक विकल्प के बारे में बहुत उत्साहित था। हालांकि, यह भी स्मृति में डेटा के सभी पकड़ है।
- रेवोल्यूशन आर - यह एक बहुत वादा दिखाता है। मेरे पास मेरे होम कंप्यूटर पर एक कॉपी है (यदि आप केगल के लिए साइन अप करते हैं तो मुफ्त) और अभी तक इसे एसएएस के लिए व्यवहार्य विकल्प के रूप में परीक्षण करना है। एसएएस विकल्प के रूप में क्रांति आर पर टिप्पणियाँ बहुत सराहना की जाती हैं।
धन्यवाद
अद्यतन १
यह जोड़ने के लिए कि मैं वास्तविक जीवन की तलाश कर रहा हूं, व्यावहारिक समाधान जो लोगों ने सफलतापूर्वक उपयोग किए हैं। सबसे अधिक भाग के लिए, एसएएस मुझे बड़ी फ़ाइलों के माध्यम से मेमोरी बाधाओं के बारे में एक बिट की चिंता किए बिना चुगली करने देता है। हालांकि एसएएस लागू हो गया है, उन्हें पता चला कि उपयोगकर्ता को स्मृति प्रबंधन कैसे पारदर्शी बनाया जाए। लेकिन, यह भारी मन के साथ है कि मैंने अपनी नौकरी के लिए एसएएस का उपयोग किया है (मुझे करना होगा) और एक एफओओएस विकल्प का उपयोग करेगा जो मुझे "बड़े" डेटा पर काम करने की अनुमति देता है बिना यह सोचने के बिना कि डेटा कहाँ पर स्थित है। विशिष्ट समय (मेमोरी में या डिस्क पर)।
निकटतम चीजें जो मैं भर में आया हूं, आर के एफएफ पैकेज और पायथन के लिए क्षितिज पर कुछ है जिसे ब्लेज़ कहा जाता है । और फिर भी, ये समस्याएं कई वर्षों से मौजूद हैं, इसलिए विश्लेषकों ने इस समय क्या किया है? वे मेमोरी लिमिट के साथ इन समान मुद्दों को कैसे संभाल रहे हैं? प्रस्ताव पर समाधान के बहुमत लगता है:
- अधिक RAM प्राप्त करें - यह एक अच्छा समाधान नहीं है, imo। यह एक डेटासेट खोजना आसान है जो रैम को पार कर सकता है फिर भी हार्ड-ड्राइव पर फिट हो सकता है। इसके अलावा, कार्य प्रवाह को उन सभी संरचनाओं को समायोजित करना है जो खोजपूर्ण डेटा विश्लेषण के दौरान बनाई गई हैं।
- डेटा को सबसेट करें - यह अन्वेषण के लिए ठीक है लेकिन परिणाम और रिपोर्टिंग को अंतिम रूप देने के लिए नहीं। आखिरकार, जो भी प्रक्रियाएँ एक सबसेट पर विकसित की जाती हैं, उन्हें संपूर्ण डेटासेट में (मेरे मामले में, वैसे भी) लागू करना होगा।
- डेटा के माध्यम से हिस्सा - यह वही है जो मैं उन लोगों से अधिक जानना चाहूंगा जो वास्तव में इस कार्य-प्रवाह को लागू करते हैं। यह कैसे किया जाता है? किस उपकरण के साथ? क्या यह उस तरीके से किया जा सकता है जो उपयोगकर्ता के लिए पारदर्शी हो? (यानी, कुछ ऑन-डिस्क डेटा संरचना बनाएं और फ़्रेम-वर्क हुड के नीचे चैंकिंग का ख्याल रखता है)।