स्प्रेडशीट एप्लिकेशन जो बड़े डेटा OS X को संभाल सकती है

मैं कुछ सांख्यिकीय विश्लेषण के लिए एक्सेल के साथ काफी समय से काम कर रहा हूं जो मैं नियमित रूप से करता हूं। मैं जिस डेटा के साथ काम कर रहा हूं उसका आकार बहुत बड़ा हो गया है। विचाराधीन डेटाबेस का लेआउट काफी सरल है, आमतौर पर सिर्फ तीन पंक्तियाँ जिसमें एक UNIX टाइमस्टैम्प शामिल है, और EST मान, एक मालिकाना संख्यात्मक मान और अंत में उन पंक्तियों का औसत है जिनका टाइमस्टैम्प +/- 1000 है जो कि पंक्ति टाइमस्टैम्प (थोड़ा) AVERAGEIFS() सूत्र)। वह सूत्र और EST रूपांतरण पत्रक में केवल सूत्र हैं।

मैं 500,000+ पंक्तियों वाली फ़ाइलों के साथ काम करना शुरू कर रहा हूँ। पूरी पंक्ति नीचे औसत सूत्र चलाने से हमेशा के लिए लग जाती है। अंतिम परिणाम प्रिंट-योग्य ग्राफ़ का उत्पादन है। मैं या तो UNIX CL यूटिलिटी या अलग स्प्रेडशीट / डेटाबेस एप्लिकेशन की तलाश कर रहा हूं जो मेरे सीपीयू को पिघलाए बिना या मुझे एक घंटे तक इंतजार किए बिना डेटा की इस राशि को संभाल सके। वहाँ कुछ भी है?

टी एल; डॉ: आधा मिलियन पंक्तियों के साथ सरल एक्सेल शीट के साथ काम करने के लिए बहुत धीमी हो रही है। OS X विकल्प?

— Peter Kazazes
स्रोत

एसओ में आपके इसी सवाल का जवाब: stackoverflow.com/a/11387240/1248931

— andy holaday

कृपया दो क्षेत्रों में प्रश्नों के साथ अपना समय बर्बाद न करें। एक में पूछो। यदि वह गलत स्थान पर निकला है, तो उसे चिह्नित करें और एक मध्यस्थ को इसे स्थानांतरित करने के लिए कहें।

— Julian Knight

@JulianKnight यदि आपने या तो प्रश्न की बारीकियों को देखा, तो वे स्वाभाविक रूप से अलग हैं। हालांकि सुझाव के लिए धन्यवाद।

— Peter Kazazes

हम्म, मैंने दूसरे प्रश्न को देखा लेकिन वास्तव में, उत्तर निश्चित रूप से संबंधित प्रतीत होते हैं। मुझे लगता है कि यह बेहतर होगा कि पहले इस तरह के सिर्फ एक ही प्रश्न का उत्तर दिया जाए और फिर एक और प्रश्न का पालन किया जाए, यदि आगे स्पष्टीकरण आवश्यक था या थोड़ा अलग प्रश्न चाहिए।

— Julian Knight

मैं देखूंगा कि क्या आप इसे पारंपरिक डेटाबेस (SQL या समान) या R कंसोल जैसी किसी चीज़ में कर सकते हैं। यदि समस्या प्लॉटिंग में है, और गणना नहीं है, तो मैं कुछ प्रकार की फ़िल्टरिंग करने की कोशिश करूँगा (यह निश्चित नहीं है कि आपके पास किस प्रकार का डेटा है, या यह कैसे फैला हुआ है, लेकिन किसी भी स्थिति में आपको 500k + डेटा बिंदुओं की आवश्यकता नहीं है एक चार्ट पर) भूखंड के लिए कई अनावश्यक डेटा बिंदुओं से छुटकारा पाने के लिए। इससे प्लॉटिंग जल्दी हो जाएगी (और एक्सेल बहुत धीमा होने पर आप वास्तविक प्लॉटिंग के लिए R या gnuplot का उपयोग कर सकते हैं)

— soandos
स्रोत

मैं अपनी दक्षता के कारण आर में कुछ काम कर रहा हूं। एकमात्र समस्या जो मैंने एक्सेल के प्रतिस्थापन के लिए अपनी खोज में पाई है, वह एक स्प्रेडशीट या डेटाबेस विकल्प की तलाश में है जो सरणी सूत्रों को संभाल सकता है।

— Peter Kazazes

मैं जवाब से सहमत हूं - आपको एक डेटाबेस पर स्विच करने की आवश्यकता है। MySQL या Postgres जैसा कुछ काम करेगा। बेशक, इसका मतलब है कि आपको कुछ एसक्यूएल भी सीखने की आवश्यकता होगी। आपके द्वारा उपयोग किया जा रहा सूत्र निश्चित रूप से कुछ SQL द्वारा प्रतिस्थापित किया जा सकता है। आपके द्वारा सेट करने और जाने के बाद, आप हमेशा वापस आ सकते हैं और SQL के बारे में थोड़ा अलग सवाल पूछ सकते हैं!

— Julian Knight

उपयोगी होने की संभावना कम है लेकिन ध्यान देने योग्य है कि Google Refine है। यह आसानी से बड़े डेटा सेट को संभालता है लेकिन डेटा सुधार और विभाजन पर अधिक ध्यान केंद्रित किया गया है। हालाँकि, यह समर्थन करता है अजगर का प्रसंस्करण

— Julian Knight

@JulianKnight, मुझे लगता है कि Google शोधन बहुत अच्छा है, लेकिन यह इसके लिए एक बुरा उपयोग मामला है (मेरी राय में)। यह केवल गणना की तुलना में डेटा को पार्स करने और संशोधित करने के लिए अधिक है।

— soandos

@soandos: मैं रिफाइन के बारे में सहमत हूं, मैं सिर्फ इस मामले में उल्लेख करना चाहता था कि यह उपयोगी हो। मैंने पहले आर को नहीं देखा है, दिलचस्प लग रहा है, खासकर रेड-आर जीयूआई। मैं अब आइपीथॉन में भी दिलचस्पी लेता हूं क्योंकि मैं पहले से ही अजगर को जानता हूं, यह मेरे लिए एक उपयोगी उपकरण हो सकता है।

— Julian Knight