पायथन में बड़े डेटा के साथ काम करने के लिए कुछ बहुत अच्छे उपकरण हैं:
numpy
Numpy की मेमरी-मैप्ड सरणियाँ आपको डिस्क पर सहेजी गई फ़ाइल को एक्सेस करने देती हैं, हालाँकि यह एक सरणी थी। केवल सरणी के कुछ हिस्सों को आप सक्रिय रूप से मेमोरी में लोड करने की आवश्यकता के साथ काम कर रहे हैं। यह एक साधारण सरणी के रूप में बहुत ज्यादा इस्तेमाल किया जा सकता है।
h5py और pytables
ये दो पुस्तकालय HDF5 फाइलों तक पहुंच प्रदान करते हैं। ये फाइलें डेटा के सिर्फ हिस्से तक पहुंच देती हैं। इसके अलावा, डेटा का उपयोग करने के लिए उपयोग किए जाने वाले अंतर्निहित पुस्तकालयों के लिए धन्यवाद, कई गणितीय संचालन और डेटा के अन्य जोड़तोड़ इसे अजगर डेटा संरचना में लोड किए बिना किया जा सकता है। बड़े पैमाने पर, अत्यधिक संरचित फाइलें संभव हैं, 5 टीबी से बहुत बड़ी हैं। यह निर्बाध, दोषरहित संपीड़न की भी अनुमति देता है।
डेटाबेस
विभिन्न प्रकार के डेटाबेस हैं जो आपको बड़े डेटा सेटों को स्टोर करने और उन हिस्सों को लोड करने की अनुमति देते हैं जिनकी आपको ज़रूरत है। कई डेटाबेस आपको डेटा को बिना अजगर डेटा संरचना में लोड किए बिना हेरफेर करने की अनुमति देते हैं।
पांडा
यह HDF5 डेटा, सीएसवी फाइलें, डेटाबेस, यहां तक कि वेबसाइटों सहित विभिन्न प्रकार के डेटा तक उच्च-स्तरीय पहुंच की अनुमति देता है। बड़े डेटा के लिए, यह एचडीएफ 5 फ़ाइल एक्सेस के आसपास रैपर प्रदान करता है जो बड़े डेटा सेट पर विश्लेषण करना आसान बनाता है।
mpi4py
यह कई प्रोसेसर या कई कंप्यूटरों में वितरित तरीके से अपने अजगर कोड को चलाने के लिए एक उपकरण है। इससे आप अपने डेटा के हिस्सों पर एक साथ काम कर सकते हैं।
dask
यह सामान्य खसरा सरणी का एक संस्करण प्रदान करता है जो बहु-कोर तरीके से कई सामान्य खस्ता संचालन का समर्थन करता है जो स्मृति में फिट होने के लिए डेटा पर बहुत बड़ा काम कर सकता है।
ज्वाला
एक उपकरण जो विशेष रूप से बड़े डेटा के लिए डिज़ाइन किया गया है। यह मूल रूप से उपरोक्त पुस्तकालयों के चारों ओर एक आवरण है, जो बड़ी मात्रा में डेटा (जैसे एचडीएफ 5 या डेटाबेस) और उपकरण को संग्रहीत करने के विभिन्न तरीकों की एक किस्म के लिए लगातार इंटरफेस प्रदान करता है, जिससे हेरफेर करना आसान होता है, गणितीय कार्य करते हैं, और डेटा का विश्लेषण करते हैं स्मृति में फिट होने के लिए बहुत बड़ा है।