मैं भूभौतिकी का पीएचडी छात्र हूं और बड़ी मात्रा में छवि डेटा (सैकड़ों जीबी, दसियों हजारों फाइलें) के साथ काम करता हूं। मुझे पता है svn
और git
काफी अच्छी तरह से और एक परियोजना के इतिहास को महत्व देने के लिए आते हैं, आसानी से एक साथ काम करने की क्षमता और डिस्क भ्रष्टाचार के खिलाफ सुरक्षा है। मैं git
लगातार बैकअप लेने के लिए भी बहुत उपयोगी है, लेकिन मुझे पता है कि git बाइनरी डेटा की बड़ी मात्रा को कुशलता से संभाल नहीं सकता है।
अपने स्वामी के अध्ययन में मैंने समान आकार (छवियों) के डेटा सेट पर काम किया और विभिन्न सर्वरों / उपकरणों पर अलग-अलग संस्करण का ध्यान रखने में बहुत सारी समस्याएं थीं। नेटवर्क पर 100GB तक की कठिनाई वास्तव में मज़ेदार नहीं है, और मुझे बहुत समय और प्रयास खर्च करना पड़ता है।
मुझे पता है कि विज्ञान के अन्य लोगों को भी इसी तरह की समस्या है, फिर भी मुझे एक अच्छा समाधान नहीं मिला।
मैं अपने संस्थान की भंडारण सुविधाओं का उपयोग करना चाहता हूं, इसलिए मुझे कुछ ऐसा चाहिए जो "डंब" सर्वर का उपयोग कर सके। मैं एक पोर्टेबल हार्ड डिस्क पर एक अतिरिक्त बैकअप भी लेना चाहूंगा, क्योंकि मैं जहां भी संभव हो नेटवर्क पर सैकड़ों जीबी स्थानांतरित करने से बचना चाहूंगा। इसलिए, मुझे एक उपकरण की आवश्यकता है जो एक से अधिक दूरस्थ स्थान को संभाल सके।
अंत में, मुझे वास्तव में कुछ ऐसा चाहिए जो अन्य शोधकर्ता उपयोग कर सकें, इसलिए इसे सुपर सरल होने की आवश्यकता नहीं है, लेकिन कुछ घंटों में सीखना चाहिए।
मैंने कई अलग-अलग समाधानों का मूल्यांकन किया है, लेकिन कोई भी बिल फिट नहीं करता है:
- svn कुछ हद तक अक्षम है और एक स्मार्ट सर्वर की जरूरत है
- hg bigfile / bigfile केवल एक रिमोट का उपयोग कर सकता है
- git bigfile / media केवल एक रिमोट का उपयोग कर सकता है, लेकिन यह बहुत कुशल भी नहीं है
- अटारी में एक लॉग, या अलग क्षमता नहीं है
- bup वास्तव में अच्छा दिखता है, लेकिन काम करने के लिए "स्मार्ट" सर्वर की आवश्यकता होती है
मैंने कोशिश की है git-annex
, जो मुझे (और बहुत कुछ) करने के लिए सब कुछ चाहिए, लेकिन इसका उपयोग करना बहुत मुश्किल है और अच्छी तरह से प्रलेखित नहीं है। मैंने कई दिनों तक इसका उपयोग किया है और इसके चारों ओर अपना सिर नहीं मिला है, इसलिए मुझे संदेह है कि किसी अन्य सहकर्मी को दिलचस्पी होगी।
शोधकर्ता बड़े डेटासेट के साथ कैसे व्यवहार करते हैं, और अन्य शोध समूह क्या उपयोग कर रहे हैं?
स्पष्ट होने के लिए, मुझे मुख्य रूप से दिलचस्पी है कि अन्य शोधकर्ता इस स्थिति से कैसे निपटें, न कि केवल इस विशिष्ट डेटासेट के साथ। यह मुझे लगता है कि लगभग सभी को यह समस्या होनी चाहिए, फिर भी मैं किसी को नहीं जानता जिसने इसे हल किया है। क्या मुझे मूल डेटा का बैकअप रखना चाहिए और इस सभी संस्करण नियंत्रण सामान को भूल जाना चाहिए? क्या बाकी सब यही कर रहे हैं?