जवाबों:
लिनक्स के लिए कम एफएसएफ, डेटा-डिडुप्लीकेशन फाइल सिस्टम की जांच करें। यह अभी भी बीटा में है लेकिन आप इसे आज़मा सकते हैं:
सादर,
एमवी
OpenSolaris पर ZFS में Deduplication आ रहा है लेकिन यह कार्यक्षमता वर्तमान में उपलब्ध नहीं है।
यह पिछले सर्दियों में जेफ बोनविक और बिल मूर द्वारा प्रोटोटाइप किया गया था और वे इसे इस गर्मियों में एकीकृत करने पर काम कर रहे हैं। यदि आप विकास शाखा के साथ खेलना चाहते हैं तो यह ओपनसोलारिस या जल्द ही अगली रिलीज में उपलब्ध होना चाहिए।
उन लोगों के लिए जो डेटा डुप्लीकेशन से अपरिचित हो सकते हैं, यह एक ऐसी तकनीक है जिसके तहत फ़ाइल (या ब्लॉक, आई सपोस) के स्तर पर डेटा का विश्लेषण किया जाता है, और जहाँ पूरे फाइल सिस्टम में समान फाइल / ब्लॉक को एक छोटे टोकन से बदल दिया जाता है। यह डिस्क पर प्रभावी आकार को बहुत सिकोड़ने का प्रभाव है। इसे कॉपी-ऑन-राइट का एक रूप माना जा सकता है । उस पर विकी पेज पढ़ें ।
ऐसा कोई फाइल सिस्टम नहीं है जिसे मैंने लिनक्स में डिडअप, फाइल या ब्लॉक स्तर पर करने के बारे में सुना हो। इस तरह के एक जानवर काम होगा, हालांकि बहुत प्रोसेसर गहन।
एक साल बाद, लेकिन यहाँ OpenBSD के लिए एक समाधान है जिसे एपिटोम कहा जाता है: http://www.peereboom.us/epitome/ । बशर्ते यह उदार लाइसेंसिंग है, यह लिनक्स कर्नेल में बहुत अच्छी तरह से बना सकता है।
मैंने अभी एक प्रोजेक्ट पोस्ट किया है जिस पर मैं काम कर रहा हूं जो इनलाइन डिडुप्लीकेशन है। आप इसे यहाँ देख सकते हैं अगर आप इंटरस्टेड हैं। यह फ्यूज पर आधारित है और लिनक्स पर चलता है।
मुझे लिनक्स के लिए किसी भी तरह के मुफ्त कार्यान्वयन की जानकारी नहीं है। मैंने कुछ स्टोरेज वेंडर्स को VTL (वर्चुअल स्टोरेज लाइब्रेरी) के साथ HSM (पदानुक्रमित स्टोरेज मैनेजमेंट) सिस्टम का उपयोग करने की सलाह दी है, जो डिडअप करता है।
आप एक ऑकरीना जैसे सिस्टम पर भी विचार कर सकते हैं जो पारदर्शी नहीं है, लेकिन डिडअप से बेहतर परिणाम प्रदान कर सकता है।
इसलिए ... लिनक्स पर कटौती के बारे में कोई खबर नहीं है? opendedup एक विकल्प हो सकता है, लेकिन यह जिस जावा प्लेटफॉर्म पर चलता है, उसे देते हुए मैं सिरदर्द नहीं चाहता। मैंने इसे हाँ करने की कोशिश की है, लेकिन यह जावा मशीन और बाकी स्टोरेज रिस्पांस टाइम और सेफ्टी की मेरी ज़रूरतों के हिसाब से बहुत अच्छी नहीं है।
Deduplication विकल्प Linux के तहत फाइल सिस्टम BTRFS और ZFS पर उपलब्ध है। BTRFS मूल रूप से लिनक्स के तहत विकसित किया गया है और इसमें ऑफ-लाइन डुप्लीकेशन टूल है। मैं 'ऑफ़लाइन' नहीं सोच रहा हूँ, आपको fs को umount करना होगा। ऑफ़लाइन का अर्थ है, सक्रिय रूप से लिखित डेटा का कटौती नहीं किया जाना। लेकिन बाद में आप डुप्लीकेट थिंक के लिए टूल चलाते हैं जो अब संग्रहीत है। वास्तव में शायद उपकरण बीटा में है। दूसरा रास्ता ZFS के अंदर है। FUSE और मूल रूप से उपलब्ध: http://zfsonlinux.org/ । यह ऑनलाइन कटौती करता है, दुर्भाग्य से यह धीमा लिखता है क्योंकि सभी की गणना मक्खी पर की जानी चाहिए। आप इस व्यवहार को ऑनलाइन और बंद कर सकते हैं। आपके द्वारा कटौती किए जाने के बाद, सभी कटे हुए डेटा को अभी भी कटौती के रूप में संग्रहीत किया जाएगा। नए लेखन को 'डुप्लिकेट' के रूप में संग्रहीत किया जाएगा। यदि आप भविष्य में उस डेटा को कम करना चाहते हैं, तो आपको समर्पण चालू करना होगा और सभी 'डुप्लिकेटेड' फ़ाइलों को फिर से लिखना होगा।
पृष्ठ पर उपलब्ध दस्तावेज़ देखें। लेखन और रीडिंग में तेजी लाने के लिए, आप स्टोरेज पूल (विशेष रूप से एसडीडी ड्राइव या शायद तेज फ्लैश यूएसबी, डिवाइस विश्वसनीयता पर ध्यान दें) में तेजी से डिवाइस जोड़ सकते हैं।
DRBD बस इतना ही करता है और यह वास्तव में अच्छी तरह से करता है! मास्टर / दास या मास्टर / मास्टर कर सकते हैं :-)