कौन सा संग्रह फ़ाइल प्रारूप फ़ाइल भ्रष्टाचार के खिलाफ पुनर्प्राप्ति सुरक्षा प्रदान करता है?


10

मैं अपनी बाह्य HDD का उपयोग अपनी फ़ाइलों का बैकअप लेने के लिए करता हूं, उन्हें बड़ी संग्रह फ़ाइलों में डालकर।

मेरे पास हजारों छोटी फाइलें हैं, और उन्हें बाहरी HDD में भेजने से पहले उन्हें 500MB से 4.2GB के आकार में संग्रहित किया जाता है। लेकिन, क्या एक हार्ड डिस्क विफलता पूरे संग्रह को नष्ट कर देती है या संग्रह में केवल एक फ़ाइल है? मुझे डर है कि एक फ़्लिप बिट संग्रह के बड़े हिस्से को बेकार कर सकता है।

सीआरसी चेक जैसी चीजें आपको भ्रष्टाचार के अस्तित्व के लिए सचेत कर सकती हैं, लेकिन मैं भ्रष्ट संग्रह से अप्रकाशित फ़ाइलों को पुनर्प्राप्त करने की क्षमता में अधिक रुचि रखता हूं। क्या संग्रह फ़ाइल स्वरूप ऐसी विफलताओं से उबरने की सबसे अच्छी क्षमता प्रदान करेगा, या तो संग्रह संरचना के मूल डिजाइन या पूरक वसूली उपकरण के अस्तित्व के माध्यम से? क्या ज़िप और आईएसओ फाइलों के बीच इस क्षमता में कोई अंतर है?


मुझे पता है कि फ़ाइल सिंक्रनाइज़ेशन के लिए मेरे द्वारा उपयोग किए जाने वाले कार्यक्रमों में से कम से कम एक मल्टीथ्रेडेड कॉपीिंग का समर्थन करता है, जो मेरा मानना ​​है कि बहुत सी छोटी फ़ाइलों की प्रतिलिपि बनाने के कुछ धीमेपन को कम करता है; हालांकि, मुझे यह सुनिश्चित करने के लिए परीक्षण करना होगा कि, मुझे संदेह है कि बहुत सारी छोटी फ़ाइलों का संग्रह बनाने में कई बड़ी फ़ाइलों के लिए एक संग्रह बनाने से अधिक समय लगेगा, भले ही कोई संपीड़न का उपयोग न किया गया हो। मुझे याद नहीं है कि यह एक Windows- केवल मुद्दा है या नहीं, हालांकि; iirc, लिनक्स के लिए कुछ सॉफ्टवेयर सॉल्यूशंस उपलब्ध हैं जो ब्लॉक में बहुत सारी छोटी फ़ाइलों को संभाल सकते हैं, लेकिन मैं विवरणों को याद नहीं कर सकता।
JAB

कृपया प्रश्न पुनः खोलें। मैंने इसे फिर से तैयार किया है, और इसे अभी और स्पष्ट होना चाहिए। "सर्वश्रेष्ठ" हमेशा कुछ हद तक राय आधारित होगा, लेकिन यहां सर्वश्रेष्ठ होने की आवश्यकता काफी स्पष्ट है। व्यक्तिगत ओपिनियन आईएमओ के लिए छोटा कमरा। कृपया इस टिप्पणी को पुनः खोलने के बाद हटा दें।
मार्सेल

जवाबों:


8

यह देखते हुए कि किसी भी संग्रह के निर्देशिका भाग को नुकसान संभावित रूप से पूरे संग्रह को बेकार कर सकता है, आपकी सर्वश्रेष्ठ शर्त तथाकथित समता फ़ाइलों को बनाने के लिए आपकी बैकअप प्रक्रिया में अलग कदम जोड़ना होगा । यदि मूल फ़ाइल में कोई डेटा ब्लॉक क्षतिग्रस्त हो जाता है, तो मूल फ़ाइल से मान्य ब्लॉक के साथ समता फ़ाइल से डेटा को जोड़कर इसे फिर से बनाया जा सकता है।

चर वहाँ होगा कि आप कितना नुकसान से मरम्मत करने में सक्षम होना चाहते हैं। यदि आप सिंगल बिट फ्लिप से सुरक्षा करना चाहते हैं, तो आपकी समता फ़ाइल आकार में सिर्फ 1 बिट होगी। यदि आप एक डिस्क क्षेत्र के आकार की एक धुन में कुछ चाहते हैं, तो जाहिर है कि यह आपको अधिक लागत देगा।

इसके पीछे एक बड़ा सिद्धांत है ( फॉरवर्ड एरर करेक्शन देखें ) और यह व्यापक रूप से व्यवहार में उपयोग किया जाता है। उदाहरण के लिए, यह है कि सीडी कुछ हद तक खरोंच का सामना कैसे कर सकता है और कैसे सेल फोन हानिरहित कनेक्शन पर उचित कॉल गुणवत्ता बनाए रख सकता है।

लंबी कहानी छोटी, .parफाइलों पर एक नजर ।


1
धन्यवाद, समता की फाइलों को खोजते हुए मैंने पाया कि विनर की रिकवरी रिकॉर्ड दैनिक उपयोग में सरल है। मैं QuickPar भी कोशिश करूँगा।
सातकुल

2
आपकी n-bit डेटा फ़ाइल में एक-बिट त्रुटि को सुधारने के लिए त्रुटि सुधार डेटा का एक बिट पर्याप्त नहीं है । आप एक एकल बिट के साथ ऐसी त्रुटि का पता लगा सकते हैं , लेकिन इसे ठीक करने के लिए, आपको कम से कम एन बिट्स की आवश्यकता होगी।
थॉम्स स्मिथ

4

बूप [1] चीजों को वापस करता है और स्वचालित रूप से समता अतिरेक में जोड़ता है, जिससे बिट-रोट बेहद संभावना नहीं है। भयावह डिस्क विफलता अभी भी एक चीज है, इसलिए हम इसे गिट-एनेक्स के साथ उपयोग कर सकते हैं।

git-annex [2] कई रिपॉजिटरी पर संग्रहीत फ़ाइलों का प्रबंधन करता है, जिनमें से कुछ आपके कंप्यूटर, अंगूठे-ड्राइव, ssh लॉगिन, कुछ क्लाउड सेवाओं या एक बैकअप बैकअप रिपॉजिटरी [3] में संग्रहीत की जा सकती हैं, जो फ़ाइल डेटा को बहुत पारदर्शी रूप से प्रवाहित करती हैं। अनुरोध या स्वचालित रूप से आपके द्वारा सेट किए गए भंडार में। यह एक भीड़ मुक्त और मुक्त स्रोत सॉफ्टवेयर परियोजना है, जिसे हास्केल में कई प्लेटफार्मों पर चलने वाले संस्करणों के साथ लिखा गया था, जिसमें linux, mac, windows और android शामिल हैं।

[१] https://github.com/bup/bup

[२] http://git-annex.branchable.com/

[३] http://git-annex.branchable.com/special_remotes/bup/


3

लेकिन, क्या एक हार्डडिस्क विफलता पूरे संग्रह को नष्ट कर देती है या संग्रह में केवल एक फ़ाइल है?

अगर वास्तव में सब कुछ एक बड़े संग्रह के रूप में कॉपी करने का कोई विकल्प नहीं है, तो आपको संपीड़ित या असम्पीडित संग्रह का उपयोग करने के बीच निर्णय लेना होगा।

टैरोबॉल जैसे असम्पीडित अभिलेखागार की सामग्री को अभी भी फ़ाइल रिकवरी सॉफ़्टवेयर के साथ पहचाना जा सकता है, भले ही संग्रह फ़ाइल को अब पढ़ा नहीं जा सकता (उदाहरण के लिए एक भ्रष्ट हेडर के कारण)।

संपीड़ित अभिलेखागार का उपयोग करना खतरनाक हो सकता है क्योंकि कुछ फाइलों को निकालने से इंकार कर सकते हैं यदि एक चेकसम त्रुटि होती है जो कि संग्रह फ़ाइल के केवल एक बिट के कारण भी हो सकती है।

बेशक एक संपीड़ित संग्रह में सैकड़ों फ़ाइलों को संग्रहीत न करके जोखिम को कम किया जा सकता है लेकिन एक संपीड़ित संग्रह में सैकड़ों संपीड़ित फ़ाइलों को।

gzip *
tar cf archive.tar *.gz

हालांकि मैंने पहले कभी वन्यजीवों में टार्बॉल में बहुत सारी गज़ब की फाइलें नहीं देखीं। केवल विपरीत लोकप्रिय है (यानी tar.gz फाइलें)।

क्या ज़िप और आईएसओ फाइलों में कोई अंतर है?

ज़िप एक (अधिकतर लेकिन जरूरी नहीं) संकुचित संग्रह है और आईएसओ एक प्रारूप है जो एक फ़ाइल में एक ऑप्टिकल डिस्क से निम्न-स्तर के आधार पर कॉपी किए गए कच्चे डेटा को इंगित करता है। उत्तरार्द्ध में शाब्दिक रूप से सब कुछ हो सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.