संक्षिप्त जवाब
एन्ट्रापी (जिसे मृत्यु भी कहा जाता है!) के कारण लंबे समय की गारंटी देना असंभव है। डिजिटल डेटा क्षय और मर जाता है, ब्रह्मांड में किसी भी अन्य चीज की तरह। लेकिन इसे धीमा किया जा सकता है।
वर्तमान में 30+ साल के कोल्ड डेटा आर्काइव की गारंटी देने के लिए कोई विफल-सबूत और वैज्ञानिक रूप से सिद्ध तरीका नहीं है। कुछ परियोजनाएं ऐसा करने का लक्ष्य रख रही हैं, जैसे कि लॉन्ग नाउ संग्रहालय की रोसेटा डिस्क परियोजना , हालांकि वे अभी भी बहुत महंगे हैं और कम डेटा घनत्व (लगभग 50 एमबी) के साथ हैं।
इस बीच, आप वैज्ञानिक रूप से सिद्ध रेजिलिएंट ऑप्टिकल माध्यमों का उपयोग कोल्ड स्टोरेज के लिए कर सकते हैं जैसे कि ब्लू-रे डिस्क HTL प्रकार पैनासोनिक, या आर्काइवल ग्रेड डीवीडी + आर जैसे वर्बेटिम गोल्ड आर्काइव, और उन्हें एयर-टाइट बॉक्स में सॉफ्ट स्पॉट में रखें (बचें) उच्च तापमान) और प्रकाश से बाहर।
इसके अलावा REDUNDANT हो : अपने डेटा (कम से कम 4) की कई प्रतियाँ बनाएँ, और हैश की गणना नियमित रूप से जाँचने के लिए करें कि सब कुछ ठीक है, और हर कुछ वर्षों में आपको अपने डेटा को नए डिस्क पर फिर से लिखना चाहिए। इसके अलावा, बहुत सारे त्रुटि सुधार कोड का उपयोग करें , वे आपको अपने दूषित डेटा को सुधारने की अनुमति देंगे!
लंबा जवाब
समय के साथ डेटा दूषित क्यों हैं? उत्तर एक शब्द में निहित है: एन्ट्रॉपी । यह ब्रह्मांड के प्राथमिक और अपरिहार्य बल में से एक है, जो सिस्टम को कम और कम समय में क्रमबद्ध बनाता है। डेटा भ्रष्टाचार बिल्कुल वही है: बिट्स ऑर्डर में एक विकार। तो दूसरे शब्दों में, ब्रह्मांड आपके डेटा से नफरत करता है ।
एन्ट्रापी से लड़ना बिल्कुल मौत से लड़ने जैसा है: आप कभी सफल होने की संभावना नहीं रखते। लेकिन, आप मौत को धीमा करने के तरीके पा सकते हैं, ठीक वैसे ही जैसे आप एन्ट्रापी को धीमा कर सकते हैं। आप भ्रष्टाचारों की मरम्मत करके भी एन्ट्रापी को रौंद सकते हैं (दूसरे शब्दों में: आप भ्रष्टाचारों को रोक नहीं सकते हैं, लेकिन यदि आप पहले से उपाय कर लेते हैं तो आप मरम्मत कर सकते हैं!)। बस जीवन और मृत्यु के बारे में कुछ भी, कोई जादू की गोली नहीं है, न ही सभी के लिए एक समाधान है, और सबसे अच्छा समाधान आपको सीधे अपने डेटा के डिजिटल क्यूरेशन में संलग्न करने की आवश्यकता है । और यहां तक कि अगर आप सब कुछ सही ढंग से करते हैं, तो आपको अपने डेटा को सुरक्षित रखने की गारंटी नहीं है, आप केवल अपने अवसरों को अधिकतम करते हैं।
अच्छी खबर के लिए: अब आपके डेटा को रखने के लिए काफी कुशल तरीके हैं, यदि आप अच्छी गुणवत्ता वाले भंडारण माध्यमों और अच्छे अभिलेखीय / क्यूरेशन रणनीतियों को जोड़ते हैं : आपको विफलता के लिए डिज़ाइन करना चाहिए ।
अच्छी अवधि की रणनीतियाँ क्या हैं? आइए एक चीज़ को सीधे करें: अधिकांश जानकारी जो आप पाएंगे, वे बैकअप के बारे में होंगी, अभिलेखीय के बारे में नहीं। मुद्दा यह है कि अधिकांश लोग बैकअप रणनीतियों पर अपने ज्ञान को अभिलेखीय रूप से स्थानांतरित कर देंगे, और इस प्रकार बहुत सारे मिथक अब आम तौर पर सुने जाते हैं। दरअसल, कुछ वर्षों (बैकअप) के लिए डेटा संग्रहीत करना और कम से कम (अभिलेखीय) दशकों तक सबसे लंबे समय तक डेटा संग्रहीत करना पूरी तरह से अलग लक्ष्य हैं, और इस प्रकार विभिन्न उपकरणों और रणनीतियों की आवश्यकता होती है।
सौभाग्य से, बहुत सारे शोध और वैज्ञानिक परिणाम हैं, इसलिए मैं मंचों या पत्रिकाओं के बजाय उन वैज्ञानिक पत्रों को संदर्भित करने की सलाह देता हूं। यहाँ, मैं अपने कुछ पठन को सारांशित करूँगा।
इसके अलावा, दावों और गैर-स्वतंत्र वैज्ञानिक अध्ययनों से सावधान रहें , यह दावा करते हुए कि इस तरह के भंडारण माध्यम एकदम सही हैं। प्रसिद्ध बीबीसी डोमडेडे प्रोजेक्ट को याद रखें: «डिजिटल डोमेसडे बुक 15 साल नहीं 1000» तक रहता है । हमेशा वास्तव में स्वतंत्र कागजात के साथ अध्ययनों को दोहराएं, और यदि कोई नहीं है, तो हमेशा मान लें कि संग्रहण माध्यम अभिलेखीय के लिए अच्छा नहीं है।
आइए स्पष्ट करें कि आप क्या देख रहे हैं (अपने प्रश्न से):
लंबे समय तक अभिलेखीय : आप अपने समझदार, अपूरणीय "व्यक्तिगत" डेटा की प्रतियां रखना चाहते हैं। अभिलेखीकरण एक बैकअप की तुलना में मौलिक रूप से अलग है , साथ ही यहाँ समझाया गया है : बैकअप गतिशील तकनीकी डेटा के लिए हैं जो नियमित रूप से अपडेट होते रहते हैं और इस तरह बैकअप (यानी, ओएस, वर्क फोल्डर लेआउट, आदि) में ताज़ा होने की आवश्यकता होती है, जबकि अभिलेखागार स्थिर डेटा हैं आप की संभावना हैं केवल एक बार लिखने और बस को पढ़ने से समय-समय पर । अभिलेखीय अंतरंग डेटा के लिए हैं , आमतौर पर व्यक्तिगत।
कोल्ड स्टोरेज : आप अपने संग्रहीत डेटा के रखरखाव से यथासंभव बचना चाहते हैं। यह एक बड़ी बाधा है, क्योंकि इसका मतलब है कि माध्यम को घटकों और एक लेखन पद्धति का उपयोग करना चाहिए जो आपके हिस्से से किसी भी हेरफेर के बिना, और कंप्यूटर या विद्युत आपूर्ति के किसी भी कनेक्शन की आवश्यकता के बिना बहुत लंबे समय तक स्थिर रहता है।
हमारे विश्लेषण को आसान बनाने के लिए, आइए पहले कोल्ड स्टोरेज समाधानों का अध्ययन करें, और फिर दीर्घकालिक अभिलेखीय रणनीतियों का अध्ययन करें।
कोल्ड स्टोरेज माध्यम
हमने ऊपर परिभाषित किया है कि एक अच्छा कोल्ड स्टोरेज माध्यम क्या होना चाहिए: इसे बिना किसी हेरफेर के लंबे समय तक डेटा बनाए रखना चाहिए (इसलिए इसे "कोल्ड" कहा जाता है: आप इसे केवल एक कोठरी में स्टोर कर सकते हैं और आपको इसे प्लग करने की आवश्यकता नहीं है एक कंप्यूटर डेटा को बनाए रखने के लिए)।
कागज पृथ्वी पर सबसे लचीला भंडारण माध्यम की तरह लग सकता है, क्योंकि हम अक्सर प्राचीन युगों से बहुत पुरानी पांडुलिपि पाते हैं। हालांकि, पेपर बड़ी कमियों से ग्रस्त है: सबसे पहले, डेटा घनत्व बहुत कम है (एक कागज पर ~ 100 केबी से अधिक स्टोर नहीं कर सकता है, यहां तक कि छोटे अक्षरों और कंप्यूटर टूल के साथ भी), और यह समय के साथ इसे मॉनिटर करने के लिए बिना किसी तरीके से गिरावट करता है: पेपर , हार्ड ड्राइव की तरह, मूक भ्रष्टाचार से पीड़ित हैं। लेकिन जब आप डिजिटल डेटा पर मूक भ्रष्टाचार की निगरानी कर सकते हैं, तो आप कागज पर नहीं कर सकते। उदाहरण के लिए, आप यह गारंटी नहीं दे सकते कि एक चित्र केवल एक दशक में एक ही रंग को बनाए रखेगा: रंग नीचा हो जाएगा, और आपके पास यह खोजने का कोई तरीका नहीं है कि मूल रंग क्या थे। बेशक, आप क्यूरेट कर सकते हैं यदि आप चित्र बहाली में समर्थक हैं, लेकिन यह अत्यधिक समय लेने वाला है, जबकि डिजिटल डेटा के साथ, आप इस अवधि और बहाली प्रक्रिया को स्वचालित कर सकते हैं।
हार्ड ड्राइव (HDDs) कर रहे हैं जाना जाता है के लिए है 3 से 8 साल की औसत जीवन काल: वे सिर्फ समय के साथ गिरावट नहीं करते, वे कर रहे हैं अंत में मरने के लिए गारंटी (यानी: दुर्गम)। निम्नलिखित घटता सभी HDDs के लिए एक चौंका देने वाली दर से मरने की प्रवृत्ति दिखाते हैं:
बाथटब वक्र ने HDD विफलता दर के विकास को दर्शाते हुए त्रुटि प्रकार दिया (यह किसी भी इंजीनियर डिवाइस पर भी लागू होता है):
HDD विफलता दर दिखाते हुए वक्र, सभी त्रुटि प्रकार मर्ज किए गए:
स्रोत: बैकब्लेज
आप देख सकते हैं कि उनकी विफलता के लिए अपेक्षाकृत रूप से 3 प्रकार के एचडीडी हैं: तेजी से मरने वाले (जैसे: विनिर्माण त्रुटि, खराब गुणवत्ता वाले एचडीडी, सिर की विफलता, आदि), लगातार मरने की दर (अच्छे निर्माण), वे विभिन्न के लिए मर जाते हैं " सामान्य "कारण, यह अधिकांश HDDs के लिए मामला है), और अंत में मजबूत वाले जो कि ज्यादातर HDDs की तुलना में थोड़ा लंबा रहते हैं और अंततः" सामान्य वाले "के बाद जल्द ही मर जाते हैं (जैसे: भाग्यशाली HDDs, बहुत ज्यादा इस्तेमाल नहीं किया जाता है,) आदर्श पर्यावरण की स्थिति, आदि ..)। इस प्रकार, आपको गारंटी दी जाती है कि आपका HDD मर जाएगा।
HDDs इतनी बार क्यों मरते हैं? मेरा मतलब है, डेटा एक चुंबकीय डिस्क पर लिखा गया है, और चुंबकीय क्षेत्र लुप्त होती से पहले दशकों तक रह सकता है। वे मर जाते हैं इसका कारण यह है कि भंडारण माध्यम (चुंबकीय डिस्क) और रीडिंग हार्डवेयर (इलेक्ट्रॉनिक बोर्ड + कताई सिर) युग्मित हैं : उन्हें अलग नहीं किया जा सकता है, आप सिर्फ चुंबकीय डिस्क नहीं निकाल सकते हैं और इसे दूसरे सिर के साथ पढ़ सकते हैं, क्योंकि पहले इलेक्ट्रॉनिक बोर्ड (जो भौतिक डेटा को डिजिटल में परिवर्तित करता है) लगभग प्रत्येक HDD (यहां तक कि एक ही ब्रांड और संदर्भ के लिए अलग है), यह मूल कारखाने पर निर्भर करता है), और कताई सिर के साथ आंतरिक तंत्र इतना जटिल है कि आजकल यह असंभव है एक मानव के लिए पूरी तरह से उन्हें मारने के बिना चुंबकीय डिस्क पर एक कताई सिर रखें।
इसके अलावा, हार्ड ड्राइव करने के लिए जाना जाता है की शक्ति को हटाना समय के साथ करता है, तो (एसएसडी सहित) का उपयोग नहीं किया। इस प्रकार, आप केवल हार्ड डिस्क पर डेटा स्टोर नहीं कर सकते हैं, इसे एक कोठरी में स्टोर कर सकते हैं और सोच सकते हैं कि यह किसी भी बिजली के कनेक्शन के बिना डेटा को बनाए रखेगा: आपको अपने एचडीडी को प्रति वर्ष या प्रति जोड़े कम से कम एक बार एक विद्युत स्रोत पर प्लग करने की आवश्यकता है । इस प्रकार, एचडीडी स्पष्ट रूप से कोल्ड स्टोरेज के लिए एक अच्छा फिट नहीं है।
चुंबकीय टेप : उन्हें अक्सर बैकअप जरूरतों के लिए, और अभिलेखीय के लिए विस्तार से जाना जाता है। चुंबकीय टेप के साथ समस्या यह है कि वे बहुत संवेदनशील होते हैं: चुंबकीय ऑक्साइड कण सूरज, पानी, हवा, खरोंच से खराब हो सकते हैं, समय से ध्वस्त हो सकते हैं या किसी भी विद्युत चुम्बकीय उपकरण या बस समय के साथ गिर सकते हैं, या प्रिंट-थ्रू हो सकते हैं । इसलिए वे आमतौर पर पेशेवरों द्वारा केवल डेटासेंटर में उपयोग किए जाते हैं। इसके अलावा, यह कभी साबित नहीं हुआ है कि वे एक दशक से अधिक समय तक डेटा को बनाए रख सकते हैं। तो, उन्हें अक्सर बैकअप के लिए सलाह क्यों दी जाती है? क्योंकि वे सस्ते हुआ करते थे: पिछले दिनों में, HDD की तुलना में चुंबकीय टेपों का उपयोग करने के लिए यह 10x से 100x सस्ता था, और HDDs अब की तुलना में बहुत कम स्थिर थे। इसलिए चुंबकीय टेप को मुख्य रूप से लागत प्रभावशीलता के कारण बैकअप के लिए सलाह दी जाती हैनहीं, क्योंकि यह डेटा संग्रह करने की बात आती है, जो कि हमारे लिए सबसे ज्यादा हितकारी है।
कॉम्पैक्टफ्लैश और सिक्योर डिजिटल (एसडी) कार्ड काफी मजबूत और मजबूत होने के लिए जाने जाते हैं, जो विनाशकारी परिस्थितियों से बचने में सक्षम हैं ।
अधिकांश कैमरों में मेमोरी कार्ड वस्तुतः अविनाशी हैं, जो डिजिटल कैमरा शॉपर्स पत्रिका में पाए जाते हैं। पांच मेमोरी कार्ड फॉर्मेट कॉफ़ी या कोला में उबला, रौंदा, धोया और डुबोया जाने से बचे।
हालांकि, किसी भी अन्य चुंबकीय आधारित माध्यम के रूप में, यह डेटा को बनाए रखने के लिए एक विद्युत क्षेत्र पर निर्भर करता है, और इस प्रकार यदि कार्ड रस से बाहर निकलता है, तो डेटा पूरी तरह से खो सकता है। इस प्रकार, कोल्ड स्टोरेज के लिए एक सही फिट नहीं है (जैसा कि आपको कभी-कभार इलेक्ट्रिकल क्षेत्र को ताज़ा करने के लिए कार्ड पर पूरे डेटा को फिर से लिखना होगा), लेकिन यह बैकअप और लघु या मध्यम अवधि के अभिलेखीय के लिए एक अच्छा माध्यम हो सकता है।
ऑप्टिकल माध्यम: ऑप्टिकल माध्यम स्टोरेज माध्यमों का एक वर्ग है जो डेटा को पढ़ने के लिए लेजर पर निर्भर करता है, जैसे सीडी, डीवीडी या ब्लू-रे (बीडी)। इसे कागज के विकास के रूप में देखा जा सकता है, लेकिन हम डेटा को इतने छोटे आकार में लिखते हैं, कि हमें कागज की तुलना में अधिक सटीक और लचीला सामग्री की आवश्यकता होती है, और ऑप्टिकल डिस्क बस इतना ही है। ऑप्टिकल माध्यमों के दो सबसे बड़े लाभ यह है कि स्टोरेज माध्यम को रीडिंग हार्डवेयर से अलग कर दिया जाता है (यानी, यदि आपका डीवीडी रीडर विफल हो जाता है, तो आप हमेशा अपनी डिस्क को पढ़ने के लिए एक और खरीद सकते हैं) और यह लेजर पर आधारित है, जो इसे सार्वभौमिक बनाता है और भविष्य का प्रमाण (यानी, जब तक आप जानते हैं कि लेजर कैसे बनाया जाता है, आप इसे हमेशा ऑप्टिकल डिस्क के बिट्स को एमुलेशन द्वारा पढ़ने के लिए ट्विक कर सकते हैं, ठीक उसी तरह जैसे CAMILEON ने डोमेसडे बीबीसी प्रोजेक्ट के लिए किया था )।
किसी भी तकनीक की तरह, नए पुनरावृत्तियों न केवल बड़े घनत्व (भंडारण कक्ष) की पेशकश करते हैं, बल्कि बेहतर त्रुटि सुधार, और पर्यावरणीय क्षय (हमेशा नहीं, लेकिन आम तौर पर सच है) के खिलाफ बेहतर लचीला होते हैं। डीवीडी विश्वसनीयता के बारे में पहली बहस डीवीडी-आर और डीवीडी + आर के बीच थी, और भले ही डीवीडी-आर आजकल भी आम हैं, डीवीडी + आर को अधिक विश्वसनीय और सटीक माना जाता है । अब आर्काइव ग्रेड डीवीडी डिस्क हैं, विशेष रूप से कोल्ड स्टोरेज के लिए बनाई गई हैं, यह दावा करते हुए कि वे बिना किसी रखरखाव के न्यूनतम ~ 20 साल का सामना कर सकती हैं:
Verbatim Gold Archival DVD-R [...] को अच्छी तरह से मानी जाने वाली जर्मन पत्रिका (16/2008 नहीं, पृष्ठ 116-123) द्वारा लंबे समय तक तनाव परीक्षण में सबसे विश्वसनीय DVD-R का दर्जा दिया गया है। ) [...] 18 साल की न्यूनतम स्थायित्व और 32 से 127 साल की औसत स्थायित्व (25 सी, 50% आर्द्रता पर) प्राप्त कर रहा है। इन मूल्यों के करीब कहीं भी कोई अन्य डिस्क नहीं आई, दूसरे सर्वश्रेष्ठ डीवीडी-आर में केवल 5 वर्षों का न्यूनतम स्थायित्व था।
LinuxTech.net से ।
इसके अलावा, कुछ कंपनियां बहुत लंबे समय तक डीवीडी अभिलेखीय क्षेत्र में विशेषज्ञता प्राप्त करती हैं और बड़े पैमाने पर उन्हें बाजार देती हैं, जैसे कि मिलेनियाटा या डेटाट्रेसडिस्क से एम-डिस्क, यह दावा करते हुए कि वे 1000 से अधिक वर्षों तक डेटा बनाए रख सकते हैं, और कुछ (गैर-स्वतंत्र) अध्ययनों से सत्यापित हैं 2009) कम-वैज्ञानिक दूसरों के बीच ।
यह सब बहुत आशाजनक लगता है! दुर्भाग्य से, इन दावों की पुष्टि करने के लिए पर्याप्त स्वतंत्र वैज्ञानिक अध्ययन नहीं हैं, और जो कुछ उपलब्ध हैं वे इतने उत्साही नहीं हैं:
आर्द्रता (80% आरएच) और तापमान (80 डिग्री सेल्सियस) डेटा की पठनीयता की नियमित जाँच के साथ 2000 घंटे (लगभग 83 दिन) परीक्षण से अधिक डीवीडी पर उम्र बढ़ने में तेजी आई:
डिजिटल डेटा अभिलेखीय (अभिलेखागार डी फ्रांस) के लिए फ्रेंच संस्थान से अनुवादित, 2012 से अध्ययन।
धीमी गति से विकास के साथ पहला ग्राफ डीवीडी दिखाता है। तेजी से गिरावट के साथ दूसरा एक डीवीडी घटता है। और तीसरा एक विशेष "बहुत लंबे समय तक" डीवीडी के लिए है जैसे एम-डिस्क और डेटाट्रेसडिस्क। जैसा कि हम देख सकते हैं, उनका प्रदर्शन मानक, गैर अभिलेखीय ग्रेड डीवीडी के साथ कम या बराबर होने के दावों के लिए बिल्कुल फिट नहीं है!
हालांकि, एम-डिस्क और डेटाट्रेसडिस्क जैसे अकार्बनिक ऑप्टिकल डिस्क को एक फायदा मिलता है: वे प्रकाश गिरावट के लिए काफी असंवेदनशील हैं:
240 घंटे के दौरान प्रकाश (750 W / m during) का उपयोग करते हुए त्वरित उम्र बढ़ने:
ये शानदार परिणाम हैं, लेकिन एक अभिलेखीय ग्रेड डीवीडी जैसे कि वर्बेटिम गोल्ड आर्काइव भी उसी प्रदर्शन को प्राप्त करता है, और इसके अलावा, प्रकाश एक वस्तु के लिए सबसे अधिक नियंत्रणीय पैरामीटर है: डीवीडी को एक बंद बॉक्स या अलमारी में रखना काफी आसान है, और इस प्रकार प्रकाश के किसी भी संभावित प्रभाव को दूर करना। यह एक डीवीडी पाने के लिए अधिक उपयोगी होगा जो प्रकाश की तुलना में तापमान और आर्द्रता के लिए बहुत लचीला है।
इसी शोध टीम ने ब्लू-रे बाजार का भी अध्ययन किया, यह देखने के लिए कि क्या लंबे समय तक कोल्ड स्टोरेज के लिए अच्छे माध्यम वाला कोई ब्रांड होगा। यहाँ उनकी खोज है:
डीवीडी के रूप में एक ही पैरामीटर के तहत कई ब्लू-रे ब्रांडों पर आर्द्रता और तापमान में तेजी आई है:
कई BluRays ब्रांडों पर प्रकाश त्वरित उम्र बढ़ने, एक ही मापदंडों:
आर्काइव्स डी फ्रांस, 2012 के इस अध्ययन से अनुवादित।
यहाँ और यहाँ सभी निष्कर्षों के दो सारांश (फ्रेंच में) ।
ठीक है, सबसे अच्छा ब्लू-रे डिस्क (पैनासोनिक से) ने नमी और तापमान परीक्षण में सर्वश्रेष्ठ अभिलेखीय ग्रेड डीवीडी के समान प्रदर्शन किया, जबकि प्रकाश के लगभग असंवेदनशील होने के कारण! और यह ब्लू-रे डिस्क अभिलेखीय ग्रेड भी नहीं है। इसके अलावा, ब्लू-रे डिस्क डीवीडी की तुलना में एक बढ़ी हुई त्रुटि सुधार कोड का उपयोग करते हैं (स्वयं सीडी में अपेक्षाकृत संस्करण का उपयोग करके), जो डेटा खोने के जोखिम को कम करता है। इस प्रकार, ऐसा लगता है कि कुछ BluRay डिस्क कोल्ड स्टोरेज के लिए एक बहुत अच्छा विकल्प हो सकता है।
और वास्तव में, कुछ कंपनियों ने पैनासोनिक और सोनी की तरह अभिलेखीय ग्रेड, उच्च घनत्व भंडारण ब्लू-रे डिस्क पर काम करना शुरू कर दिया है, यह घोषणा करते हुए कि वे 50 वर्षों के औसत जीवन काल के साथ 300 जीबी से 1 टीबी स्टोरेज की पेशकश कर पाएंगे। इसके अलावा, बड़ी कंपनियां अपने आप को कोल्ड स्टोरेज के लिए ऑप्टिकल माध्यमों की ओर मोड़ रही हैं (क्योंकि यह बहुत कम संसाधनों की खपत करता है क्योंकि आप उन्हें बिना किसी बिजली की आपूर्ति के स्टोर कर सकते हैं), जैसे कि फेसबुक ने ब्लू-रे डिस्क का उपयोग करने के लिए एक "रोबोट" के रूप में विकसित किया "कोल्ड" भंडारण " डेटा के लिए उनके सिस्टम शायद ही कभी एक्सेस करते हैं।
लंबे समय से अभिलेखीय पहल: लॉन्ग नाउ संग्रहालय द्वारा रोसेटा डिस्क परियोजना जैसे अन्य दिलचस्प लीड हैं , जो पृथ्वी पर हर भाषा में उत्पत्ति के माइक्रोस्कोपिक रूप से स्केल किए गए पृष्ठों को लिखने के लिए एक परियोजना है जिसका उत्पत्ति अनुवाद किया गया। यह एक महान परियोजना है, जो एक ऐसा माध्यम है जो 50 एमबी स्टोर करने की अनुमति देता है, जो वास्तव में बहुत लंबे समय तक कोल्ड स्टोरेज (क्योंकि यह कार्बन में लिखा है) के लिए स्टोर करने की अनुमति देता है, और भविष्य में प्रूफ का उपयोग करने के लिए आपको केवल एक आवर्धक की आवश्यकता होती है। डेटा (कोई अजीब प्रारूप विनिर्देशों और न ही तकनीकी परेशानी जैसे कि ब्लू-रे के वायलेट बीम को संभालने के लिए, बस एक आवर्धक की जरूरत है!)। हालांकि, ये अभी भी मैन्युअल रूप से बनाए गए हैं और इस प्रकार लगभग $ 20K खर्च करने का अनुमान है, जो कि मेरे हिसाब से एक व्यक्तिगत अभिलेखीय योजना के लिए बहुत अधिक है।
इंटरनेट आधारित समाधान: फिर भी आपके डेटा को कोल्ड स्टोर में रखने का एक और माध्यम नेट पर है। हालांकि, क्लाउड बैकअप सॉल्यूशंस एक अच्छी फिट नहीं हैं, क्योंकि क्लाउड होस्टिंग कंपनियों की तुलना में प्राथमिक चिंता तब तक नहीं रह सकती है जब तक आप अपना डेटा रखना चाहेंगे। अन्य कारणों में यह तथ्य शामिल है कि यह बैकअप के लिए बुरी तरह से धीमा है (क्योंकि यह इंटरनेट के माध्यम से स्थानांतरित होता है) और अधिकांश प्रदाताओं को यह आवश्यक है कि फाइलें आपके सिस्टम पर उन्हें ऑनलाइन रखने के लिए भी मौजूद हों। उदाहरण के लिए, CrashPlan और Backblaze दोनों उन फ़ाइलों को स्थायी रूप से हटा देंगे, जो पिछले 30 दिनों में कम से कम एक बार आपके कंप्यूटर पर दिखाई नहीं देती हैं, इसलिए यदि आप बैकअप डेटा अपलोड करना चाहते हैं जिसे आप केवल बाहरी हार्ड ड्राइव पर संग्रहीत करते हैं, तो आपको अपना प्लग इन करना होगा USB HDD प्रति माह कम से कम एक बार और उलटी गिनती रीसेट करने के लिए अपने क्लाउड के साथ सिंक करें। हालाँकि, कुछ क्लाउड सेवाएं आपकी फ़ाइलों को अनिश्चित काल तक रखने की पेशकश करती हैं (जब तक कि आप निश्चित रूप से भुगतान करते हैं) बिना किसी उलटी गिनती के स्पाइडरऑक के रूप में। इसलिए क्लाउड बेस्ड बैकअप सॉल्यूशन की शर्तों और उपयोग से सावधान रहें।
क्लाउड बैकअप प्रदाताओं का एक विकल्प यह है कि आप अपने निजी सर्वर को ऑनलाइन किराए पर लें, और यदि संभव हो तो हार्डवेयर विफलता के मामले में अपने डेटा के स्वत: मिररिंग / बैकअप के साथ एक का चयन करें , लेकिन निश्चित रूप से यह अधिक महंगा है)। यह एक महान समाधान है, पहला क्योंकि आप अभी भी अपना डेटा रखते हैं, और दूसरी बात यह है कि आपको हार्डवेयर की विफलताओं का प्रबंधन नहीं करना पड़ेगा, यह आपके होस्ट की जिम्मेदारी है। और यदि एक दिन आपका होस्ट व्यवसाय से बाहर चला जाता है, तो भी आप अपना डेटा वापस पा सकते हैं (एक गंभीर होस्ट चुनें, ताकि वे रात को बंद न हों लेकिन आपको पहले से सूचित कर दें, हो सकता है कि आप उसे अनुबंध पर रख सकें), और कहीं और पुनः स्थापित करना।
यदि आप अपने निजी ऑनलाइन सर्वर को स्थापित करने की परेशानी नहीं चाहते हैं, और यदि आप इसे वहन कर सकते हैं, तो अमेज़ॅन एक नई डेटा संग्रह सेवा प्रदान करता है, जिसे ग्लेशियर कहा जाता है । इसका उद्देश्य लंबे समय के लिए आपके डेटा को कोल्ड स्टोर करना है: इस प्रकार, ग्लेशियर पर डेटा स्टोर करने में बहुत खर्च होता है, लेकिन इस डेटा को वापस पाने के लिए और भी अधिक लागत आती है, क्योंकि यह सेवा डेटा को पहुंच से बाहर रखने के लिए बनाई गई है , उन डेटा को रखने के लिए नहीं जिन्हें आप अक्सर एक्सेस करना चाहते हैं। इसका मतलब है कि यह सेवा डेटा लिखने के लिए कीमतों को उद्धृत करती है, लेकिन उन्हें पढ़ने के लिए भी। इस सेवा की एक बड़ी लागत है, लेकिन यह आपके सबसे समझदार डेटा में से कुछ के लिए एक अच्छा सौदा हो सकता है (यानी: यदि आपके पास कुछ पाठ फ़ाइलें या छवियां हैं जो बहुत समझदार हैं, क्योंकि इस तरह का डेटा आमतौर पर छोटे आकार का होता है, यह एक ग्लेशियर में स्टोर करने के लिए आपको बहुत अधिक लागत नहीं होगी)।
कोल्ड स्टोरेज की कमियाँ : हालाँकि, किसी भी कोल्ड स्टोरेज माध्यम में एक बड़ी खामी है: कोई अखंडता की जाँच नहीं है, क्योंकि कोल्ड स्टोरेज माध्यमों में स्वतः डेटा की अखंडता की जाँच नहीं हो सकती है (वे केवल त्रुटि सुधार योजनाओं को "ठीक" करने के लिए थोड़ा सा लागू कर सकते हैं) भ्रष्टाचार होने के बाद नुकसान हुआ है, लेकिन इसे रोका नहीं जा सकता है और न ही स्वचालित रूप से प्रबंधित किया जा सकता है!) क्योंकि, कंप्यूटर के विपरीत, कंप्यूटरीकरण / जांच / गणना और फाइल सिस्टम को सही करने के लिए कोई प्रसंस्करण इकाई नहीं है। जबकि एक कंप्यूटर और कई स्टोरेज यूनिट्स के साथ, आप अपने अभिलेखागार की अखंडता की जांच स्वचालित रूप से कर सकते हैं और यदि आवश्यक हो तो डेटा संग्रह में कुछ भ्रष्टाचार हुआ (जब तक कि आपके पास एक ही संग्रह की कई प्रतियां हैं) पर स्वचालित रूप से किसी अन्य इकाई पर दर्पण।
लंबे समय तक अभिलेखीय
वर्तमान में उपलब्ध सर्वोत्तम तकनीकों के साथ भी, डिजिटल डेटा को केवल कुछ दशकों (लगभग 20 वर्ष) तक ही संग्रहीत किया जा सकता है। इस प्रकार, लंबे समय में, आप सिर्फ कोल्ड स्टोरेज पर भरोसा नहीं कर सकते हैं: आपको यह सुनिश्चित करने के लिए अपने डेटा संग्रह प्रक्रिया के लिए एक कार्यप्रणाली को सेटअप करने की आवश्यकता है ताकि यह सुनिश्चित किया जा सके कि आपका डेटा भविष्य में प्राप्त किया जा सकता है (यहां तक कि तकनीकी परिवर्तनों के साथ), और यह कि आप जोखिमों को कम करते हैं अपना डेटा खोने के। दूसरे शब्दों में, आपको अपने डेटा के डिजिटल क्यूरेटर बनने की ज़रूरत है , जब वे होते हैं तो भ्रष्टाचारों की मरम्मत करते हैं और ज़रूरत पड़ने पर नई प्रतियों को फिर से बनाते हैं।
कोई मूर्खतापूर्ण नियम नहीं है, लेकिन यहां कुछ स्थापित क्यूरेटिंग रणनीतियां हैं , और विशेष रूप से एक जादुई उपकरण है जो आपके काम को आसान बना देगा:
- अतिरेक / प्रतिकृति सिद्धांत : अतिरेक एकमात्र उपकरण है जो एन्ट्रापी के प्रभावों को वापस ला सकता है , जो सूचना सिद्धांत पर आधारित एक सिद्धांत है। डेटा रखने के लिए, आपको इस डेटा को डुप्लिकेट करना होगा। त्रुटि कोड वास्तव में अतिरेक सिद्धांत का एक स्वचालित अनुप्रयोग है। हालाँकि, आपको यह भी सुनिश्चित करने की आवश्यकता है कि आपका डेटा निरर्थक है: अलग-अलग डिस्क पर एक ही डेटा की कई प्रतियां, विभिन्न माध्यमों पर कई प्रतियां (ताकि यदि एक माध्यम आंतरिक समस्याओं के कारण विफल हो जाए, तो बहुत कम संभावना है कि अलग-अलग माध्यमों पर अन्य एक ही समय में विफल भी होंगे), आदि विशेष रूप से। , आपके पास हमेशा आपके डेटा की कम से कम 3 प्रतियां होनी चाहिए, जिसे इंजीनियरिंग में 3-मॉड्यूलर अतिरेक भी कहा जाता है, ताकि यदि आपकी प्रतियां दूषित हो जाएं, तो आप अपनी 3 प्रतियों से अपनी फ़ाइलों की मरम्मत के लिए एक साधारण बहुमत वोट डाल सकते हैं। नाविक की कम्पास सलाह को हमेशा याद रखें:
दो कम्पास लाना बेकार है, क्योंकि अगर कोई गलत हो जाता है, तो आप कभी नहीं जान सकते कि कौन सही है, या दोनों गलत हैं। हमेशा एक कम्पास, या तीन से अधिक लें।
कोड सुधारने में त्रुटि : यह जादुई उपकरण है जो आपके जीवन को आसान और आपके डेटा को सुरक्षित बनाएगा। त्रुटि सुधार कोड (ईसीसी) एक गणितीय निर्माण है जो डेटा उत्पन्न करेगा जिसका उपयोग आपके डेटा को सुधारने के लिए किया जा सकता है। यह अधिक कुशल है, क्योंकि ECC आपके डेटा की बहुत अधिक मरम्मत कर सकता है , जो साधारण प्रतिकृति की तुलना में बहुत कम संग्रहण स्थान का उपयोग करता है (अर्थात, आपकी फ़ाइलों की कई प्रतियाँ बना रहा है), और वे यह जाँचने के लिए भी उपयोग की जा सकती हैं कि आपकी फ़ाइल में कोई है या नहीं भ्रष्टाचार, और यहां तक कि पता लगा सकते हैं कि वे भ्रष्टाचार कहां हैं। वास्तव में, यह वास्तव में अतिरेक सिद्धांत का एक अनुप्रयोग है, लेकिन प्रतिकृति की तुलना में एक चतुर तरीके से। यह तकनीक आजकल किसी भी लंबी दूरी के संचार में उपयोग की जाती है, जैसे कि 4 जी, वाईमैक्स और यहां तक कि नासा के अंतरिक्ष संचार भी। हालांकि, ECCs दूरसंचार में सर्वव्यापी हैं, वे फ़ाइल मरम्मत में नहीं हैं, शायद इसलिए कि यह थोड़ा जटिल है। हालांकि, कुछ सॉफ्टवेयर उपलब्ध हैं, जैसे कि प्रसिद्ध (लेकिन अब पुराना) PAR2, डीवीडी डिजास्टर (जो ऑप्टिकल डिस्क पर त्रुटि सुधार कोड जोड़ने की पेशकश करता है) और pyFileFixity (जो मैं PAR2 सीमाओं और मुद्दों को दूर करने के लिए विकसित करता हूं)। फाइल सिस्टम भी हैं जो रीड-सोलोमन को वैकल्पिक रूप से लागू करते हैं जैसे कि लिनक्स के लिए जेडएफएस या विंडोज के लिए ReFS, जो तकनीकी रूप से RAID5 का एक सामान्यीकरण है।
नियमित रूप से अपनी फ़ाइलों की अखंडता की जाँच करें: अपनी फ़ाइलों को हैश करें, और उन्हें समय-समय पर चेक करें (यानी, प्रति वर्ष एक बार, लेकिन यह भंडारण माध्यम और पर्यावरणीय स्थितियों पर निर्भर करता है)। जब आप देखते हैं कि आपकी फ़ाइलों को भ्रष्टाचार का सामना करना पड़ा है, तो आपके द्वारा किए गए ईसीसी का उपयोग करके मरम्मत करने का समय है, यदि आपने ऐसा किया है, और / या एक नए भंडारण माध्यम पर अपने डेटा की एक नई नई प्रतिलिपि बनाने के लिए। डेटा की जांच करना, भ्रष्टाचार की मरम्मत करना और नई नई प्रतियां बनाना एक बहुत अच्छा परिणाम चक्र है जो यह सुनिश्चित करेगा कि आपका डेटा सुरक्षित है। विशेष रूप से जाँच करना बहुत महत्वपूर्ण है क्योंकि आपकी फ़ाइलों की प्रतियां चुपचाप दूषित हो सकती हैं, और यदि आप फिर छेड़छाड़ की गई प्रतियों की नकल करते हैं, तो आप पूरी तरह से दूषित फ़ाइलों के साथ समाप्त हो जाएंगे। यह ऑप्टिकल स्टोरेज जैसे कोल्ड स्टोरेज माध्यमों के साथ और भी महत्वपूर्ण है, जो डेटा की अखंडता की जांच स्वचालित रूप से नहीं कर सकता (वे पहले से ही ईसीसी को थोड़ा ठीक करने के लिए लागू करते हैं) लेकिन वे स्वचालित रूप से नई ताजी प्रतियाँ नहीं बना सकते और न ही जाँच सकते हैं, यही आपका काम है!)। फ़ाइलों के परिवर्तनों की निगरानी के लिए, आप rfigc.py स्क्रिप्ट का उपयोग कर सकते हैंpyFileFixity या अन्य UNIX उपकरण जैसे md5deep । आप हार्ड ड्राइव सेंटिनल या ओपन सोर्स स्मार्टमूनटूल जैसे टूल का उपयोग करके कुछ स्टोरेज माध्यमों की स्वास्थ्य स्थिति की जांच कर सकते हैं ।
विभिन्न स्थानों पर अपने अभिलेखागार माध्यमों को संग्रहीत करें (बाढ़ या आग जैसी वास्तविक जीवन की विनाशकारी घटनाओं से बचने के लिए अपने घर के बाहर कम से कम एक कॉपी के साथ!)। उदाहरण के लिए, आपके काम में एक ऑप्टिकल डिस्क, या क्लाउड-आधारित बैकअप इस आवश्यकता को ध्यान में रखते हुए एक अच्छा विचार हो सकता है (भले ही क्लाउड प्रदाता किसी भी समय बंद हो सकते हैं, जब तक आपके पास अन्य प्रतियां हैं, आप सुरक्षित रहेंगे , क्लाउड प्रदाता केवल आपातकाल के मामले में एक ऑफसाइट आर्काइव के रूप में काम करेंगे)।
नियंत्रित पर्यावरणीय मापदंडों के साथ विशिष्ट कंटेनरों में स्टोर करें : ऑप्टिकल माध्यमों के लिए, नमी से बचने के लिए प्रकाश से दूर और पानी से भरे बॉक्स में स्टोर करें। हार्ड ड्राइव और एसडी कार्ड के लिए, ड्राइव को छेड़छाड़ करने के लिए अवशिष्ट बिजली से बचने के लिए विरोधी चुंबकीय आस्तीन में स्टोर करें। आप एयर-टाइट और वाटर-टाइट बैग / बॉक्स में भी स्टोर कर सकते हैं और एक फ्रीज़र में स्टोर कर सकते हैं: धीमी गति से तापमान में तेज़ी आएगी, और आप किसी भी स्टोरेज मीडियम की जीवन अवधि को काफी बढ़ा सकते हैं (बस यह सुनिश्चित कर लें कि पानी जीत गया 'अंदर प्रवेश न करें, अन्यथा आपका माध्यम जल्दी मर जाएगा)।
अच्छी गुणवत्ता वाले हार्डवेयर का उपयोग करें और उन्हें पहले से ही जांच लें (जैसे: जब आप एसडी कार्ड खरीदते हैं, तो पूरे कार्ड का परीक्षण सॉफ्टवेयर के साथ करें जैसे कि एचडीडी स्कैन यह जांचने के लिए कि आपका डेटा लिखने से पहले सब कुछ ठीक है)। यह ऑप्टिकल ड्राइव के लिए विशेष रूप से महत्वपूर्ण है, क्योंकि उनकी गुणवत्ता आपके जले हुए डिस्क की गुणवत्ता को काफी बदल सकती है, जैसा कि अभिलेखागार डी फ्रांस अध्ययन (एक खराब डीवीडी बर्नर डीवीडी का उत्पादन करेगा जो बहुत कम समय तक चलेगा)।
ध्यान से अपने फ़ाइल स्वरूपों का चयन करें: सभी फाइलें प्रारूप भ्रष्टाचार के खिलाफ लचीला नहीं हैं, कुछ स्पष्ट रूप से कमजोर हैं। उदाहरण के लिए, .jpg चित्र केवल एक या दो बाइट्स से छेड़छाड़ करके पूरी तरह से टूटे और अपठनीय हो सकते हैं। 7zip अभिलेखागार के लिए भी। यह हास्यास्पद है, इसलिए आपके द्वारा संग्रहित फ़ाइलों के फ़ाइल प्रारूप के बारे में सावधान रहें। अंगूठे के एक नियम के रूप में, सरल स्पष्ट पाठ सबसे अच्छा है, लेकिन अगर आपको संपीड़ित करने की जरूरत है, गैर-ठोस ज़िप का उपयोग करें और छवियों के लिए, जेपीईजी 2 (अभी तक खुला-स्रोत नहीं ...) का उपयोग करें। अधिक जानकारी और प्रो डिजिटल क्यूरेटर की समीक्षा यहाँ , यहाँ और यहाँ ।
डेटा को पढ़ने के लिए आवश्यक प्रत्येक सॉफ़्टवेयर और विशिष्टताओं के साथ अपने डेटा अभिलेखागार के साथ स्टोर करें। याद रखें कि विनिर्देश तेज़ी से बदलते हैं, और इस प्रकार भविष्य में आपका डेटा अब पढ़ने योग्य नहीं हो सकता है, भले ही आप फ़ाइल तक पहुंच सकें। इस प्रकार, आपको खुले स्रोत प्रारूप और सॉफ़्टवेयर पसंद करना चाहिए, और अपने डेटा के साथ प्रोग्राम के स्रोत कोड को संग्रहीत करना चाहिए ताकि आप हमेशा नए ओएस या कंप्यूटर से लॉन्च करने के लिए प्रोग्राम को स्रोत कोड से अनुकूलित कर सकें।
अन्य तरीकों और दृष्टिकोणों के बहुत सारे यहां , यहां और इंटरनेट के विभिन्न हिस्सों में उपलब्ध हैं ।
निष्कर्ष
मैं आपको जो कुछ भी हो सकता है, उसका उपयोग करने की सलाह देता हूं, लेकिन हमेशा अतिरेक सिद्धांत का सम्मान करें (4 प्रतियां बनाएं!), और हमेशा नियमित रूप से अखंडता की जांच करें (इसलिए आपको एमडी 5 / एसएचए 1 हैश के डेटाबेस को पहले से तैयार करने की आवश्यकता है), और नया बनाएं भ्रष्टाचार के मामले में प्रतियां। यदि आप ऐसा करते हैं, तो आप तकनीकी रूप से अपने डेटा को तब तक रख सकते हैं जब तक आप चाहते हैं कि आपका भंडारण माध्यम जो भी हो। प्रत्येक चेक के बीच का समय आपके स्टोरेज माध्यमों की विश्वसनीयता पर निर्भर करता है: यदि यह एक फ़्लॉपी डिस्क है, तो हर 2 महीने में जांच करें, अगर यह ब्लू-रे HTL है, तो हर 2/3 साल की जाँच करें।
अब इष्टतम में, मैं ब्लू-रे HTL डिस्क या अभिलेखीय ग्रेड डीवीडी डिस्क का उपयोग करने के लिए कोल्ड स्टोरेज के लिए सलाह देता हूं जो पानी से तंग अपारदर्शी बक्से में संग्रहीत है और एक नए स्थान पर संग्रहीत है। इसके अलावा, आप एसडी कार्ड और क्लाउड-आधारित प्रदाताओं जैसे स्पाइडरऑक का उपयोग अपने डेटा की निरर्थक प्रतियों, या हार्ड ड्राइव को संग्रहीत करने के लिए कर सकते हैं, यदि यह आपके लिए अधिक सुलभ हो।
कोड को सही करने में बहुत सी त्रुटि का उपयोग करें , वे आपका दिन बचाएंगे। इसके अलावा, आप इन ईसीसी फाइलों की कई प्रतियाँ बना सकते हैं (लेकिन आपके डेटा की कई प्रतियाँ ईसीसी की कई प्रतियों की तुलना में अधिक महत्वपूर्ण हैं क्योंकि ईसीसी फाइलें खुद की मरम्मत कर सकती हैं!)।
इन रणनीतियों को उन सभी उपकरणों के सेट का उपयोग करके लागू किया जा सकता है जिन्हें मैं विकसित कर रहा हूं (खुला स्रोत): pyFileFixity । यह टूल वास्तव में इस चर्चा के द्वारा शुरू किया गया था, यह पता लगाने के बाद कि फ़ाइल की शुद्धता को पूरी तरह से प्रबंधित करने के लिए कोई मुफ्त टूल नहीं था। इसके अलावा, कृपया प्रोजेक्ट की रीडमी और विकी के बारे में अधिक जानकारी के लिए फाइल फिक्सेटी और डिजिटल क्यूरेशन देखें।
एक अंतिम नोट पर, मैं वास्तव में आशा करता हूं कि इस समस्या पर अधिक आर एंड डी डाला जाएगा। यह हमारे वर्तमान समाज के लिए एक प्रमुख मुद्दा है, अधिक से अधिक डेटा का डिजिटलीकरण किया जा रहा है, लेकिन बिना किसी गारंटी के कि यह सूचना का द्रव्यमान कुछ वर्षों से अधिक जीवित रहेगा। यह काफी निराशाजनक है, और मुझे वास्तव में लगता है कि इस मुद्दे को बहुत अधिक सामने रखा जाना चाहिए, ताकि यह स्टोरेज डिवाइस बनाने के लिए कंस्ट्रक्टर्स और कंपनियों के लिए एक विपणन बिंदु बन जाए जो भविष्य की पीढ़ियों के लिए पिछले कर सकते हैं।
/ संपादित करें: एक व्यावहारिक अवधि के लिए नीचे पढ़ें ।