अमेज़न S3 पर डेटा का बैकअप बनाने की कोई आवश्यकता है?


16

मैं S3 पर 200 GB की उत्पाद छवियों की मेजबानी कर रहा हूं (यह मेरी प्राथमिक फ़ाइल होस्ट है)।

क्या मुझे उस डेटा को कहीं और वापस करने की ज़रूरत है या S3 सुरक्षित है?

मैं एक EC2 उदाहरण के लिए S3 बाल्टी बढ़ते के साथ प्रयोग कर रहा हूं, और फिर एक रात का rsync बैकअप बना रहा हूं। समस्या यह है कि यह लगभग 3 मिलियन फाइलें हैं, इसलिए विभिन्न rsync आवश्यकताओं को उत्पन्न करने में कुछ समय लगता है। बैकअप को पूरा होने में लगभग 3 दिन लगते हैं।

किसी भी विचार यह कैसे बेहतर करने के लिए? (यदि यह आवश्यक भी है?)

जवाबों:


5

मैं इस पर शोध कर रहा हूं, काफी मजेदार।

S3 के लिए आपका बैकअप आपके क्षेत्र के आधार पर अंततः स्थिरता के कारण विफल हो सकता है; बुनियादी चेतावनी यह है कि यदि आप यह पर्याप्त करते हैं, तो कुछ बिंदु पर आपको सर्वर के बीच अमेज़ॅन सिंक की पृष्ठभूमि में फाइलसिस्टम मैजिक के रूप में फाइल खोलने या खोजने में त्रुटियां होंगी, इसलिए हो सकता है कि आपका बैकअप विश्वसनीय न हो।

जैसे कि क्या आपको उन्हें दूसरे तरीके से बचाने की आवश्यकता है, यह आपके जोखिम प्रबंधन पर निर्भर करता है। क्या आपको अपने डेटा को रखने के लिए अमेज़न पर भरोसा है?

यह संभव है कि वे कुछ खो सकते हैं या उनकी भंडारण प्रणाली की बड़ी विफलता हो सकती है; उन्हें कोई संदेह नहीं है कि उनके अनुबंधों में यह निर्दिष्ट है कि यदि वे आपका डेटा खो देते हैं, तो यह आपकी समस्या है। उनकी नहीं। इसके अलावा, यह देखते हुए कि आपका डेटा कहीं और रखा गया है, आपको नहीं पता कि वे इसके साथ क्या करेंगे; कानून प्रवर्तन आपका डेटा चाहते हैं? आप शायद यह भी नहीं जानते कि किसी और ने इसे एक्सेस किया है।

क्या आपको इस पर भरोसा है? यदि डेटा आपके व्यवसाय के लिए महत्वपूर्ण नहीं है और आप इस जोखिम को स्वीकार करने के लिए तैयार हैं, तो इसे ऑफसाइट-स्टोरेज में डाउनलोड करने की कोई आवश्यकता नहीं है। यदि आप यह जोखिम लेने को तैयार नहीं हैं कि आपका डेटा अमेज़न के स्टोरेज सर्वर में सुरक्षित रहेगा, तो आपको समय-समय पर इसे अपने स्टोरेज में डंप करने की व्यवस्था करनी चाहिए।

दूसरे शब्दों में, मुझे नहीं लगता कि इसका कोई सीधा जवाब है क्योंकि यह आपके जोखिम सहिष्णुता और व्यावसायिक जरूरतों पर निर्भर करता है। बहुत से लोग पूरी तरह से क्लाउड के साथ भंडारण पर अपनी आय पर भरोसा नहीं करेंगे, व्यक्तिगत रूप से मुझे लगता है कि थोड़ा सावधान ...

इसे बेहतर तरीके से करने के लिए, चर्चा और अनुसंधान में, विचार करने के लिए एक और दृष्टिकोण डेटा को स्टोर करने के लिए काफी बड़ा ईबीएस वॉल्यूम बना रहा है, इसे ईसी 2 उदाहरण में संलग्न करें, अपने डेटा को वहां सहेजें, फिर आप वॉल्यूम को अनमाउंट कर सकते हैं और उस डेटा को S3 में सहेज सकते हैं। । मैं शोध के बीच में हूं कि क्या यह वॉल्यूम फ़ाइल को S3 या सामग्री में सहेजने के रूप में किया जाएगा ... लेकिन तब आप स्टोरेज की लागत बचाने के लिए ईबीएस उदाहरण को हटा सकते हैं।

संपादित करें, मैं फिर से पढ़ रहा हूँ कि आप EC3 उदाहरण के लिए S3 से बचत कर रहे हैं, इसके विपरीत नहीं (हालांकि मुझे नहीं पता है कि अंततः संगति समस्या अभी भी समस्या पैदा कर सकती है)। आप बैकअप के रूप में EC2 उदाहरण में डेटा सहेजने का प्रयास कर रहे हैं? मुझे लगता है कि लागत-वार यह एक ध्वनि रणनीति नहीं है; जब आप वीएम समय के साथ उस तरह के डेटा के दीर्घकालिक भंडारण में कारक हो, तो स्थानीय ड्राइव तक चीजों को वापस करना सस्ता हो सकता है। ड्राइव लागत के साथ आप बैकअप के रूप में स्थानीय डिस्क पर डेटा को कॉपी कर सकते हैं।

मैं अभी भी अमेज़ॅन और उनके भंडारण पर भरोसा करने के बारे में चेतावनी देता रहूंगा। यदि आप अमेज़ॅन एस 3 में सब कुछ रखना चाहते हैं, लेकिन अधिक अतिरेक है, तो अपने एस 3 बाल्टी को पूरे क्षेत्रों में डुप्लिकेट करें, और यदि उनके पास एक क्षेत्र है जो एक क्षेत्र को प्रभावित करता है तो यह उन सभी को बाहर नहीं फेंकना चाहिए। आपको उम्मीद होगी। हालांकि कुछ भी संभव है।

यह नीचे आता है कि आप अपने डेटा को कितना महत्व देते हैं, आप इसके लिए कितना भुगतान करने को तैयार हैं और कितना जोखिम आप सहन करना चाहते हैं।


आपके उत्तर के लिए धन्यवाद, लेकिन मुझे लगता है कि आपने गलत समझा। मैं अपने प्राथमिक भंडारण के रूप में S3 का उपयोग कर रहा हूं (मैं फ़ाइलों को सीधे वहां से होस्ट कर रहा हूं cdn)। तो मेरा सवाल यह था कि क्या फाइलें वहां सुरक्षित हैं, या अगर मुझे उनमें से किसी एक का बैकअप बनाने की आवश्यकता है (एक और S3 बकर या EC2 उदाहरण के लिए हो सकता है)?
क्रिस

एक एडिट पर जोड़ा गया।
बार्ट सिल्वरस्ट्रिम

हम्म, हाँ शायद एक स्थानीय बैकअप सुरक्षित होगा। क्या आप जानते हैं कि S3 और EC2 एक ही हार्डवेयर साझा करते हैं - यदि यह विफल रहता है, तो S3 और मेरे EC2 बैकअप दोनों चले जाएंगे? EC2 का बैकअप बनाने के मेरे दो कारण हैं: (1) EC2 और S3 के बीच कोई ट्रांसफर चार्ज नहीं है। हर हफ्ते या तो स्थानीय रूप से 200 जीबी की नकल करना बहुत महंगा होगा। (2) S3 पर एक आपदा के मामले में, मैं छवियों से साझा करने के लिए अपने EC2 उदाहरण को बहुत तेज़ी से परिवर्तित कर सकता था। लेकिन मुझे लगता है कि एक स्थानीय बैकअप के कई फायदे भी हैं ...
Chrille

मुझे ईमानदारी से पता नहीं है कि पृष्ठभूमि में अमेज़न का हार्डवेयर कैसे स्थापित किया गया है; यहां तक ​​कि अगर मुझे पता था, तो कोई गारंटी नहीं है कि वे इसे भविष्य में नहीं बदलेंगे।
बार्ट सिल्वरस्ट्रिम

4

मैंने ऐसा करने के s3cmd sync लिए s3cmd का उपयोग किया है । यह ऑपरेशन में थोड़ा सा rsync- जैसा है, और S3 और अपनी पसंद के किसी अन्य लिनक्स सिस्टम के बीच पूरी निर्देशिका को पुश और खींच सकता है।

मुझे कोई कारण नहीं दिखाई देता है कि आप s3cmd syncEC2 इंस्टेंस या अपने खुद के डेवलपर वर्कस्टेशन (या स्टोरेज सर्वर) को क्यों नहीं चला सकते हैं ।

आप एक VPC उदाहरण सेट करना चाहते हैं, और तब आप अपने VPC के अंदर एक छोटा नोड असाइन कर सकते हैं बैकअप सर्वर की भूमिका, और इसे Amazon के नेटवर्क के अंदर और साथ ही साथ आपके स्थानीय सबनेट के अंदर एक IP दे सकते हैं।


मेरी चिंता, जो उसे अपने वित्तीयों के साथ तय करनी होगी, एक EC2 उदाहरण और EBS को बनाए रखने की लागत है जो उस तरह के डेटा को स्टोर करने की तुलना में स्थानीय बाहरी हार्ड ड्राइव को बचाने के लिए एक सौ सौ रुपये के बजाय। यदि धन हस्तांतरण शुल्क के लिए अनुमति देता है, तो मैं इसे एक स्थानीय ड्राइव पर डाउनलोड करूंगा और समय-समय पर सिंक में रखूंगा (जो आपके दिए गए समाधान का भी हिस्सा था।)
बार्ट सिल्वरस्ट्रिअम

अमेज़ॅन का EC2 शब्द के किसी भी माप से सस्ता नहीं है, खासकर यदि आप एंटरप्राइज़-स्तर, या साधारण सामान के अलावा कुछ भी करना चाहते हैं। अगर आपको वह पसंद नहीं है, तो शायद यह आपके लिए नहीं है।
टॉम ओ'कॉनर

@BartSilverstrim: AWS के भीतर स्थानांतरण मुफ्त नहीं है? यदि हां, तो स्थानीय स्तर की तुलना में मेरे लिए EC2 को कॉपी करना सस्ता हो सकता है। मेरे पास वैसे भी 24/7 चल रहा एक EC2 उदाहरण है, इसलिए यह केवल ईबीएस स्थान है जो खर्च होगा।
चेरिल

2

मेरी सलाह है कि आपका डेटा आपकी ज़िम्मेदारी है, अमेज़न की नहीं। यदि डेटा खोना इतना बड़ा सौदा नहीं है, तो अपना खुद का बैकअप न लें। यदि यह है, तो अपने बैकअप को (बहुत कम से कम) एक सस्ते JBOD (और नियमित रूप से सत्यापित करें) के रूप में मैं करता हूं।

आपको पता चलेगा कि आपके डेटा के लिए अमेज़ॅन कितना ज़िम्मेदार है, जिस दिन वे इसे खो देते हैं।


0

यदि आप इसे बर्दाश्त कर सकते हैं (जैसा कि मैं ऐसा करता हूं) मेरे सभी डेटा मेरे सर्वर पर संग्रहीत हैं, लेकिन इसे अमेज़ॅन s3 से खींच रहा है। इसलिए यदि अमेज़ॅन किसी भी कारण (टच वुड) के लिए नीचे जाता है, तो मैं अपने सर्वर से तुरंत अपने सभी डेटा को तुरंत खींच सकता हूं। अपने सर्वर से मैं अपने स्थानीय ड्राइव पर मासिक बैकअप करता हूं। जैसा कि मेरी वेबसाइट साइट पर 2TB से अधिक है।


मुझे यह थोड़ा अस्पष्ट है कि आपकी सिफारिश क्या है। आपका सर्वर क्या है और यह कहाँ स्थित है?
कैस्परल्ड

0

हालाँकि यह एक पुराना धागा है, यह पहली चीज़ है जो Googling S3 बैकअप के समय सामने आती है, इसलिए मैंने सोचा कि मैं इसे जोड़ूंगा ...

इस पर खुद कुछ शोध करते हुए, मैंने Rclone https://rclone.org/ की खोज की - यह rsync-ish सॉफ्टवेयर है जिसे क्लाउड फ़ाइल भंडारण सेवाओं के बीच कॉपी करने के लिए डिज़ाइन किया गया है और उनमें से अधिकांश का समर्थन करता है। कोई जुड़ाव नहीं है और मैंने अभी तक इसका उपयोग नहीं किया है इसलिए मैं यह नहीं कह सकता कि यह अच्छा है या बुरा, लेकिन मैंने सोचा कि यह किसी की मदद कर सकता है।

मुझे ऐसा लगता है कि एक होस्ट की गई सेवा के लिए अवसर है जो क्लाउड-होस्टेड फ़ाइलों (S3, Google संग्रहण, रैकस्पेस क्लाउड फ़ाइलें, आदि) के 'ऑफसाइट' बैकअप करता है ...।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.