100 TeraBytes क्षमता डेटाबेस - संसाधन और समय अनुमान


10

मैं 100TB रिपोर्टिंग डेटाबेस सेटअप के लिए 'लिफाफे के पीछे' गणना पर काम कर रहा हूं। मैं यहां के विशेषज्ञों से विचार मांग रहा हूं। प्रस्तावित वातावरण:

  1. भंडारण क्षमता ~ 100TB
  2. टेबल्स ~ 200, आकार 1GB से 5TB तक है। मतलब आकार 100GB-200GB के बीच झूठ हो सकता है
  3. ETL - नौकरियों को 10 बाइट्स से लेकर 10 बाइट्स से लेकर 500 बाइट्स तक के साथ 10 से लाखों पंक्तियों के टेबल के बीच शामिल होना पड़ सकता है। इस तरह के जुड़ावों को 2-5 मिनट के अंदर समाप्त कर देना चाहिए
  4. लाइव चयन - प्रारंभ में, केवल चुनिंदा गति में रुचि रखते हैं। 500 चयनों / सेकंड का समर्थन करना चाहिए। अपडेट / सेकंड अपेक्षाकृत कम संख्या में होंगे और इस अभ्यास के लिए नजरअंदाज किया जा सकता है।
  5. 24x7 उपलब्धता की आवश्यकता है। 2 स्वतंत्र डीबी सर्वर चुनिंदा कॉल (डेटा प्रतिकृति के साथ) की सेवा के लिए उपलब्ध होना चाहिए।

प्रशन:

  1. वर्तमान में, मैं ओरेकल को देख रहा हूं। आपका अनुभव बड़े डेटाबेस के लिए अन्य वाणिज्यिक (या) ओपनसोर्स समाधानों के साथ कैसा रहा है?
  2. सबसे अच्छा काम करने के लिए आपने कौन से हार्डवेयर-ओएस देखे हैं? मैं डेल पर लिनक्स के लिए योजना बना रहा हूं।
  3. क्या नेटवर्क स्टोरेज, जैसे कि NetApp, एक चाहिए? शेल्फ़ डिस्क से कमर्शियल का उपयोग करने में आपको क्या समस्याएँ आती हैं?
  4. एक बार हार्डवेयर और ओएस तैयार हो जाने के बाद, आपको सेटअप, डीबी, स्टोरेज आदि को कॉन्फ़िगर करने के लिए कितना समय देना होगा।
  5. टीम की रचनाओं ने आपके द्वारा देखे गए वातावरण में सबसे अच्छा काम किया है? मेरा मतलब है, इस तरह के सेटअप को प्रबंधित करने और संचालित करने के लिए विभिन्न एडमीन (ओएस एडमिन, ओरेकल डीबी एडमिन?) की आवश्यकता होती है। उनमें से कितने को 24x7 अपटाइम प्राप्त करने की आवश्यकता हो सकती है।
  6. DB लाइसेंस, नेटवर्क भंडारण लागत पर कोई सन्निकटन / सीमा।

मुझे पता है कि मेरे पास पर्यावरण का पूरा विवरण नहीं है। मैं सटीक विवरण की तलाश नहीं कर रहा हूं, एक अनुमान पर्याप्त है। हालाँकि, कुछ सवालों का जवाब प्रबंधकों द्वारा दिया जा सकता है, पर मुझे अडमिन के परिप्रेक्ष्य में दिलचस्पी है। मैं आपके इनपुट की सराहना करता हूं।


1
मुझे लगता है कि यह सवाल जवाब देने के लिए बहुत व्यापक है। यदि वे प्रगति से पहले सहमत होते हैं तो मैं दूसरों को देखने दूंगा।
फिलो

1
@ यदि मैं सहमत हूं, तो मुझे यकीन नहीं था कि इसे कई प्रश्नों में विभाजित किया जाना चाहिए, इसलिए विभिन्न विशेषज्ञता वाले उपयोगकर्ता अलग-अलग हिस्सों का जवाब दे सकते हैं। लेकिन पर्यावरण विवरण सभी प्रश्नों के लिए समान है, इसलिए एकल प्रश्न बनाने के लिए आगे बढ़ा। मुझे लगता है कि यह एसओ (हालांकि एसओ का एक नियमित उपयोगकर्ता) पर मेरा पहला प्रश्न हो सकता है, इसलिए मुझे नौसिखिया समझें और यदि इस प्रश्न को हल करने का कोई बेहतर तरीका है, तो कृपया सुझाव दें।
काश

10
यह एक बहु मिलियन डॉलर की परियोजना की तरह लगता है। क्या आप फोरम की सलाह पर इस तरह के प्रोजेक्ट को आधार बनाएंगे?
रेमस रुसानु

1
@RemusRusanu यह जानकारी का एकमात्र स्रोत नहीं है। जब यह औपचारिक मूल्यांकन चरण में जाता है, तो बहुत सारी अन्य गतिविधियाँ होंगी। मेरे पास SO उपयोगकर्ताओं द्वारा दी गई सलाह का एक उच्च विचार है। प्रश्न लिखते समय, मुझे यकीन था कि मुझे कुछ बहुत उपयोगी विवरण मिलेंगे, जो मैंने बिल्कुल नहीं सोचा था।
काश

1
@RemusRusanu - यह है। नेटविज़ा के लिए मैंने जो अंतिम मूल्य देखा वह ट्विनफिन सिस्टम के लिए $ 20k / TB था। यकीन नहीं होता कि उस क्षमता का एक्सडाटा बॉक्स क्या होगा। इसके अलावा, SLA बहुत आक्रामक है और सिस्टम ऐसा लगता है जैसे इसमें एक बड़ा उपयोगकर्ता आधार है। क्वेरी लोड को संभालने के लिए बड़ी संख्या में डेटा मार्ट सर्वर की आवश्यकता हो सकती है।
कंसर्नडऑफटुनब्रिजवेल्स

जवाबों:


21

पहली छापें

  1. आपकी प्रदर्शन आवश्यकताओं के आधार पर, 100TB एक काफी आक्रामक डेटा वॉल्यूम है। यदि आप Oracle चाहते हैं, तो आपको उनके Exadata सिस्टम को देखना चाहिए। इसके अलावा, Netezza या Teradata से प्रसाद पर एक नज़र डालें। चयनों की उस मात्रा के साथ आप किसी OLAP आधारित सामने के छोर को देखना चाहते हैं या कम से कम भौतिकवादी विचारों और क्वेरी को लिखने के लिए काफी आक्रामक उपयोग कर सकते हैं। आपको किसी भी चीज़ से 500 टेबल स्कैन / सेकंड नहीं मिलेंगे।

    कम कठोर विलंब आवश्यकताओं के साथ सामान के लिए आप अपने उपयोगकर्ता समुदाय को रिपोर्टिंग क्षमता प्रदान करने के लिए बड़ी संख्या में डेटा मौसा पर विचार कर सकते हैं। इस स्थिति में, SQL सर्वर और SSAS डेटा marts के लिए एक विकल्प हो सकता है क्योंकि बड़ी संख्या में सर्वरों पर लाइसेंस ओरेकल के साथ ऐसा करने की कोशिश की तुलना में सस्ता होगा।

  2. देखें (1)। एक साझा-डिस्क आर्किटेक्चर पर पारंपरिक हार्डवेयर इस आकार के डेटा सेट पर धीमा होने की संभावना है।

  3. नहीं! अगर किसी को पता है कि एनएफएस उन्हें अच्छी किक दे रहा है। या तो प्रत्यक्ष भंडारण या एक मल्टीपल कंट्रोलर सैन जो बहुत सारे मिड-रेंज कंट्रोलर के साथ है। शायद एक दर्जन MD3000 श्रृंखला नियंत्रकों या कुछ इसी तरह के एक जोड़े के संदर्भ में सोचें - यदि आप एक उद्देश्य के लिए 'बड़े डेटा' प्लेटफॉर्म पर नहीं जाते हैं।

  4. पीबी रेंज डेटा वेयरहाउस प्लेटफार्मों में अनुभव के साथ एक भंडारण विशेषज्ञ प्राप्त करें। यदि आप एक कड़ी एसएलए से मिलना चाहते हैं, तो आप एक महत्वपूर्ण ईटीएल विकास कार्य, और बहुत सारे परीक्षण कार्य के लिए तैयार हैं।

  5. एक डेटा वेयरहाउस पर 24x7 सबसे अच्छे समय पर महत्वाकांक्षी है। क्या यह ऑपरेशनल रिपोर्टिंग प्लेटफॉर्म है? शायद आप अपनी आवश्यकताओं पर थोड़ा विस्तार कर सकते हैं।

  6. स्फिंक्टर- puckeringly महंगा है, और अपने प्रदर्शन आवश्यकताओं पर निर्भर है। आखिरी बार मैंने (कुछ साल पहले) देखा कि नेटवेजा ट्विनफिन सिस्टम के लिए 20,000 डॉलर / टीबी का इस्तेमाल करता था, जिससे आपके प्लेटफॉर्म को 100TB के लिए $ 2m और साथ ही आपके अनावश्यक सर्वर और बैकअप हार्डवेयर की कीमत मिल जाती थी। एक्सडाटा है, मेरा मानना ​​है कि थोड़ा सस्ता है, लेकिन मेरे पास हाथ करने के लिए कोई मूल्य नहीं है।

    तुलना के लिए Netezza, Exadata और एक Teradata मंच पर एक नज़र डालें, और एक ETL उपकरण के रूप में Ab Inio के लिए लागत।

यह आवश्यकताओं का एक काफी आक्रामक सेट है - 24x7 डेटा वेयरहाउस पर सामान्य रूप से नहीं किया जाता है और डेटा वॉल्यूम आपको 'बड़े डेटा' प्लेटफ़ॉर्म के दायरे में रखने के लिए पर्याप्त है। यदि आपके पास परिचालन संबंधी आवश्यकता है, तो आपको ध्यान से देखना चाहिए कि क्या है। जब तक आपके पास कोई विशिष्ट कारण (उदाहरण के लिए कम-विलंबता बाज़ार डेटा फ़ीड) न हो, तब तक इसे अपने विश्लेषण से अलग रखें। परिचालन और विश्लेषणात्मक आवश्यकताओं को एक ही मंच पर मिलाना बुरा मोजो है।

मुझे लगता है कि आपको अपनी आवश्यकताओं का मूल्यांकन करने के लिए वास्तव में विशेषज्ञों की आवश्यकता है। आप जो कुछ हासिल करने की कोशिश कर रहे हैं उस पर करीब से नज़र डाले बिना, कुछ अनुभवजन्य सुझाव हैं कि क्या करना है या क्या नहीं करना है।


8

इस तरह से बड़े पैमाने पर डेटा संस्करणों के साथ काम करने पर विचार करने के लिए कुछ अन्य विकल्प शामिल हैं:

  1. वह सब कुछ जो @ConcernedOfTunbridgeWells ने पोस्ट किया है
  2. ईएमसी से ग्रीनप्लम
  3. Microsoft से समानांतर डेटा वेयरहाउस

कहीं भी हार्डवेयर लागत पर कंजूसी करने की योजना न बनाएं। इन प्रकार के चश्मे के साथ एक प्रणाली आपको कुछ बड़ी रकम खर्च करने जा रही है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.