क्या Amazon RedShift ~ 1XTB डेटा के लिए Hadoop की जगह लेती है?


12

Hadoop और इसके इको-सिस्टम के आसपास बहुत प्रचार है। हालाँकि, व्यवहार में, जहाँ कई डेटा सेट टेराबाइट रेंज में हैं, क्या अमेज़ॅन RedShift का उपयोग बड़े डेटा सेटों को क्वेरी करने के लिए करना अधिक उचित नहीं है , बजाय समय और प्रयास के एक Hadoop क्लस्टर बनाने में?

इसके अलावा, अमेज़ॅन रेडशिफ्ट की स्थापना की जटिलता, लागत और प्रदर्शन के संबंध में Hadoop के साथ तुलना कैसे की जाती है?


क्या आपका मतलब है हडोप या क्या आपका मतलब इम्पाला की तरह रेडशिफ्ट के लिए एक विशिष्ट समकक्ष है?
शॉन ओवेन

@ मेरे सवाल में सीन, मैं अपाचे Hadoop की बात कर रहा था। हालांकि इम्पाला की तुलना करना भी दिलचस्प होगा।
त्रिकोणीयवाद

जवाबों:


12

tl; dr: वे स्पष्ट रूप से कई पहलुओं में भिन्न हैं और मुझे नहीं लगता कि Redshift Hadoop की जगह लेगा।

-फंक्शन
आप Redshift पर SQL के अलावा और कुछ नहीं चला सकते हैं। शायद सबसे महत्वपूर्ण बात, आप Redshift पर किसी भी प्रकार के कस्टम फ़ंक्शन नहीं चला सकते। Hadoop में आप कई भाषाओं (Java, Python, Ruby .. you name it) का उपयोग कर सकते हैं। उदाहरण के लिए, Hadoop में NLP आसान है, जबकि Redshift में यह कम या ज्यादा असंभव है। यानी ऐसी बहुत सी चीजें हैं जो आप होडोप में कर सकते हैं लेकिन रेडशिफ्ट पर नहीं। यह शायद सबसे महत्वपूर्ण अंतर है।

-परिवर्तन प्रोफ़ाइल
Redshift पर क्वेरी निष्पादन ज्यादातर मामलों में Hadoop की तुलना में काफी अधिक कुशल है। हालाँकि, यह दक्षता उस अनुक्रमण से आती है, जब डेटा को Redshift में लोड किया जाता है (मैं indexingयहाँ बहुत ही ढीले शब्द का उपयोग कर रहा हूँ )। इसलिए, यदि आप अपना डेटा एक बार लोड करते हैं और कई क्वेरी निष्पादित करते हैं, तो यह बहुत अच्छा है, लेकिन यदि आप उदाहरण के लिए केवल एक क्वेरी निष्पादित करना चाहते हैं, तो आप वास्तव में समग्र प्रदर्शन में खो सकते हैं।

-कॉस्ट प्रोफ़ाइल
लागत में कौन सा समाधान जीतता है यह स्थिति (प्रदर्शन की तरह) पर निर्भर करता है, लेकिन होडोप से सस्ता (अधिक विशेष रूप से अमेज़ॅन का इलास्टिक मैप रिड्यूस) बनाने के लिए आपको काफी प्रश्नों की आवश्यकता है। उदाहरण के लिए, यदि आप OLAP कर रहे हैं, तो यह बहुत संभावना है कि Redshift सस्ता हो। यदि आप दैनिक बैच ETL करते हैं, तो Hadoop के सस्ते होने की संभावना है।

यह कहने के बाद, हमने अपने ईटीएल के हिस्से को बदल दिया है जो हाइव टू रेडशिफ्ट में किया गया था, और यह एक बहुत अच्छा अनुभव था; ज्यादातर विकास में आसानी के लिए। Redshift का क्वेरी इंजन PostgreSQL पर आधारित है और हाइव की तुलना में बहुत परिपक्व है। इसकी ACID विशेषताएं इसके बारे में तर्क करना आसान बनाती हैं, और त्वरित प्रतिक्रिया समय अधिक परीक्षण करने की अनुमति देता है। यह एक महान उपकरण है, लेकिन यह Hadoop को प्रतिस्थापित नहीं करेगा।

संपादित करें : सेटअप जटिलता के रूप में, यदि आप AWS के EMR का उपयोग करते हैं, तो मैं यह भी कह सकता हूं कि यह Hadoop के साथ आसान है। उनके उपकरण इतने परिपक्व होते हैं कि आपका हडोप नौकरी चलाना हास्यास्पद है। Redshift के संचालन के आसपास के उपकरण और तंत्र अभी तक परिपक्व नहीं हैं। उदाहरण के लिए, Redshift ट्रिकल लोडिंग को संभाल नहीं सकता है और इस प्रकार आपको कुछ ऐसा करना होगा जो कि एक बैच लोड में बदल जाए, जो आपके ETL में कुछ जटिलता जोड़ सकता है।


2
easier to develop because of Redshift's maturityविरोधाभास Redshift isn't that mature yetतो आपके फैसले के साथ क्या है?
एम। मिम्पेन

@ एम। मिम्पेन: संपादित उत्तर और अधिक विशिष्ट होने के लिए
Enno Shioji

5

Amazon Redshift के लिए वर्तमान आकार की सीमा 128 नोड या संपीड़ित डेटा के 2 PBs है। 6aB असम्पीडित हो सकता है, हालांकि माइलेज कंप्रेशन के लिए भिन्न होता है। आप हमेशा हमें बता सकते हैं कि क्या आपको अधिक आवश्यकता है। अनुराग @ एव्स (मैं अमेज़ॅन रेडशिफ्ट और अमेज़ॅन ईएमआर चलाता हूं)


3

व्यक्तिगत रूप से, मुझे नहीं लगता कि हडूप क्लस्टर स्थापित करना मुश्किल है, लेकिन मुझे पता है कि जब आप शुरू कर रहे होते हैं तो यह कभी-कभी दर्दनाक होता है।

HDFS आकार की सीमाएं अच्छी तरह से एक टीबी से अधिक होती हैं (या क्या आपका मतलब एक्सैबाइट है?)। अगर मैं गलत नहीं हूँ तो यह yottabytes या कुछ अन्य माप के लिए तराजू है जो मुझे शब्द भी नहीं पता है। जो भी हो, यह वास्तव में बड़ा है।

Redshift जैसे उपकरणों का अपना स्थान है, लेकिन मैं हमेशा विक्रेता विशिष्ट समाधानों के बारे में चिंता करता हूं। मेरी मुख्य चिंता हमेशा "जब मैं उनकी सेवा से असंतुष्ट हूं तो मैं क्या करूं?" - मैं Google पर जा सकता हूं और अपने विश्लेषण कार्य को उनके प्रतिमान में स्थानांतरित कर सकता हूं या मैं हडूप में जा सकता हूं और उसी प्रणाली में काम कर सकता हूं। किसी भी तरह, मैं कुछ नया सीखने जा रहा हूं और बहुत सी चीजें अनुवाद करने का काम कर रहा हूं।

कहा जा रहा है, यह एक डेटासेट अपलोड करने और जल्दी से काम करने में सक्षम होने के लिए अच्छा है - खासकर अगर मैं जो कर रहा हूं, वह एक छोटा जीवन चक्र है। डेटा सुरक्षा समस्या का जवाब देने के लिए अमेज़न ने अच्छा काम किया है।

यदि आप हूपअप से बचना चाहते हैं, तो हमेशा एक विकल्प होगा। लेकिन यह सब मुश्किल नहीं है जब आप एक बार इसके साथ काम कर लेंगे।


3
मुझे लगता है कि टीबी के लिए ओपी के संदर्भ का अर्थ है "क्या आप के लिए Hadoop का उपयोग कर सकते हैं के छोटे छोर पर डेटा के लिए।" यदि आपके पास कई पेटाबाइट्स या अधिक हैं, तो Redshift स्पष्ट रूप से उपयुक्त नहीं है। (मेरा मानना ​​है कि यह एक सौ 16TB नोड्स तक सीमित है।)
टिम गुडमैन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.