रिलेशनल डेटाबेस बिग डेटा के पैमानों को पूरा क्यों नहीं कर सकते?

17

यह अक्सर दोहराया जाता है कि बिग डेटा समस्या यह है कि रिलेशनल डेटाबेस डेटा के विशाल मात्रा को संसाधित करने के लिए स्केल नहीं कर सकते हैं जो अब बनाए जा रहे हैं।

लेकिन ये स्केलेबिलिटी सीमाएं क्या हैं जो कि Hadoop जैसे बिग डेटा समाधान बाध्य नहीं हैं? ओरेकल आरएसी या माईएसएल शार्किंग या एमपीपी आरडीबीएमएस जैसे टेराडाटा (आदि) इन करतबों को क्यों नहीं प्राप्त कर सकते हैं?

मुझे तकनीकी सीमाओं में दिलचस्पी है - मुझे पता है कि RDBMS को क्लस्टर करने की वित्तीय लागत निषेधात्मक हो सकती है।

scalability

— जेरेमी दाढ़ी
स्रोत

15

MS ने अभी हाल ही में नीदरलैंड में एक तकनीकी बातचीत की, जहाँ उन्होंने इस सामान के बारे में चर्चा की। यह धीरे-धीरे शुरू होता है, लेकिन 20 मिनट के निशान के आसपास हाडोप के मांस में मिल जाता है।

इसका सार यह है कि "यह निर्भर करता है"। यदि आपके पास एक समझदारी से व्यवस्था की गई है, (कम से कम कुछ) डेटा के विभाजन के लिए आसान है जो (कम से कम कुछ हद तक) सजातीय है, तो आरडीबीएमएस के साथ उन उच्च डेटा संस्करणों के पैमाने पर करना काफी आसान होना चाहिए, जो आप कर रहे हैं पर निर्भर करता है ।

Hadoop और MR उन स्थितियों के लिए अधिक सक्षम होते हैं, जहाँ आप डेटा के बड़े वितरित स्कैन के लिए मजबूर होते हैं, खासकर जब वे डेटा आवश्यक रूप से सजातीय या संरचित नहीं होते हैं जैसा कि हम RDBMS दुनिया में पाते हैं।

बिग डेटा समाधान किन सीमाओं से बंधे नहीं हैं? मेरे लिए, सबसे बड़ी सीमा जो वे बाध्य नहीं हैं, वह समय से पहले एक कठोर स्कीमा बनाने के लिए है। बिग डेटा सॉल्यूशंस के साथ, आप अब "बॉक्स" में भारी मात्रा में डेटा हिलाते हैं, और डेटा की समरूपता की कमी से निपटने के लिए अपने प्रश्नों में तर्क जोड़ते हैं। एक डेवलपर के दृष्टिकोण से प्रोजेक्टऑफ़ परियोजना के सामने के छोर पर कार्यान्वयन और लचीलेपन में आसान है, बनाम क्वेरी में जटिलता और कम तत्काल डेटा स्थिरता।

— डेव मार्कल
स्रोत

धन्यवाद डेव, आप मुझे जो पता लगाने की कोशिश कर रहे हैं उसके करीब पहुंच रहे हैं। आप कहते हैं कि Hadoop बड़े वितरित स्कैन के साथ स्थितियों में सक्षम है - अगर कुछ / कई RDBMS के क्लस्टर समाधान (RAC, shards, MPP, आदि) हैं, तो वे भी ऐसा क्यों नहीं कर सकते हैं? RDBMS के लिए 16 घंटे में 10 ट्रिलियन रिकॉर्ड्स को छांटना एक बहुत बड़ा Hadoop क्लस्टर की तरह क्या संभव है? यहाँ देखें

— जेरेमी दाढ़ी

2

RDBMS क्लस्टर के लिए इस तरह का काम करने के लिए कुछ भी संभव नहीं है, और आप RDBMS को इस प्रकार की करने के लिए कॉन्फ़िगर कर सकते हैं । RDBMS के साथ समस्या यह है कि ऐसा करने के लिए, आपको वास्तव में इस बात से सावधान रहना होगा कि आप अपने स्कीमा और विभाजन को किस तरह से काम करने के लिए तैयार करते हैं। बिग डेटा आर्किटेक्चर तब जीतते हैं जब आपका डेटा संरचित नहीं होता है और आसानी से या प्रभावी रूप से RDBMS में विभाजित और अनुकूलित किया जाता है।

— डेव मार्क

1

असंगत db डिज़ाइनर, रिलेशनल डेटाबेस को स्केल करने के लिए इसे कठिन बनाते हैं। बहुत सी कंपनियों को लगता है कि जब वे शुरू से ही कॉम्पिटेंट डेटाबेस डिवेलपर्स को हायर करने की जरूरत होती है तो एप्लिकॉप्टर डेवलपर्स डेटाबेस डिजाइन कर सकते हैं (या डिजाइन को खराब करने के लिए ORMS का इस्तेमाल करते हैं)। दूसरा व्यक्ति जिसे आप किसी प्रोजेक्ट के लिए किराए पर लेते हैं जिसमें डेटा शामिल होना चाहिए डेटाबेस डेवलपर।

— HLGEM

3

@HLGEM: इस पर मेरी प्रतिक्रिया है, "meh"। सबसे प्रभावी डेवलपर्स वे होने जा रहे हैं जो स्टैक के दोनों किनारों को समझते हैं - यह विचार कि एक अच्छे "एप्लिकेशन डेवलपर" के रूप में ऐसी कोई चीज है जो आरडीबीएमएस के साथ हर समय काम करती है बिना यह जाने कि यह कैसे काम करता है। । इसी तरह, यह विचार कि एक अच्छे "डेटाबेस डेवलपर" के रूप में ऐसी बात है जो ORMs या इसके आवेदन पक्ष को नहीं समझती है, वह भी IMO, एक गिरावट है।

— डेव मार्क

6

डेटाबेस के अग्रणी और शोधकर्ता माइकल स्टोनब्रोकर ने एक पेपर लिखा, जो पारंपरिक डेटाबेस आर्किटेक्चर की सीमाओं पर चर्चा करता है। आम तौर पर, वे अधिक महंगे हार्डवेयर के साथ स्केल करते हैं, लेकिन समानांतर में अधिक कमोडिटी हार्डवेयर के साथ स्केलिंग करने में कठिनाई होती है, और विरासत सॉफ्टवेयर आर्किटेक्चर द्वारा सीमित होती है जो एक पुराने युग के लिए डिज़ाइन की गई थी। उन्होंने कहा कि बिगडाटा युग में कई नए डेटाबेस आर्किटेक्चर की आवश्यकता होती है जो आधुनिक बुनियादी ढांचे का लाभ उठाते हैं और एक विशेष कार्यभार के लिए अनुकूलन करते हैं। इसके उदाहरण हैं सी-स्टोर प्रोजेक्ट, जिसके कारण कमर्शियल डेटाबेस वर्टिका सिस्टम्स और H-store प्रोजेक्ट का नेतृत्व किया गया, जिसके कारण VoltDB, इन-मेमोरी OLTP SQL डेटाबेस उच्च वेग BigData वर्कलोड के लिए डिज़ाइन किया गया। (पूर्ण प्रकटीकरण, मैं VoltDB के लिए काम करता हूं)।

आपको इस विषय पर यह वेबिनार दिलचस्प लग सकता है । यह उन कुछ मिथकों का जवाब देता है जो NoSQL डेटाबेस की सफलता के साथ उत्पन्न हुए हैं। असल में, उन्होंने कहा कि SQL समस्या नहीं थी, प्रदर्शन प्राप्त करने के लिए निरंतरता जैसे पारंपरिक डेटाबेस सुविधाओं को छोड़ना आवश्यक नहीं होना चाहिए।

— BenjaminBallard
स्रोत

6

पूर्ण प्रकटीकरण के रूप में अर्हता प्राप्त करने के लिए, आपको संभवतः यह भी उल्लेख करना चाहिए कि आपके सह-संस्थापक और सीटीओ माइकल स्टोनब्रोकर भी आपके सभी उदाहरणों के सह-वास्तुकार थे। और वोल्‍टीडीबी का एसक्यूएल सपोर्ट एक शर्मनाक छोटा सबसेट है ।

— डैनियल लियोन

5

यह पूरी तरह से सच नहीं है कि RDBMS स्केल नहीं कर सकता है। हालांकि, बयान में आंशिक सच्चाई वास्तुकला पर निर्भर करती है। आपके द्वारा दी गई सूची में, ओरेकल आरएसी बाकी (शार्प्ड मायक्यूएस और टेराडाटा) से अलग है। प्रमुख अंतर साझा डिस्क बनाम साझा कुछ भी नहीं आर्किटेक्चर है।

ओरेकल आरएसी जैसे साझा डिस्क आर्किटेक्चर स्केलिंग से ग्रस्त हैं क्योंकि किसी बिंदु पर या अन्य सभी मशीनों को डेटा के कुछ हिस्से पर सिंक्रनाइज़ करना चाहिए। उदाहरण के लिए ग्लोबल लॉक मैनर एक हत्यारा है। आप इसे कुछ हद तक ठीक रख सकते हैं लेकिन आप अंततः एक दीवार से टकराएंगे। यदि आप आसानी से मशीनों को नहीं जोड़ सकते हैं, तो आपके पास कम लेकिन सुपर शक्तिशाली मशीनें होनी चाहिए जो आपकी जेब को जला सकती हैं। साझा किए गए कुछ आर्किटेक्चर (या शार्प्ड डेटा) के मामले में, प्रत्येक मशीन कुछ डेटा का स्वामित्व लेती है। यदि इसे कुछ डेटा अपडेट करना है तो इसे अन्य महकियों के साथ सिंक्रनाइज़ करने की आवश्यकता नहीं है।

फिर NoSQL डेटाबेस की नस्ल आती है। मैं उन्हें पारंपरिक RDBMS डेटाबेस का सबसेट मानूंगा। इस दुनिया में सभी अनुप्रयोगों को RDBMS द्वारा प्रस्तावित सभी कार्यक्षमता की आवश्यकता नहीं होगी। अगर मैं डेटाबेस को कैश के रूप में उपयोग करना चाहता हूं, तो मैं स्थायित्व के बारे में परवाह नहीं करूंगा। कुछ मामलों में हो सकता है कि मैं भी निरंतरता की परवाह नहीं करता। यदि मेरा सभी डेटा लुकअप एक कुंजी पर आधारित है, तो मुझे रेंज प्रश्नों के लिए समर्थन की आवश्यकता नहीं है। मुझे द्वितीयक अनुक्रमणिकाओं की आवश्यकता नहीं हो सकती है। मुझे संपूर्ण क्वेरी प्रोसेसिंग / क्वेरी ऑप्टिमाइज़ेशन लेयर की आवश्यकता नहीं है जो सभी पारंपरिक डेटाबेस में है।

— सुनील
स्रोत