Hadoop क्या है और इसका उपयोग किस लिए किया जाता है? [बन्द है]


28

मैं थोड़ी देर के लिए सर्वरफॉल्ट को पढ़ने का आनंद ले रहा हूं और मैं हडोप पर कुछ विषयों पर आया हूं। मुझे यह पता लगाने में थोड़ी परेशानी हुई है कि यह वैश्विक दृष्टिकोण से क्या करता है।

तो मेरा सवाल काफी सरल है: क्या है हडॉप? यह क्या करता है ? इसका क्या उपयोग है ? यह गधा क्यों मारता है?

संपादित करें: यदि किसी के पास ऐसे मामलों के प्रदर्शन / स्पष्टीकरण हों, जिनमें Hadoop का उपयोग किया गया था, तो यह शानदार होगा।


फेसबुक Hadoop (वास्तव में Hive जो Hadoop के शीर्ष पर एक परत है) का भारी उपयोग करता है। फेसबुक इंजीनियरिंग पेज पर इसका एक अच्छा राइटअप है। facebook.com/note.php?note_id=89508453919
जॉन मेघेर

Hadoop एक ढांचा है जो नोड्स / सर्वर के बीच डेटा के समूहों को वितरित करके और प्रक्रिया को समानांतर में चलाकर बड़ी मात्रा में डेटा ( बिग डेटा ) के प्रसंस्करण को सरल बनाता है। इस प्रक्रिया / एल्गोरिदम को MapReduce के रूप में जाना जाता है।
Mr_Green

जवाबों:


26

सीधे घोड़े के मुंह से :

Hadoop कमोडिटी हार्डवेयर से निर्मित बड़े क्लस्टर पर एप्लिकेशन चलाने के लिए एक रूपरेखा है। Hadoop फ्रेमवर्क पारदर्शी रूप से विश्वसनीयता और डेटा प्रस्ताव दोनों को प्रदान करता है। Hadoop मैप / रिड्यूस नामक एक कम्प्यूटेशनल प्रतिमान को लागू करता है, जहां एप्लिकेशन को काम के कई छोटे टुकड़ों में विभाजित किया जाता है, जिनमें से प्रत्येक को क्लस्टर में किसी भी नोड पर निष्पादित या पुन: निष्पादित किया जा सकता है। इसके अलावा, यह एक वितरित फ़ाइल सिस्टम (HDFS) प्रदान करता है जो गणना नोड पर डेटा संग्रहीत करता है, जो क्लस्टर में बहुत अधिक कुल बैंडविड्थ प्रदान करता है। मैप / कम और वितरित फ़ाइल सिस्टम दोनों को डिज़ाइन किया गया है ताकि नोड विफलताओं को स्वचालित रूप से फ्रेमवर्क द्वारा नियंत्रित किया जा सके।

मैप / रिड्यूस एक प्रोग्रामिंग प्रतिमान है जिसे Google द्वारा लोकप्रिय बनाया गया था जहां एक कार्य को छोटे भागों में विभाजित किया जाता है और प्रसंस्करण (मानचित्र) के लिए बड़ी संख्या में नोड्स को वितरित किया जाता है, और फिर परिणामों को अंतिम उत्तर में संक्षेपित किया जाता है (कम करें )। Google और याहू इसका उपयोग अपनी खोज इंजन प्रौद्योगिकी के लिए, अन्य चीजों के बीच करते हैं।

इस प्रकार की प्रसंस्करण योजना को लागू करने के लिए Hadoop एक सामान्य रूपरेखा है। जैसे कि यह गधे को क्यों मारता है, ज्यादातर इसलिए क्योंकि यह गलत सहिष्णुता जैसी साफ-सुथरी सुविधाएँ प्रदान करता है और आपको प्रोसेसिंग करने के लिए किसी भी तरह के हार्डवेयर को एक साथ लाने की सुविधा देता है। यह भी बहुत अच्छी तरह से तराजू, बशर्ते आपकी समस्या प्रतिमान फिट बैठती है।

आप वेबसाइट पर इसके बारे में सब पढ़ सकते हैं ।

कुछ उदाहरणों के अनुसार, पॉल ने कुछ दिए, लेकिन यहां कुछ और भी आप कर सकते हैं जो इतने वेब केंद्रित नहीं हैं:

  • एक 3 डी फिल्म का प्रतिपादन। "मैप" चरण हर फ्रेम के लिए ज्यामिति को एक अलग नोड में वितरित करता है, नोड्स इसे प्रस्तुत करते हैं, और प्रदान किए गए फ़्रेम "कम" चरण में पुनर्संयोजित होते हैं।
  • एक आणविक मॉडल में एक प्रणाली में ऊर्जा की गणना। सिस्टम प्रक्षेपवक्र के प्रत्येक फ्रेम को "मैप" चरण में नोड में वितरित किया जाता है। नोड्स प्रत्येक फ्रेम के लिए ऊर्जा की गणना करते हैं,
    और फिर परिणामों को "कम" चरण में संक्षेपित किया जाता है।

अनिवार्य रूप से मॉडल एक समस्या के लिए बहुत अच्छी तरह से काम करता है जिसे समान असतत संगणना में तोड़ा जा सकता है जो पूरी तरह से स्वतंत्र हैं, और अंतिम परिणाम का उत्पादन करने के लिए पुनर्संयोजित किया जा सकता है।


आपके उत्तर के लिए धन्यवाद। तो मूल रूप से यह एप्लिकेशन (PHP? जावा?) लेता है और यह उन्हें तोड़ देता है और नोड्स के झुंड के बीच काम भेज देता है। HDFS के लिए, यह नोड्स के एक समूह को छोड़कर OCFS की तरह है?
एंटोनी बेनकेमॉन

इस अस्वस्थ में रुचि। मैं हालांकि कुछ और विशिष्ट, वास्तविक शब्द उदाहरण देखना चाहूंगा।
कारोलिस टी।

यही मैं भी देख रहा था :-)
एंटोनी बेनकेमॉन

10

क्लाउडरा के पास कुछ बेहतरीन वीडियो हैं जो मैप रिड्यूस और हडोप के पीछे के सिद्धांतों की व्याख्या करते हैं।

http://www.cloudera.com/hadoop-training-basic

MapReduce के पीछे मुख्य विचारों में से एक यह है कि बड़े डेटा सेटों के लिए आप अपने डिस्क पर बंधे होने जा रहे हैं, इसलिए Hadoop में HDFS आपको समानांतर प्रसंस्करण को सक्षम करने वाले बहुत सारे नोड्स के बीच चीजों को विभाजित करने की क्षमता देता है।

सिस्टम व्यवस्थापकों के हित के कुछ उपयोग अक्सर बड़े लॉग फ़ाइल सेट को संसाधित करने के आसपास होते हैं - मैं केवल एक लिंक पोस्ट कर सकता हूं लेकिन इनमें शामिल हैं, Google को ये ढूंढना चाहिए:

  1. रैकस्पेस मेल लॉग क्वेरी
  2. सुअर के साथ अपाचे लॉग विश्लेषण - क्लूडेरा ब्लॉग देखें
  3. याहू! लड़ो स्पैम

अच्छा लग रहा है मैं एक नज़र होगा :-)
एंटोनी बेनकेमॉन

1

प्रारंभ में हडप को OLAP वातावरण में बड़ी मात्रा में डेटा सेट के लिए विकसित किया गया है।

हडूप के शीर्ष पर Hbase की शुरुआत के साथ, गन्ना का उपयोग OLAP प्रसंस्करण के लिए भी किया जा सकता है। Hadoop एक सब फ्रेमवर्क है, जिसमें मैप कम, hdfs, hbase, पिग जैसे होते हैं।

इफ हाउंडअप के मूल में हूपोप के साथ एक लेख इफाउंड को पेश किया गया है

Hadoop में, फ़ाइलों, स्तंभों में नहीं, फ़ाइलों के रूप में डेटा संग्रहण।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.