उदाहरण के लिए खोज बुनियादी ढांचे के ढेर / वर्कफ़्लोज़ / पाइपलाइन


14

मैं यह समझने की कोशिश कर रहा हूं कि सभी "बड़े डेटा" घटक एक वास्तविक दुनिया के उपयोग के मामले में एक साथ कैसे खेलते हैं, उदाहरण के लिए, हडूप, मोनोगोडब / नोसक्ल, तूफान, कफका, ... मुझे पता है कि यह उपकरण की एक विस्तृत श्रृंखला है। विभिन्न प्रकार, लेकिन मैं अनुप्रयोगों में उनकी बातचीत के बारे में अधिक जानना चाहता हूं, उदाहरण के लिए एक ऐप, वेबएप, ऑनलाइन दुकान के लिए मशीन सीखना।

मेरे पास vistors / session, लेन-देन के डेटा आदि हैं और वह स्टोर करता है; लेकिन अगर मैं मक्खी पर सिफारिशें करना चाहता हूं, तो मैं लॉग के कुछ बड़े डेटाबेस पर उसके लिए धीमी गति से नक्शा / नौकरियां कम नहीं कर सकता। मैं बुनियादी ढाँचे के बारे में और कहाँ जान सकता हूँ? मुझे लगता है कि मैं अपने दम पर अधिकांश उपकरणों का उपयोग कर सकता हूं, लेकिन उन्हें एक-दूसरे में प्लग करना अपनी खुद की एक कला लगता है।

क्या कोई सार्वजनिक उदाहरण / उपयोग के मामले आदि उपलब्ध हैं? मैं समझता हूं कि व्यक्तिगत पाइपलाइन दृढ़ता से उपयोग के मामले और उपयोगकर्ता पर निर्भर करती है, लेकिन सिर्फ उदाहरण शायद मेरे लिए बहुत उपयोगी होंगे।


क्या आपने इस बारे में कोई शोध किया? विभिन्न आर्किटेक्चर का वर्णन करने वाले कई यूट्यूब वीडियो और
स्लाइडशेयर

1
हे स्टैनपोल, आपकी प्रतिक्रिया के लिए धन्यवाद - मैंने कुछ शुरुआती खोजें कीं और वास्तव में AWS और क्लाउडडेरा सामान के अलावा कुछ भी नहीं मिला - शायद अगर आप मुझे कुछ खोज शब्द दे सकते हैं जो एक आशाजनक है, तो मुझे इसे वहां से लेने में खुशी होगी।
च्रश्रम्म

जवाबों:


14

मशीन सीखने की विविधता को उत्पादन अनुप्रयोगों में एकीकृत किया जा सकता है, यह समझने के लिए, मुझे लगता है कि यह खुला स्रोत परियोजनाओं और कागजात / ब्लॉग पोस्ट को देखने के लिए उपयोगी है, जो उनके बुनियादी ढांचे का वर्णन करने वाली कंपनियों के हैं।

इन प्रणालियों में जो सामान्य विषय है वह है मॉडल अनुप्रयोग से मॉडल प्रशिक्षण का पृथक्करण। उत्पादन प्रणालियों में, एमएस के 100 के आदेश पर मॉडल एप्लिकेशन को तेज होना आवश्यक है, लेकिन कितनी बार फिट किए गए मॉडल पैरामीटर (या समतुल्य) को अपडेट करने की अधिक स्वतंत्रता है।

लोग मॉडल प्रशिक्षण और तैनाती के लिए समाधानों की एक विस्तृत श्रृंखला का उपयोग करते हैं:


7

कॉम्प्लेक्स एनालिटिक्स पाइपलाइन स्थापित करने के सबसे विस्तृत और स्पष्ट स्पष्टीकरण में से एक ट्विच पर लोगों से है ।
वे संग्रह, परिवहन, समन्वय, प्रसंस्करण, भंडारण और उनके डेटा को क्वेरी करने के लिए आर्किटेक्चर विकल्पों में से प्रत्येक की विस्तृत प्रेरणा देते हैं।
सम्मोहक पढ़ना! इसे यहां और यहां खोजें ।


यह बहुत भयानक है, वास्तव में मैं क्या देख रहा था! बहुत बहुत धन्यवाद :)
chrshmmmr

@chrshmmmr आपका स्वागत है। अगर यह मदद मिली के रूप में स्वीकार / उन्नयन के लिए मत भूलना!
तचक्रवर्ती १k

3
ये लिंक वास्तव में बहुत उपयोगी लगते हैं, लेकिन फिर से, वे लिंक होते हैं, और मुझे लगता है कि हमें बाहरी स्रोतों की स्थिरता से स्वतंत्र उत्तरों को बनाए रखने के लिए प्रयास करना चाहिए। इस प्रकार, यह अच्छा होगा यदि आप जोड़ने के लिए कुछ दो या तीन मिनट ले सकते हैं, उदाहरण के लिए, इस लिंक से आरेख , एक त्वरित विवरण के साथ पोस्ट करना। की पंक्तियों में कुछ: "उदाहरण के लिए, यह एक ... सिस्टम का वर्कफ़्लो है। <img>। आगे की जानकारी <लिंक> में मिल सकती है।"
Rubens

1
@Rubens मैं एक बिट में एक संपादन का प्रस्ताव होगा। fgnu: ऐसा करने के लिए, वास्तव में जवाबों को उभारने के लिए बस थोड़ी अधिक प्रतिष्ठा की आवश्यकता होगी, लेकिन मैं निश्चित रूप से आपके योगदान का सम्मान करूंगा :)
chrshmmmr

@Rubens यह लिंक पर जानकारी को पुन: प्रस्तुत करने से अधिक नहीं होगा। अगर मुझे लगता है कि कुछ था तो मैं पहले से ही दिए गए स्पष्टीकरण में जोड़ दूंगा।
तचक्रवर्ती

3

Airbnb और Etsy दोनों ने हाल ही में अपने वर्कफ़्लोज़ के बारे में विस्तृत जानकारी पोस्ट की है।


1

R ( http://www.manning.com/zumel/ ) के साथ व्यावहारिक डेटा विज्ञान के अध्याय 1 में टीम भूमिकाओं और कैसे वे विशिष्ट कार्यों से संबंधित हैं, सहित डेटा विज्ञान प्रक्रिया का एक बड़ा टूटना है। पुस्तक अध्याय में निर्धारित किए गए मॉडल का अनुसरण करती है, जो यह बताती है कि कौन से चरण / कार्मिक इस विशेष कार्य को करेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.