एक टीम के भीतर जयुपर नोटबुक साझा करना


22

मैं एक सर्वर स्थापित करना चाहूंगा जो निम्नलिखित तरीके से एक डेटा साइंस टीम का समर्थन कर सकता है: स्टोरिंग, वर्जनिंग, शेयरिंग और संभव के लिए भी जुपाइटर नोटबुक निष्पादित करना एक केंद्रीय बिंदु हो।

कुछ वांछित गुण:

  1. विभिन्न उपयोगकर्ता सर्वर तक पहुंच सकते हैं और उन नोटबुक को खोल सकते हैं और निष्पादित कर सकते हैं जो उनके या अन्य टीम के सदस्यों द्वारा संग्रहीत की गई थीं। यहां दिलचस्प सवाल यह है कि यदि उपयोगकर्ता X द्वारा लिखी गई नोटबुक में कक्षों को निष्पादित करता है तो उपयोगकर्ता वाई के अनुसार व्यवहार क्या होगा। मुझे लगता है कि नोटबुक को परिवर्तित नहीं किया जाना चाहिए :
  2. समाधान स्वयं-होस्ट होना चाहिए।
  3. नोटबुक को सर्वर पर या Google ड्राइव पर या स्वयं-होस्ट किए गए इंस्टॉलेशन के स्वयं संग्रह पर संग्रहीत किया जाना चाहिए।
  4. (बोनस) नोटबुक्स गिट वर्जनिंग कंट्रोल के तहत होगा (git सेल्फ होस्ट किया जा सकता है। GitHub या उस तरह का कुछ के लिए बाध्य नहीं किया जा सकता है)।

मैंने ज्यूपिटरहब और बाइंडर में देखा । पूर्व के साथ, मुझे समझ में नहीं आया कि कैसे क्रॉस उपयोगकर्ताओं को एक्सेस करने की अनुमति दी जाए। उत्तरार्द्ध केवल नोटबुक्स के भंडारण के रूप में गिटहब का समर्थन करने के लिए लगता है।

क्या आपके पास समाधानों में से कोई एक है?



1
इस प्रस्ताव के लिए बृहस्पति हूबहू है।
dannyeuu

@dannyeuu मुझे लगता है कि आपका मतलब है जुपिटरहुब, है ना? क्या क्रॉस यूज़र्स की नोटबुक साझा करना संभव है?
दार अतरैया

नहीं, प्रत्येक उपयोगकर्ता के पास जुपाइटर स्पॉन्ड का एक अलग उदाहरण है। AFAIK आप आसानी से नोटबुक साझा नहीं कर सकते।
लुकाज़ ट्रेसेवस्की 20

Google Colaboratory निश्चित रूप से आवश्यकता को पूरा करती है 3.
Leponzo

जवाबों:


2

Airbnb ने हाल ही में अपने आंतरिक डेटा विज्ञान ज्ञान भंडार को खोला है: https://github.com/airbnb/knowledge-repo

इसकी रीडमी से, ऐसा लगता है कि यह आपके उपयोग के मामले को शिथिल कर सकता है:

नॉलेज रिपॉजिटरी प्रोजेक्ट डेटा वैज्ञानिकों और अन्य तकनीकी भूमिकाओं के बीच ज्ञान के बंटवारे की सुविधा पर केंद्रित है, जो डेटा प्रारूपों और उपकरणों का उपयोग कर इन व्यवसायों में समझ में आता है। यह "ज्ञान पदों" के लिए विभिन्न डेटा स्टोर (और उन्हें प्रबंधित करने के लिए) प्रदान करता है, प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान को बेहतर बढ़ावा देने के लिए नोटबुक्स (आर मार्केडाउन और ज्यूपिटर / आईपिथॉन नोटबुक) पर विशेष ध्यान देने के साथ।

इसकी प्रेरणा पर टिप्पणी करने वाला एक ब्लॉग पोस्ट भी है ।


2

JupyterHub संस्करण नियंत्रण प्रणाली प्रदान नहीं करता है और न ही नोटबुक को साझा करने की सुविधा प्रदान करता है। आपने अपने आप को बाइंडर की सीमा का उल्लेख किया।

ज़ेपेलिन की कोशिश करें । संस्करण 0.7 कुछ दिनों के भीतर जारी किया जाना चाहिए।

  • जैसा कि आप रोडमैप से देख सकते हैं , यह संस्करण "एंटरप्राइज़" सुविधाओं को वितरित करता है जो बिल्कुल सहयोग के बारे में हैं।
  • संस्करण नियंत्रण प्रणाली (गिट) एकीकृत है।
  • यह स्वयंभू है।

संक्षेप में, मुझे लगता है कि यह आपके द्वारा पोस्ट की गई सभी आवश्यकताओं को पूरा करता है। इसके शीर्ष पर यह समृद्ध दृश्य क्षमताओं और अन्य सुविधाओं के ढेर सारे काम करता है (शेरो, नॉक्स, केर्बरोस - सुरक्षित स्पार्क किसी के साथ काम करता है?)।


0

एकमात्र आत्म-होस्टेड समाधान जो मुझे पता है कि भुगतान किया गया एनाकोंडा एंटरप्राइज क्लाउड सेटअप है, https://anaconda.org/about । मैं जिन अन्य समाधानों से अवगत हूं, वे आत्म-बंधक नहीं हैं!


0

क्या यह समाधान पर्याप्त नहीं है?

आप ssh के साथ पहुँच की रक्षा कर सकते हैं, और होस्ट की गई फ़ाइलें आपके द्वारा इच्छित लिनक्स रिपॉजिटरी हो सकती हैं, जिसमें अलग-अलग लिनक्स (या जो भी) उपयोगकर्ता की पहुँच है। आपको अपने स्वयं के सर्वर की आवश्यकता होगी।


0

मैंने जो पाया - डेटा वैज्ञानिकों के लिए नोटबुक साझा करना संचार के लिए एक वांछनीय प्रारूप नहीं है। उनमें से कई स्पाइडर / RStudio या सिर्फ एक टेक्स्ट एडिटर की तरह IDE पसंद करते हैं (मुझे पता है कि कुछ डेटा वैज्ञानिक जो उपयोग करते हैं vi)।

आप क्लाउड स्टोरेज द्वारा अपने स्रोत नियंत्रण और डेटा द्वारा कोड साझा कर सकते हैं। यह लचीलापन बढ़ाएगा।

मैंने हाल ही में एक टूल ओपन किया है जो कोड, डेटा, और डेटा और कोड के बीच निर्भरता को एक ही वातावरण में जोड़ता है और आपके डेटा साइंस प्रोजेक्ट को प्रतिलिपि प्रस्तुत करने योग्य बनाता है: DVC या dataversioncontrol.com (एक ट्यूटोरियल है)।

DVC टूल के साथ आप Git द्वारा अपनी परियोजना को साझा कर सकते हैं, S3 को एक एकल DVC कमांड द्वारा डेटा सिंक कर सकते हैं। यदि आपके कुछ डेटा वैज्ञानिक आपकी परियोजना के किसी भी चरण में कोड को बदलने का निर्णय लेते हैं, तो अंतिम परिणाम आसानी से एकल कमांड द्वारा पुन: प्रस्तुत किया जा सकता है dvc repro data/target_metrics.txt


0

डोमिनोज़ डेटा लैब परिसर, सास और वीपीसी-आधारित नोटबुक होस्टिंग (ज्यूपिटर, ज़ेपेलिन, आरएसटीडीओ), गिट इंटीग्रेशन, स्केलेबल कंप्यूट, पर्यावरण टेम्पलेट, और अन्य उपयोगी चीजों का एक गुच्छा प्रदान करता है। यदि आप एक छोटी सी टीम हैं, तो परिसर / वीपीसी का प्रसाद अधिक मात्रा में और बहुत अधिक महंगा हो सकता है, लेकिन सास की योजनाएँ बहुत उचित हैं।

[पूर्ण खुलासा: मैं पूर्व डोमिनोज़ कर्मचारी हूं]

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.