स्पार्क पर आईपीथॉन / ज्यूपिटर के साथ मुद्दा (गैर-मान्यता प्राप्त उर्फ)


11

मैं बाहर जाने से पहले स्पार्क के साथ प्रयोग करने के लिए VMs का एक सेट बनाने पर काम कर रहा हूं और कुछ हार्डवेयर के साथ क्लस्टर बनाने पर पैसे खर्च कर रहा हूं। क्विक नोट: मैं एप्लाइड मशीन लर्निंग में बैकग्राउंड वाला एक अकादमिक हूं और डेटा साइंस में थोड़ा काम छोड़ देता हूं। मैं कंप्यूटिंग के लिए उपकरणों का उपयोग करता हूं, शायद ही कभी मुझे उन्हें स्थापित करने की आवश्यकता होगी।

मैंने 3 वीएम (1 मास्टर, 2 दास) बनाए हैं और स्पार्क को सफलतापूर्वक स्थापित किया है। सब कुछ वैसा ही काम करता दिख रहा है जैसा उसे होना चाहिए। मेरी समस्या एक जुपिटर सर्वर बनाने में है जो कि क्लस्टर पर मशीन पर नहीं चलने वाले ब्राउज़र से जुड़ा हो सकता है।

मैंने Jupyter नोटबुक सफलतापूर्वक स्थापित किया है ... और यह चलता है। मैंने एक नया IPython प्रोफ़ाइल जोड़ा है जो स्पार्क के साथ एक दूरस्थ सर्वर से जुड़ रहा है ।

अब समस्या है

आदेश

$ ipython --profile=pyspark ठीक चलता है और यह स्पार्क क्लस्टर से जुड़ता है। तथापि,

$ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. defaultप्रोफ़ाइल को डिफॉल्ट करता है प्रोफ़ाइल को नहीं pyspark

मेरे नोटबुक कॉन्फ़िगरेशन के लिए pysparkहै:

c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'


यह हो सकता है, कि निम्नलिखित काम करेगा? $ ipython --profile=pyspark notebook? यह हो सकता है कि समस्या केवल तर्कों के आदेश के साथ थी।
गैबोर बकोस

जवाबों:


12

IPython अब संस्करण 4.0 में चला गया है , जिसका अर्थ है कि यदि आप इसका उपयोग कर रहे हैं, तो यह इसके कॉन्फ़िगरेशन को पढ़ रहा होगा ~/.jupyter, नहीं ~/.ipython। आपको एक नई कॉन्फ़िगरेशन फ़ाइल बनानी होगी

jupyter notebook --generate-config

और फिर ~/.jupyter/jupyter_notebook_config.pyअपनी आवश्यकताओं के अनुसार परिणामी फ़ाइल को संपादित करें ।

अधिक स्थापना निर्देश यहाँ


मुझे अक्सर आश्चर्य होता है कि क्यों उन्होंने ipython से जुपिटर को विभाजित करने में ipython नोटबुक कमांड को बनाए रखा। यह ठीक है कि यह वास्तव में भ्रामक क्यों है। प्रोफ़ाइल बेमेल इंगित करने के लिए आपको और काऊ zsh को धन्यवाद। इसका लगभग वैसा ही है जब उन्हें उस कमांड का उपयोग करते समय ipython नोटबुक कमांड और ज्यूपिटर-नोटबुक प्रोफाइल का उपयोग करते हुए ipython प्रोफाइल का उपयोग करना चाहिए।
AN6U5

4

मान लें कि आपकी कॉन्फ़िगर फ़ाइल ~ / .ipython / profile_pyspark / ipython_notebook_config.py है, फिर भी आप इस कॉन्फ़िगर फ़ाइल का उपयोग कर सकते हैं:

ipython notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

या

jupyter-notebook --config='~/.ipython/profile_pyspark/ipython_notebook_config.py'

1

मुद्दा यह है कि pyspark डिफ़ॉल्ट रूप से os sys पथ पर नहीं है। कई बार इसे अपने कॉन्फिग फाइल / पाथ / वगैरह में मैन्युअल रूप से जोड़ने के असफल प्रयास के बाद, मैं इस GitHub रिपॉजिटरी में फाइंडपार्क कहलाया।

https://github.com/minrk/findspark

मैंने इस रिपॉजिटरी को git clone https://github.com/minrk/findspark.git का उपयोग करके क्लोन किया

फिर मैंने फाइंडपार्क रूट से "पाइप इंस्टॉल फाइंडपार्क" चलाया।

एक ज्यूपिटर नोटबुक शुरू की, एक नया पायथन 3 नोटबुक बनाया और जोड़ा

आयात ढूढता है,
आयात करता है os
findpark.init ()
आयात करता है pyspark
sc = pyspark.SparkContext ()

इससे पहले कि AIRGR.init () खोजे, आयात pyspark एक त्रुटि के साथ वापस आया।

परीक्षण करने के लिए मैंने सिर्फ sc टाइप किया और वापस आ गया:
pyspark.context.SparkContext 0x4526d30 पर

मेरे लिए अब सब काम कर रहे हैं।


साइट अनाहिता :) में आपका स्वागत है
Dawny33
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.