अपाचे स्पार्क: पायथन 3 के साथ पिसपार्क का उपयोग कैसे करें


91

मैंने GH विकास मास्टर से स्पार्क 1.4 का निर्माण किया, और निर्माण ठीक से गुजरा। लेकिन जब मैं करता bin/pysparkहूं मुझे पायथन 2.7.9 संस्करण मिलता है। मेरे द्वारा इसे कैसे बदला जा सकता है?


7
यह कैसे करना है PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark, इसकी तलाश में किसी के लिए: जिस स्थिति में यह IPython 3 नोटबुक चलाता है।
शाम

जवाबों:


141

बस पर्यावरण चर सेट करें:

export PYSPARK_PYTHON=python3

यदि आप चाहते हैं कि यह एक स्थायी परिवर्तन हो तो इस लाइन को pyspark स्क्रिप्ट में जोड़ें।


पर्यावरण चर को / etc / प्रोफाइल के अंतर्गत संपादित किया जा सकता है। प्रोफ़ाइल को सहेजने के बाद "स्रोत / आदि / प्रोफ़ाइल" निष्पादित करना न भूलें, इसलिए परिवर्तनों को तुरंत कार्रवाई में लिया जा सकता है।
फाइटिशिस्ट

1
जाहिर है, export PYSPARK_PYTHON=python3.5Python 3.5
Phyticist

4
इसे जोड़ना बेहतर है $SPARK_HOME/conf/spark-env.shताकि spark-submitएक ही दुभाषिया का उपयोग किया जा सके।
flow2k

@ flow2k यह एक बेहतर विचार है। Tnx
मुहम्मद रावोफिनिया

32
PYSPARK_PYTHON=python3 
./bin/pyspark

यदि आप IPython नोटबुक में चलाना चाहते हैं, तो लिखें:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

यदि python3पहुंच योग्य नहीं है, तो आपको इसके बजाय पथ पास करने की आवश्यकता है।

ध्यान रखें कि वर्तमान प्रलेखन (1.4.1 के रूप में) ने निर्देशों को पार कर दिया है। सौभाग्य से, यह पैच किया गया है


1
मुझे लगता है कि आईपीथॉन नोटबुक के लिए आपकी आज्ञा सही नहीं है। इस तरह होना चाहिए: PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = ipython3 PYSPARK_DRIVER_PYTHON_OPTS = "नोटबुक" ./bin/pyspark
स्पाइडरिको

@ChrisNielsen टर्मिनल में।
पियोट्र मिग्डल

@ChrisNielsen लिनक्स या OS X में एक टर्मिनल / कंसोल है। मुझे नहीं पता कि यह विंडोज के तहत कैसे काम करता है (जब विंडोज में, मैंने स्पार्क का इस्तेमाल केवल डॉकटर कंटेनर पर किया था)।
पियोत्र मिग्डल

@SpiderRico ये मेरे मैक पर काम नहीं करते हैं। स्पार्क के लिए काम करने के लिए जुपिटर नोटबुक के लिए, निम्नलिखित का उपयोग करें। PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = jupyter PYSPARK_DRIVER_PYTHON_OPTS = "नोटबुक" ./bin/pyspark
Hank Chan

9

1, प्रोफ़ाइल संपादित करें:vim ~/.profile

2, फ़ाइल में कोड जोड़ें: export PYSPARK_PYTHON=python3

3, कमांड निष्पादित करें: source ~/.profile

4, ./bin/pyspark


4

फ़ाइल पर एक नज़र है। शेबबैंग लाइन शायद 'एनवी' बाइनरी की ओर इशारा करती है जो पहले संगत निष्पादन योग्य के लिए रास्ता खोजती है।

आप अजगर को अजगर 3 में बदल सकते हैं। Pvthon3 बाइनरी को हार्डकोडेड का सीधे उपयोग करने के लिए एनवी को बदलें। या python3 के साथ सीधे बाइनरी निष्पादित करें और शेबंग लाइन को छोड़ दें।


1
हाँ, फ़ाइल में देख मदद की। PYSPARK_PYTHONपर्यावरण चर सेट करने की आवश्यकता है ।
शाम

4

Jupyter नोटबुक के लिए, spark-env.shकमांड लाइन से नीचे दिखाए अनुसार फ़ाइल को संपादित करें

$ vi $SPARK_HOME/conf/spark-env.sh

फाइल के नीचे गोटो और इन लाइनों को कॉपी पेस्ट करें

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

फिर, नोटबुक में pyspark शुरू करने के लिए बस कमांड का पालन करें

$ pyspark
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.