यहाँ विंडोज 10 पर स्पार्क स्थापित करने और अजगर से इसे चलाने के सात चरण हैं:
चरण 1: इस लिंक से किसी भी फ़ोल्डर F के लिए स्पार्क 2.2.0 टार (टेप आर्काइव) gz फ़ाइल डाउनलोड करें - https://spark.apache.org/downloads.html । इसे अनज़िप करें और अनज़िप्ड फ़ोल्डर को वांछित फ़ोल्डर में कॉपी करें। स्पार्क-2.2.0-बिन-हैडूप 2.7 फ़ोल्डर को स्पार्क करने के लिए नाम बदलें।
स्पार्क फ़ोल्डर को पथ दें C: \ Users \ Desktop \ A \ स्पार्क
चरण 2: इस लिंक से उसी फ़ोल्डर F को हार्डअप 2.7.3 टार gz फ़ाइल डाउनलोड करें - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz । इसे अनज़िप करें और अनज़िप्ड फ़ोल्डर को उसी फ़ोल्डर में कॉपी करें। फ़ोल्डर का नाम Hadoop-2.7.3.tar से हडूप पर रखें। हडूप फ़ोल्डर को पथ दें C: \ Users \ Desktop \ A \ hadoop
चरण 3: एक नया नोटपैड पाठ फ़ाइल बनाएँ। इस खाली नोटपैड फ़ाइल को winutils.exe (प्रकार के रूप में सहेजें: सभी फ़ाइलें) के रूप में सहेजें। इस O KB winutils.exe फ़ाइल को स्पार्क में अपने बिन फ़ोल्डर में कॉपी करें - C: \ Users \ Desktop \ A \ spark \ bin
चरण 4: अब, हमें इन फ़ोल्डरों को सिस्टम वातावरण में जोड़ना होगा।
4a: एक सिस्टम वैरिएबल बनाएं (यूजर वैरिएबल के रूप में यूजर वेरिएबल सिस्टम वैरिएबल के सभी गुण इनहेरिट नहीं करेगा) वेरिएबल नाम: SPARK_HOME वेरिएबल वैल्यू: C: \ Users \ Desktop \ A \ स्पार्क
पाथ सिस्टम वैरिएबल खोजें और एडिट पर क्लिक करें। आपको कई रास्ते दिखाई देंगे। किसी भी पथ को नष्ट न करें। इस चर मान को जोड़ें - C: \ Users \ Desktop \ A \ spark \ bin
4 बी: एक सिस्टम वैरिएबल बनाएं
चर नाम: HADOOP_HOME चर मान: C: \ Users \ Desktop \ A \ hadoop
पाथ सिस्टम वैरिएबल खोजें और एडिट पर क्लिक करें। इस चर मान को जोड़ें - C: \ Users \ Desktop \ A \ hadoop \ bin
4c: एक सिस्टम वैरिएबल नाम बनाएं: विंडोज़ में JAVA_HOME सर्च जावा। राइट क्लिक करें और ओपन फाइल लोकेशन पर क्लिक करें। आपको फिर से किसी एक जावा फाइल पर राइट क्लिक करना होगा और ओपन फाइल लोकेशन पर क्लिक करना होगा। आप इस फ़ोल्डर का पथ उपयोग करेंगे। या आप C: \ Program Files \ Java खोज सकते हैं। सिस्टम पर स्थापित मेरा जावा संस्करण jre1.8.0_131 है। परिवर्तनीय मूल्य: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
पाथ सिस्टम वैरिएबल खोजें और एडिट पर क्लिक करें। इस चर मान को जोड़ें - C: \ Program Files \ Java \ jre1.8.0_131 \ bin
चरण 5: कमांड प्रॉम्प्ट खोलें और अपने स्पार्क बिन फ़ोल्डर पर जाएं (cd C: \ Users \ Desktop \ A \ स्पार्क \ bin)। स्पार्क-शेल टाइप करें।
C:\Users\Desktop\A\spark\bin>spark-shell
इसमें समय लग सकता है और कुछ चेतावनी दे सकते हैं। अंत में, यह स्पार्क संस्करण 2.2.0 में आपका स्वागत है
चरण 6: बाहर निकलें टाइप करें () या कमांड प्रॉम्प्ट को पुनरारंभ करें और फिर से स्पार्क बिन फ़ोल्डर पर जाएं। टाइप करें pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
यह कुछ चेतावनियों और त्रुटियों को दिखाएगा लेकिन अनदेखा कर देगा। यह काम करता हैं।
चरण 7: आपका डाउनलोड पूरा हो गया है। यदि आप सीधे अजगर शेल से स्पार्क चलाना चाहते हैं: तो अपने अजगर फ़ोल्डर में लिपियों पर जाएं और टाइप करें
pip install findspark
कमांड प्रॉम्प्ट में।
अजगर के खोल में
import findspark
findspark.init()
आवश्यक मॉड्यूल आयात करें
from pyspark import SparkContext
from pyspark import SparkConf
यदि आप फाइंडपार्क को आयात करने और इसे इनिशियलाइज़ करने के लिए चरणों को छोड़ना चाहते हैं, तो कृपया पायथन शेल में pyspark आयात करने में दी गई प्रक्रिया का पालन करें