क्या एक्सेल डेटा साइंस के लिए पर्याप्त है?


10

मैं आर प्रोग्रामिंग भाषा का उपयोग करके डेटा विज्ञान पर एक परिचयात्मक पाठ्यक्रम सिखाने की तैयारी की प्रक्रिया में हूं। मेरे दर्शक व्यावसायिक विषयों में स्नातक करने वाले छात्र हैं। एक सामान्य व्यवसाय अंडरग्रेजुएट में कंप्यूटर प्रोग्रामिंग का कोई अनुभव नहीं होता है, लेकिन उसने कुछ कक्षाएं ली हैं जो एक्सेल का उपयोग करते हैं।

निजी तौर पर, मैं आर (या अन्य प्रोग्रामिंग भाषाओं) के साथ बहुत सहज हूं क्योंकि मैंने कंप्यूटर विज्ञान में पढ़ाई की है। हालांकि, मुझे लगता है कि मेरे कई छात्र प्रोग्रामिंग भाषा सीखने से सावधान रहेंगे क्योंकि यह उनके लिए मुश्किल लग सकता है।

मेरे पास एक्सेल के साथ कुछ परिचित है, और यह मेरा विश्वास है कि जबकि एक्सेल सरल डेटा विज्ञान के लिए उपयोगी हो सकता है, छात्रों के लिए डेटा विज्ञान (जैसे, आर या पायथन) के लिए एक गंभीर प्रोग्रामिंग भाषा सीखना आवश्यक है। मैं अपने आप को और छात्रों को कैसे समझाऊं कि एक्सेल डेटा साइंस पढ़ने वाले एक गंभीर बिजनेस स्टूडेंट के लिए अपर्याप्त है, और यह कि उनके लिए कुछ प्रोग्रामिंग सीखना आवश्यक है?

टिप्पणी के जवाब में संपादित

यहाँ कुछ विषय दिए गए हैं जिन्हें मैं कवर करूंगा:

  • डाटा प्रोसेसिंग और डेटा की सफाई
  • डेटा तालिका में हेरफेर कैसे करें, उदाहरण के लिए, पंक्तियों के एक सबसेट (फ़िल्टर) का चयन करें, नए चर (म्यूट) जोड़ें, स्तंभों के लिए पंक्तियाँ
  • Dplyr पैकेज का उपयोग करके SQL जुड़ता है
  • Ggplot2 पैकेज का उपयोग करके प्लॉट (तितर बितर प्लॉट, बार प्लॉट, हिस्टोग्राम) आदि कैसे आकर्षित करें
  • रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, वर्गीकरण पेड़ों और के-निकटतम पड़ोसियों जैसे सांख्यिकीय मॉडल का अनुमान और व्याख्या कैसे करें

क्योंकि मैं एक्सेल को बहुत अच्छी तरह से नहीं जानता, इसलिए मुझे नहीं पता कि इन सभी कार्यों को एक्सेल में आसानी से किया जा सकता है या नहीं।


यह जानने के बिना कि आपके पाठ्यक्रम में क्या है, इस प्रश्न का उत्तर नहीं दिया जा सकता है। यह कहने के बाद, आपको Excel में Power Pivot / Data Model पर एक नज़र डालनी चाहिए। आप इन दिनों एक्सेल में लाखों पंक्तियों के साथ बहु-गीगाबाइट डेटासेट को आसानी से संभाल सकते हैं, और यह तेज है।
गयुस

@Gaius मैंने पाठ्यक्रम में जो कुछ सिखाना चाहता है, उसका कुछ विवरण जोड़ा
I लाइक टू कोड

आपके अंक 1-4 डेटा मॉडल support.office.com/en-us/article/… द्वारा अच्छी तरह से समर्थित हैं - बिंदु 5 के लिए मैं AzureML studio.azureml.net
Gaius

AzureML R btw
Gaius

4
अपने अंतिम बिंदु के बारे में - जॉन फोरमैन की पुस्तक "डेटा स्मार्ट" पर एक नज़र डालें - amazon.com/Data-Smart-Science-Transform-Information/dp/…
ग्रेगरी डेमिन

जवाबों:


8

सबसे पहले इस पोस्ट को देखें । इसके कई कारण हैं कि डेटा विज्ञान कार्यों के बारे में एक्सेल अन्य समाधानों से कमतर है। एक्सेल भी बड़े डेटासेट (सैकड़ों रिकॉर्ड्स - बिग डेटा के आसपास के क्षेत्र में कुछ भी उल्लेख नहीं करने के लिए ), छवि और ध्वनि डेटा को संभाल नहीं सकता है ।

एक्सेल स्प्रेडशीट से संबंधित सरल कार्यों के लिए अच्छा है; यह वास्तव में डेटा का विश्लेषण करने के लिए न्यूनतम समर्थन होने पर प्रस्तुति और उपयोग में आसानी पर अधिक जोर देता है । जब तक आप सभी करना चाहते हैं, सरल सांख्यिकीय उपायों (मतलब, औसत आदि) की गणना करना या एक बहुत ही सरल मॉडल (जैसे रैखिक प्रतिगमन) का निर्माण करना है, एक्सेल अक्षम है। कहा जा रहा है कि 99% काम जो कंपनी को संबंधित डेटा के साथ करना है वह एक्सेल के माध्यम से प्रबंधनीय होने के लिए काफी सरल है।

हालांकि डेटा साइंस मुख्य रूप से प्रतिगमन, वर्गीकरण और जटिल मॉडल से संबंधित है जो एक्सेल को संभालने के लिए सुसज्जित नहीं है! यदि आपके छात्र डेटा विज्ञान पर एक नज़र रखना चाहते हैं, तो आपको उन्हें एक उपकरण सिखाना होगा जो उनके लिए उपयोगी होगा (आर, अजगर, आदि)। इन भाषाओं में "खेलने के लिए" मॉडल में निर्मित टन के साथ पुस्तकालय भी हैं।

एक और बहुत बड़ा कारण है कि मैं बाद के विकल्पों के साथ जाऊंगा कि वे खुले स्रोत हैं । मुझे व्यक्तिगत रूप से लगता है कि एक ओपन सोर्स सॉफ्टवेयर को शैक्षिक दृष्टिकोण से मालिकाना समाधानों के लिए प्राथमिकता दी जानी चाहिए (यह भी है कि मैं अजगर और आर ओवर मैटलैब का सुझाव देता हूं)!


मैं उपरोक्त सभी से सहमत हूं, लेकिन उन्होंने कहा कि वे व्यवसाय की बड़ी कंपनियों हैं। आर क्यों नहीं पढ़ाया जाता है, लेकिन यह भी सुनिश्चित करें कि आर / एक्सेल प्लगइन का प्रदर्शन किया जाए?
CalZ

1
"एक्सेल भी बड़े डेटासेट्स (सैकड़ों हजारों रिकॉर्ड्स) को संभाल नहीं सकता है <- हाँ यह आसानी से हो सकता है। और यह एक क्लाइंट के रूप में एज़ुरेएमएल और पावरबीआई जैसे गंभीर बैक-एंड्स के लिए काम कर सकता है। मैं एक्सेल नहीं हूं" फैनबॉय "इतना लेकिन यह मुझे देखने के लिए माना जाता है कि bemuses" डेटा संचालित "जो लोग भी बुनियादी उपकरण पता नहीं है।
गयुस

1
क्या होगा यदि यह एक ही "बेसिक" मशीन (16 gb rams, i7 ecc) पर एक लाख पंक्तियाँ और साथ में हजारों कॉलम हों, जो समाधान इसे तेजी से खोलेंगे? मैं एक्सेल को बदनाम करने की कोशिश नहीं कर रहा हूं, बस एक ईमानदार जिज्ञासा है। मेरे ज्ञान से मैं एक्सेल में ऐसे डेटासेट खोल भी नहीं सकता। RStudio एक ही पीसी पर कोई समस्या नहीं है।
RLave

7

मैंने अभी-अभी बिजनेस एनालिटिक्स में मास्टर्स किया है और उसी समस्या का सामना कर रहा हूं जिसका आप वर्णन कर रहे हैं। सौभाग्य से मैं एक तकनीकी व्यक्ति हूं और खुद को आर और पायथन सिखाने में सक्षम था, लेकिन मैं बाकी कक्षा को आर और पायथन का उपयोग करने के बारे में सिखा रहा था। जिन कक्षाओं में मैंने आर / पायथन का उपयोग किया था, उन्हें छात्रों द्वारा तकनीकी समझ की कमी के कारण विकलांग किया गया था और इसलिए आर / पायथन को खोलने के लिए बहुत समय व्यतीत किया गया था। अन्य मार्ग पर जाने वाली कक्षाएं बहुत अधिक व्यावहारिक नहीं थीं। मैं एक क्लास प्रोजेक्ट के लिए कुछ करना चाहता था जो समाप्त हो गया क्योंकि एक्सेल में इसकी सीमाओं के कारण ऐसा नहीं किया जा सकता था लेकिन शिक्षक किसी अन्य उपकरण को स्वीकार नहीं करेगा।

यह कुछ ऐसा नहीं हो सकता है जिसे आप तुरंत कर सकते हैं, लेकिन मैं अत्यधिक अनुशंसा करूंगा कि आप अपना कोर्स करने से पहले प्रोग्रामिंग कोर्स की आवश्यकता के लिए प्रयास करें और विभाग को प्राप्त करें। डेटा साइंस और बिजनेस एनालिटिक्स IMHO को ऐसे डिसिप्लिन डिग्री रास्तों को पार करना चाहिए, जिनके लिए कंप्यूटर साइंस की अच्छी जरूरत पड़ती है, लेकिन जब तक प्रोग्राम्स परिपक्व और यूनिवर्सिटी सिस्टम बेहतर नहीं हो जाते, तब तक ऐसा कुछ समय के लिए नहीं हो सकता है।


आपने उल्लेख किया कि आप "एक क्लास प्रोजेक्ट के लिए कुछ करना चाहते थे जो समाप्त हो गया क्योंकि एक्सेल में इसकी सीमाओं के कारण ऐसा नहीं किया जा सका।" आप वह करने की कोशिश कर रहे थे जो एक्सेल में नहीं किया जा सकता था?
मुझे

3

मुझे लगता है कि आपको उन्हें पायथन या आर। एक्सेल जैसी एक लोकप्रिय डेटा साइंस भाषा सिखाने की आवश्यकता है, जो उन्हें वास्तविक नौकरी में मदद करने वाला नहीं है, और डेटा विज्ञान के उद्देश्यों के लिए व्यावहारिक नहीं है। मैं शायद कहूंगा कि लंबे समय में पायथन उनके लिए सबसे मूल्यवान होगा, और स्कोर-सीखें जैसे पैकेजों के साथ-साथ आपके पंजीकरण और वर्गीकरण को कोड की बहुत कम पंक्तियों में प्रदर्शित किया जा सकता है, जिसे वे आसानी से पढ़ और समझ सकते हैं। यह समझना हमेशा आसान नहीं होता है कि R इसे पढ़कर क्या कर रहा है।

सलाह का एक और शब्द: अपने छात्रों को एक आईडीई सेट करने और आवश्यक पैकेज डाउनलोड करने के लिए समय बर्बाद न करें, यदि आप अजगर का उपयोग करते हैं, तो उनके लिए सभी आवश्यक पैकेजों के साथ एक आभासी वातावरण बनाएं, और pycharm की तरह आईडीई सेट करें (वे कर सकते हैं एक छात्र / शैक्षणिक लाइसेंस के तहत यह और सबसे अधिक आईडीई प्राप्त करें) जहां कंसोल के बजाय यूआई के माध्यम से अपने कोड को विकसित और चला सकते हैं जो उन्हें चुनौतीपूर्ण और भ्रामक लग सकता है। यदि आप R मार्ग से नीचे जाते हैं तो सुनिश्चित करें कि आपके पास उनके लिए RStudio जैसी एक IDE है और सुनिश्चित करें कि सभी शामिल हैं और पैकेज इंस्टॉल या तो आपके उदाहरण कोड में शामिल हैं या पूरी तरह से वर्णित हैं।


"एक्सेल एक असली नौकरी में उनकी मदद करने नहीं जा रहा है" यह निश्चित रूप से है कि अगर उनके सभी सहकर्मी उपयोग कर रहे हैं। आपके अनुभव में कौन सी वास्तविक नौकरियां एक्सेल का उपयोग नहीं करती हैं?
गयूस

3
बड़ी मात्रा में डेटा के साथ काम करने वाला कोई भी डेटा साइंस रोल, मेरा शामिल है। आपको क्या लगता है कि कौन सी डीएस जॉब्स एक्सेल को उनके प्राथमिक उपकरण के रूप में उपयोग करेगी, ब्याज से बाहर?
डैन कार्टर

मैं आपकी प्रोफ़ाइल से देखता हूं कि आप एक छात्र हैं? ओह। ये डीएस में एक पाठ्यक्रम लेने वाले व्यवसायी छात्र हैं। अपनी व्यावसायिक नौकरियों में वे एक्सेल का उपयोग अपने प्राथमिक उपकरण के रूप में करेंगे।
गयूस

1
निश्चित रूप से, आप सही हैं कि वे एक्सेल को एक व्यावसायिक प्रकार की भूमिका में उपयोग करने की संभावना रखेंगे, हालांकि ओपी ने स्पष्ट रूप से कहा: उन्होंने पहले से ही पाठ्यक्रम ले लिया है जो एक्सेल को कवर करते हैं। इस तथ्य के साथ युगल कि एक्सेल उद्योग या अकादमिक डेटा विज्ञान के लिए पर्याप्त नहीं है और यह स्पष्ट है कि उन्हें 'डेटा के लिए एक्सेल को पढ़ाना' वास्तविक नौकरी में उनकी मदद करने वाला नहीं है, जैसा कि मैंने कहा। आप एक आदमी (या महिला) को मछली नहीं सिखा सकते हैं, उन्हें फ्रेंच बोलने के लिए सिखाकर।
डैन कार्टर

तो क्या हुआ अगर वे पहले से ही एक्सेल पर पाठ्यक्रम ले चुके हैं? R सीखने की अक्षमता की तरह इलाज न करें। हम यहाँ Haskell या LISP की बात नहीं कर रहे हैं!
Emre

2

मैं अपने आप को और छात्रों को कैसे समझाऊं कि एक्सेल डेटा साइंस की पढ़ाई करने वाले एक गंभीर व्यावसायिक छात्र के लिए अपर्याप्त है

R में एक विशाल data.frame (युगल mln पंक्तियों और सैकड़ों कॉलम) बनाएँ, इसे .xlsx के रूप में सहेजें।

उन्हें उसी मशीन पर R, और Excel में लोड करने में समय का अंतर दिखाएं। एक ही डाटासेट, यहां तक ​​कि भूखंडों पर दोनों के बीच बुनियादी आंकड़ों के संचालन की तुलना करें।

प्वाइंट नं। एक्सेल में भी 2-4 लिस्ट की जा सकती है, सिर्फ A LOT ज्यादा दर्द होने पर, उन्हें एक उदाहरण दिखाओ कि dplyrबेसिक एक्सेल की तुलना में, कितना सरल (और तेज) फिल्टर कर रहा है , फिर से एक विशाल डेटासेट पर यह हाइलाइट होगा अंतर।

बोनस बिंदु यदि आप एक ऐसे डेटासेट के साथ आ सकते हैं जो आपके पीसी को एक्सेल के साथ क्रैश करता है।

इसके अलावा, मैं आर (या पायथन) के "फ्री-टू-यूज़" भाग को एन्हाटेट करूँगा। उदाहरण के लिए, एसएएस की तुलना में, यदि आप बस एक समाधान (यानी किसी प्रकार का क्लस्टर) की कोशिश करना चाहते हैं, तो आप पुस्तकालय को लोड करते हैं, और इसे आज़माते हैं, बस कोशिश करने के लिए अधिक भुगतान करने की आवश्यकता नहीं है।

मुझे लगता है कि यह की सुंदरता है, तो आप मुफ्त की कोशिश कर सकते हैं जो भी आपको चाहिए, और अक्सर यह डीएस में महत्वपूर्ण है, कल्पना करें कि क्या आपको अपने द्वारा स्थापित प्रत्येक पुस्तकालय के लिए भुगतान करना होगा।


1

एक्सेल और डाटा साइंस - मुझे बहुत अजीब लगता है। शायद एक्सेल और 'डेटा एनालिसिस'।

वैसे भी, मुझे लगता है कि एक्सेल और आर के बीच एक अच्छा समझौता है: KNIME ( http://www.knime.org/knime-analytics-platform )। यह डेस्कटॉप पर मुफ्त है और आरंभ करने के लिए बहुत आसान है। आप एक्सेल में आयात / निर्यात कर सकते हैं, लेकिन ~ 1.000 नोड्स को कुछ कार्यक्षमता की याद आती है, जिनकी आपको आवश्यकता है, आर, पायथन या जावा का उपयोग करें। चूंकि वर्कफ़्लो नेत्रहीन रूप से बनाए जाते हैं, इसलिए उन्हें किसी ऐसे व्यक्ति को दिखाना बहुत आसान है, जो किसी भी प्रोग्रामिंग भाषा को नहीं जानता है - जो कुछ कंपनियों में काफी लाभ है।


0

मुझे लगता है कि समस्या यह है कि आप अपने छात्रों को समझाने की कोशिश कर रहे हैं कि आपकी कक्षा लेने से, वे आधुनिक डेटा विज्ञान के स्तर के समान डेटा विज्ञान कर सकते हैं, अर्थात, छवि प्रसंस्करण, चेहरे की पहचान जैसे फैंसी सामान। आप यह कहते हुए अधिकांश समय सुनते हैं, "इस वर्ग को लेने से, आप करेंगे ..." आपको उन्हें क्या सिखाने की ज़रूरत है डेटा के लिए प्यार और डेटा का एक गुच्छा के माध्यम से देखने का साहस, उनके साथ खिलवाड़ करने के लिए उम्मीद करना उनमें से कुछ समझ में आता है। जिस पल वे ऐसा कर सकते हैं, आप उन्हें डेटा वैज्ञानिक कह सकते हैं और नई पीढ़ी के डेटा वैज्ञानिकों के लिए आपको खुद पर गर्व महसूस करना चाहिए। उसके बाद, यदि वे डेटा विज्ञान के बारे में बहुत गंभीर हैं, तो वे अन्य गहन पाठ्यक्रम ले सकते हैं जो गणित, सांख्यिकी और कंप्यूटर विज्ञान (आपके जैसा प्रोग्रामिंग अनुभव) के साथ काम करते हैं। मैं आपके छात्रों के समान स्थिति में था। मेरे पास कोई सीएस पृष्ठभूमि नहीं थी, लेकिन फैंसी वादों के साथ कुछ ऑनलाइन कक्षाएं लेकर डेटा विज्ञान और एआई में तोड़ना चाहते थे। मैंने बहुत सारे पैसे बर्बाद कर दिए, फिर भी मैंने खुद को भारी निराशा में पाया (ओह, मुझे इस एल्गोरिथम को जानने के लिए इस वर्ग को लेने की आवश्यकता है, ओह, वे अब तंत्रिका नेटवर्क के बारे में बात कर रहे हैं, इसलिए मुझे अन्य वर्ग के लिए साइन अप करना होगा,) टीएल ; डॉ। आपके पास जो भी समस्या है उसका सिर्फ 1% उपकरण आपके पास हैं। अपनी पृष्ठभूमि के साथ, आपको एक्सेल में एक सप्ताह में उपरोक्त कार्यों का पता लगाने में कोई समस्या नहीं होनी चाहिए। ओह, वे अब तंत्रिका नेटवर्क के बारे में बात कर रहे हैं इसलिए मुझे अन्य वर्ग, आदि के लिए साइन अप करना होगा) टीएल; डीआर। आपके पास जो भी समस्या है उसका सिर्फ 1% उपकरण आपके पास हैं। अपनी पृष्ठभूमि के साथ, आपको एक्सेल में एक सप्ताह में उपरोक्त कार्यों का पता लगाने में कोई समस्या नहीं होनी चाहिए। ओह, वे अब तंत्रिका नेटवर्क के बारे में बात कर रहे हैं इसलिए मुझे अन्य वर्ग, आदि के लिए साइन अप करना होगा) टीएल; डीआर। आपके पास जो भी समस्या है उसका सिर्फ 1% उपकरण आपके पास हैं। अपनी पृष्ठभूमि के साथ, आपको एक्सेल में एक सप्ताह में उपरोक्त कार्यों का पता लगाने में कोई समस्या नहीं होनी चाहिए।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.