क्या डेटा वैज्ञानिक एक्सेल का उपयोग करते हैं?


37

मैं खुद को एक ट्रैवलमैन डेटा वैज्ञानिक मानूंगा। अधिकांश की तरह (मुझे लगता है), मैंने अपने पहले चार्ट बनाए और एक्सेल का उपयोग करते हुए हाई स्कूल और कॉलेज में अपना पहला एकत्रीकरण किया। जैसा कि मैंने कॉलेज, ग्रेड स्कूल और ~ 7 साल के कार्य अनुभव के माध्यम से जाना, मैंने जल्दी से उठाया जो मैं अधिक उन्नत उपकरण मानता हूं, जैसे कि एसक्यूएल, आर, पायथन, हडॉप, लाटेएक्स, आदि।

हम एक डेटा वैज्ञानिक स्थिति के लिए साक्षात्कार कर रहे हैं और एक उम्मीदवार 15+ वर्षों के अनुभव के साथ खुद को "वरिष्ठ डेटा वैज्ञानिक" (इन दिनों बहुत ही शानदार शब्द) के रूप में विज्ञापित करता है। जब उनसे पूछा गया कि उनका पसंदीदा टूलसेट क्या है, तो उन्होंने जवाब दिया कि यह एक्सेल था।

मैंने इसे सबूत के रूप में लिया कि वह उतना अनुभवी नहीं था जितना उसका फिर से शुरू होने का दावा करेगा, लेकिन यकीन नहीं था। सब के बाद, सिर्फ इसलिए कि यह मेरा पसंदीदा उपकरण नहीं है, इसका मतलब यह नहीं है कि यह अन्य लोग नहीं हैं। क्या अनुभवी डेटा वैज्ञानिक एक्सेल का उपयोग करते हैं? क्या आप किसी ऐसे व्यक्ति से अनुभव की कमी मान सकते हैं जो मुख्य रूप से एक्सेल का उपयोग करता है?


अधिकांश डेटा विज्ञान नौकरी विज्ञापन विशिष्ट कौशल के लिए पूछते हैं, जैसे R, Hadoop, जो भी हो। क्या आपने अपने विज्ञापन में इसका उल्लेख करने की उपेक्षा की? जब तक आपका नया डेटा साइंटिस्ट बबल में काम नहीं करने वाला है, तब तक उसे टीम के साथ काम करना होगा, और शायद मानक टीम सॉफ्टवेयर के साथ काम करने की जरूरत है ...
Spacedman

1
यदि वे उपयोग नहीं करेंगे \LaTeX{}तो मैं उन्हें भाड़े पर नहीं लूंगा । बस मजाक कर रहे हैं ...
aeroNotAuto

1
@Spacedman: मैंने किस्सा प्रसंग के लिए कहानी प्रदान की है, लेकिन मैं टिप्स को काम पर रखने की तुलना में एक्सेल पर लोगों के विचारों में वास्तव में अधिक दिलचस्पी रखता हूं। हमारी टीम जो भी उपकरण हमें पसंद है उसका उपयोग करने के लिए स्वतंत्र है।
JHowIX

1
हां, यहां देखें । बिगड़े हुए मजाक के लिए, यहाँ भी देखें ।
डिर्क एडल्डबुलेटेल

1
निर्दिष्ट वर्षों के बावजूद, मैं एक डेटा वैज्ञानिक से कम से कम तीन टूल की प्रो / कॉन सूची की उम्मीद करूंगा। उन्हें जांच, वजन विकल्प, और संकल्पों को संप्रेषित करने की क्षमता दिखाने की जरूरत है। यहां तक ​​कि, या विशेष रूप से, एक साक्षात्कार में, मैं वास्तविक सगाई और संभावित रूप से महान अतीत का विस्तार करने की क्षमता देखने की उम्मीद करूंगा, लेकिन वर्तमान में कमी, साक्षात्कार प्रश्न।
डेव

जवाबों:


28

अधिकांश गैर-तकनीकी लोग अक्सर डेटाबेस प्रतिस्थापन के रूप में एक्सेल का उपयोग करते हैं। मुझे लगता है कि यह गलत है लेकिन सहन करने योग्य है। हालांकि, कोई व्यक्ति जो डेटा विश्लेषण में माना जाता है, वह केवल अपने मुख्य टूल के रूप में एक्सेल का उपयोग नहीं कर सकता है (पहली बार डेटा को देखने के स्पष्ट कार्य को छोड़कर)। ऐसा इसलिए है क्योंकि एक्सेल उस तरह के विश्लेषण के लिए कभी नहीं था और इसके परिणामस्वरूप, एक्सेल में गलतियां करना अविश्वसनीय रूप से आसान है (यह कहना नहीं है कि अन्य उपकरणों का उपयोग करते समय एक और प्रकार की गलतियां करना अविश्वसनीय रूप से आसान नहीं है, लेकिन एक्सेल स्थिति को और भी अधिक बढ़ा देता है।)

यह बताने के लिए कि एक्सेल में क्या नहीं है और किसी भी विश्लेषण के लिए क्या करना चाहिए:

  1. Reproducibility। एक डेटा विश्लेषण को प्रतिलिपि प्रस्तुत करने योग्य होने की आवश्यकता है।
  2. संस्करण नियंत्रण। सहयोग के लिए अच्छा है और प्रजनन के लिए भी अच्छा है। Xls का उपयोग करने के बजाय, csv का उपयोग करें (अभी भी बहुत जटिल है और किनारे के बहुत सारे मामले हैं, लेकिन csv पार्सर आजकल बहुत अच्छे हैं।)
  3. परिक्षण। यदि आपके पास परीक्षण नहीं हैं, तो आपका कोड टूट गया है। यदि आपका कोड टूट गया है, तो आपका विश्लेषण बेकार से भी बदतर है।
  4. रख-रखाव।
  5. शुद्धता। संख्यात्मक सटीकता, अन्य लोगों के बीच सटीक तिथि पार्सिंग, वास्तव में एक्सेल की कमी है।

और अधिक संसाधनों:

यूरोपीय स्प्रेडशीट जोखिम समूह रुचि समूह - डरावनी कहानियां

आपको महत्वपूर्ण कार्य के लिए स्प्रेडशीट का उपयोग नहीं करना चाहिए (मेरा मतलब है)

Microsoft का एक्सेल ग्रह पर सबसे खतरनाक सॉफ्टवेयर हो सकता है

यह एक अजीब चाल के साथ एक्सेल का उपयोग कर अपने डेटा को नष्ट!

एक्सेल स्प्रेडशीट सही पाने के लिए कठिन हैं


डेटा को देखने और जल्दी से इसका विश्लेषण करने के लिए, क्या एक्सेल की तुलना में पेशेवरों द्वारा व्यापक रूप से स्वीकार किए जाने वाले उपकरण हैं? मैं एक नौसिखिया डेटा वैज्ञानिक हूं, और मैं ज्यादातर (Postgre) एसक्यूएल का उपयोग कर रहा हूं, लेकिन एक्सेल जैसी कोई चीज तेजी से काम कर सकती है अगर आप सिर्फ चीजों को आज़मा रहे हैं।
सूडो

1
इसके अलावा, मुझे शिकायत करनी होगी कि CSV एक मानक नहीं है। आपको वास्तव में यह सुनिश्चित करना होगा कि जो भी इसे खोल रहा है, वह जो कुछ भी पैदा करता है, उससे सहमत हो। OpenOffice इसे सही करता है और आपको प्रारूप के बारे में कुछ भी मानने के बजाय लोड करते समय कई CSV विकल्प चुनने देता है।
सूडो

@sudo टूल आपकी पसंद की प्रोग्रामिंग भाषा पर निर्भर करता है, जो कि ज्यादातर एक व्यक्तिगत प्राथमिकता है। बस कुछ उदाहरण देने के लिए, आर ऐतिहासिक रूप से एक अच्छा विकल्प रहा है, हाल के वर्षों में पायथन ने डेटा विश्लेषण के लिए लोकप्रियता में वृद्धि की है, जूलिया क्षेत्र में एक बहुत ही होनहार नवागंतुक है। अधिकांश प्रोग्रामिंग भाषाएं परिपक्व पुस्तकालय प्रदान करती हैं जो आपको संरचनाएं प्रदान करती हैं (उदाहरण के लिए डेटाफ्रेम) विशेष रूप से डेटा विश्लेषण के लिए उपयुक्त हैं और ये सभी एक्सेल से बेहतर हैं। CSV को मानकीकृत किया गया है लेकिन ऐसे विवरण हैं जो अलग-अलग कार्यान्वित किए जाते हैं, लेकिन यह आपके रोजमर्रा के काम में बहुत बड़ा मुद्दा नहीं होना चाहिए।
रोबर्ट स्मिथ

मैं प्रकाश प्रसंस्करण के लिए पायथन का उपयोग करता हूं, लेकिन यह वास्तव में एक्सेल के उद्देश्यों की सेवा नहीं करता है। उदाहरण के लिए, एक्सेल में, आप ऑटोफिल्टर और इंटरेक्टिव चार्ट जैसे टूल का उपयोग कर सकते हैं। मैं आमतौर पर अपने डेटा को एक्सेल या कुछ और देखने के लिए अपने उच्चतर सीएसवी के लिए आउटपुट करता हूं।
sudo

@ सूदो फिर आप पंडों को चाहते हैं। पंडों आपके डेटा में हेरफेर करने के लिए बहुत सारे तरीके प्रदान करते हैं। इसमें इंडेक्स, कॉलम या शर्तों के आधार पर सब्मिटिंग शामिल है, जो ऑटोफिल्टर की तुलना में अधिक लचीला और शक्तिशाली है। तब आप परिणाम ( df.plot()) प्लॉट कर सकते हैं और अपने आउटपुट को सीएसवी ( df.to_csv('output.csv')) में निर्यात कर सकते हैं । ध्यान रखें कि डेटा विश्लेषण आमतौर पर फ़िल्टरिंग और प्लॉटिंग की तुलना में बहुत अधिक की आवश्यकता होती है। इसलिए, ध्यान शुद्धता पर होना चाहिए, इसलिए आपको विश्लेषण से प्रस्तुति को कम करने की आवश्यकता है। पायथन (या अन्य भाषा) में अपना विश्लेषण करें, अगर आप चाहते हैं तो सीएसवी में अपना आउटपुट साझा करें।
रॉबर्ट स्मिथ

15

क्या अनुभवी डेटा वैज्ञानिक एक्सेल का उपयोग करते हैं?

मैंने कुछ अनुभवी डेटा वैज्ञानिकों को देखा है, जो एक्सेल का उपयोग करते हैं - या तो उनकी प्राथमिकता के कारण, या उनके कार्यस्थल के व्यवसाय और आईटी वातावरण के कारण (उदाहरण के लिए, कई वित्तीय संस्थान एक्सेल को उनके प्रमुख उपकरण के रूप में उपयोग करते हैं, कम से कम, मॉडलिंग के लिए)। हालांकि, मुझे लगता है कि अधिकांश अनुभवी डेटा वैज्ञानिक उपकरण का उपयोग करने की आवश्यकता को पहचानते हैं, जो विशेष कार्यों के लिए इष्टतम हैं, और इस दृष्टिकोण का पालन करते हैं।

क्या आप किसी ऐसे व्यक्ति से अनुभव की कमी मान सकते हैं जो मुख्य रूप से एक्सेल का उपयोग करता है?

नहीं आप नहीं कर सकते। यह मेरे उपर्युक्त विचारों से पुष्ट है। डेटा विज्ञान स्वचालित रूप से बड़े डेटा का अर्थ नहीं करता है - बहुत सारे डेटा विज्ञान कार्य हैं जिन्हें एक्सेल काफी अच्छी तरह से संभाल सकता है। कहा जाता है कि, यदि एक डेटा वैज्ञानिक (यहां तक ​​कि अनुभवी एक भी) के पास बड़े डेटा-केंद्रित लोगों सहित आधुनिक डेटा विज्ञान उपकरणों का ज्ञान (कम से कम, बुनियादी) नहीं है, तो यह कुछ हद तक परेशान करने वाला है। ऐसा इसलिए है क्योंकि अन्वेषणात्मक डेटा विश्लेषण एक आवश्यक और, यहां तक ​​कि इसका एक महत्वपूर्ण हिस्सा होने के कारण प्रयोग विज्ञान डेटा की प्रकृति में गहराई से जुड़ा हुआ है। इसलिए, एक व्यक्ति, जिसके पास अपने डोमेन के भीतर अन्य उपकरणों का पता लगाने का आग्रह नहीं है, डेटा विज्ञान की स्थिति के लिए समग्र रूप से उम्मीदवारों के बीच कम रैंक कर सकता है (बेशक, यह काफी फजी है, क्योंकि कुछ लोग सीखने में बहुत तेज हैं। नई सामग्री, प्लस,

इसलिए, निष्कर्ष में, मुझे लगता है कि एक अनुभवी डेटा वैज्ञानिक का सबसे अच्छा जवाब एक सवाल हो सकता है कि उनके पसंदीदा उपकरण निम्नलिखित हैं: मेरा पसंदीदा उपकरण सबसे इष्टतम है, वह वह है जो सबसे अच्छा काम हाथ में फिट बैठता है।


5
Hadoop को न जानने के लिए मैं कभी किसी को दोष नहीं दूंगा लेकिन यहां तक ​​कि छोटी डेटा स्थितियों में भी मुझे लगता है जैसे कि आर बेहतर है। वहाँ बस चीजें हैं जो आप R के साथ कर सकते हैं जो आप Excel के साथ नहीं कर सकते हैं। यह मुझे चिंता है कि इस व्यक्ति ने "खोज" नहीं किया है कि उसके 15+ वर्षों में
JHowIX

@ झाविक्स: क्या आप "अच्छा पर्याप्त" शब्द से परिचित हैं? मैं R का बहुत बड़ा प्रशंसक भी हूं और किसी भी दिन एक्सेल को शामिल करते हुए इसे कई टूल्स के लिए पसंद करूंगा। हालांकि, यह तथ्य कि आर अधिक कर सकता है, इसका मतलब यह नहीं है कि एक्सेल (या किसी भी अन्य उपकरण किसी कार्य के लिए उपयुक्त) किसी विशेष कार्य के संदर्भ में हीन है। इसलिए, जब आपकी चिंता वैध है (मैं "डिस्टर्बिंग" शब्द का उपयोग करके इसका उल्लेख करता हूं), तो हो सकता है कि उस व्यक्ति को ऐसा करने का अवसर / आवश्यकता न हो। याद रखें, कि आप उस समय के बारे में बात कर रहे हैं, जब R अस्तित्व में था, लेकिन ज्यादातर अकादमिया और डेटा विज्ञान में लोकप्रिय था (जिसे डेटा विश्लेषण या ऐसा कहा जाता है) आज की तरह गर्म नहीं था।
23:33 पर असेम्बली में बलेक

13

मुझे लगता है कि एक्सेल का अच्छा ज्ञान न होने से ज्यादातर लोग जवाब दे रहे हैं। एक्सेल (2010 के बाद से) में एक मेमोरी कॉलम [मल्टी टेबल] डेटाबेस है, जिसे पावर पिवट (जिसे सीएसवी / डेटाबेस आदि से इनपुट की अनुमति है) कहा जाता है, जिससे इसे लाखों पंक्तियों को संग्रहीत करने की अनुमति मिलती है (इसे स्प्रेडशीट पर लोड नहीं करना पड़ता है) । इसमें एक ईटीएल टूल भी है जिसे पावर क्वेरी कहा जाता है जिससे आप विभिन्न स्रोतों (हडूप सहित) से डेटा को पढ़ सकते हैं। और इसमें एक विज़ुअलाइज़ेशन टूल (पावर व्यू और पावर मैप) है। बहुत से डेटा विज्ञान एकत्रीकरण और शीर्ष-एन विश्लेषण कर रहे हैं जिस पर पावर पिवट एक्सेल। इन उपकरणों की संवादात्मक प्रकृति में जोड़ें - कोई भी उपयोगकर्ता आसानी से एक आयाम को खींच और छोड़ सकता है, जिसके परिणाम को तोड़ने के लिए मुझे आशा है कि आप लाभ देख सकते हैं। तो हाँ आप मशीन लर्निंग नहीं कर सकते,


दिलचस्प। मैं 1998-2008 के एक्सेल के धीमे और छोटे सामान का उपयोग कर रहा हूं। होगा नए लोगों की कोशिश करो।
सूदो

काश मैं seanv507 के उत्तर को एक लाख बार एंडोर्स कर पाता। यहां अधिकांश उत्तर बताते हैं कि बहुत से लोगों को इस बात की जानकारी नहीं है कि एक्सेल के हाल के संस्करण कितने शक्तिशाली हैं। और कृपया ध्यान दें कि जब आप नए डेटा एनालिटिक्स टूल (ईजी पॉवर क्वेरी, पॉवर पिवट, डैक्स) का उपयोग करते हैं तो आप डेटा की 1, 048, 576 पंक्तियों और इन उपकरणों के बिना अन्य सीमाओं के होस्ट तक सीमित नहीं रह जाते हैं
maze55555

बिना व्यावसायिक पृष्ठभूमि के लोग एक्सेल का उपयोग नहीं करते हैं। अवधि। और व्यवसाय स्नातकों को देखते हुए आमतौर पर डेटा विज्ञान में नहीं जाते हैं, आप अज्ञानता को समझ सकते हैं।
NoName

5

अपनी पुस्तक डेटा स्मार्ट में, जॉन फोरमैन सामान्य डेटा विज्ञान समस्याओं (क्लस्टरिंग, भोले गोले, कलाकारों की टुकड़ी, एक्सेल) का उपयोग करके हल करता है। वास्तव में पायथन या आर का कुछ ज्ञान होना हमेशा अच्छा होता है लेकिन मुझे लगता है कि एक्सेल अभी भी अधिकांश काम पूरा कर सकता है!


2
दरअसल, जब मैंने किताब पढ़ी तो आप खुद हैरान थे कि आप एक्सेल के साथ इतना कुछ कैसे कर सकते हैं। और यह कि इसमें विकासवादी और अन्य गैर-रैखिक सॉल्वर अंतर्निहित थे! एक्सेल का एक अच्छा लाभ यह है कि आपका काम, खासकर यदि आप प्रतिलिपि प्रस्तुत करने योग्य कोड में हैं, तो आर या पायथन कोड की तुलना में अधिक लोगों के लिए सुलभ है।
विक्टर मा

5

मुझे आश्चर्य है कि कितने लोगों को नौकरी करने के बजाय पेशे की ठंडक से जोड़ा जाता है। एक्सेल उत्कृष्ट उपकरण है, जिसमें मुफ्त पावरपिव, पॉवरक्वेरी है, यह इतना कुछ कर सकता है। (ये OS X पर उपलब्ध नहीं हैं)। और अगर आप VBA को जानते हैं, तो आप कुछ अच्छी चीजें कर सकते हैं। और फिर यदि आप अजगर के उस ज्ञान के शीर्ष पर जोड़ते हैं तो आप अजगर के साथ डेटा निष्कर्षण और हेरफेर के पहले चरणों को जोड़ सकते हैं और फिर एक्सेल का उपयोग कर सकते हैं, खासकर यदि आप एक दृश्य व्यक्ति हैं। एक्सेल के साथ आप वास्तव में किसी भी आगे की प्रक्रिया में खिलाने या कल्पना करने से पहले एकत्रित डेटा का निरीक्षण कर सकते हैं। इसका एक टूल होना चाहिए।


4

एक्सेल केवल बहुत छोटे डेटा की अनुमति देता है और इसमें कुछ भी नहीं है जो मशीन सीखने या यहां तक ​​कि सिर्फ प्लॉटिंग के लिए पर्याप्त रूप से उपयोगी और लचीला है। सभी मैं एक्सेल में करूंगा, डेटा के एक सबसेट पर घूरता हूं कि मूल्यों पर पहली नज़र में यह सुनिश्चित करने के लिए कि मैं आंख से दिखाई देने वाली किसी भी चीज़ को याद नहीं करता।

इसलिए, यदि उसका पसंदीदा उपकरण एक्सेल है, तो यह सुझाव दे सकता है कि वह मशीन सीखने, सांख्यिकी, बड़े डेटा आकार या किसी भी उन्नत प्लॉटिंग से शायद ही संबंधित है। इस तरह से मैं किसी को डेटा साइंटिस्ट नहीं कहूंगा। बेशक खिताब मायने नहीं रखता है और यह आपकी आवश्यकताओं पर बहुत कुछ निर्भर करता है।

किसी भी मामले में, अनुभव या सीवी के बयानों से निर्णय न लें। मैंने सीवी देखा है और इसके पीछे के लोगों को जाना है।

मत मानो। उसे परखो! आपको परीक्षण स्थापित करने के लिए पर्याप्त अच्छा होना चाहिए। यह दिखाया गया है कि कौशल का निर्धारण करने के लिए अकेले साक्षात्कार बेकार हैं (वे केवल व्यक्तित्व दिखाते हैं)। एक बहुत ही सरल पर्यवेक्षित शिक्षण परीक्षण सेट करें और उसे अपने इच्छित किसी भी उपकरण का उपयोग करने दें।

और अगर आप लोगों को पहले एक साक्षात्कार में स्क्रीन करना चाहते हैं, तो उससे आंकड़ों या मशीन सीखने के बारे में बहुत बुनियादी लेकिन महत्वपूर्ण अंतर्दृष्टि के बारे में पूछें। ऐसा कुछ जो आपके वर्तमान कर्मचारियों में से हर एक जानता है।


2

मुझे पहले स्पष्ट करना चाहिए कि मैं एक प्रोग्रामर और डेटाबेस डेवलपर के दृष्टिकोण से डेटा विज्ञान में अपनी यात्रा शुरू कर रहा हूं। मैं 10 साल का डेटा साइंस विशेषज्ञ नहीं हूं और न ही कोई सांख्यिकीय ईश्वर। हालांकि, मैं एक कंपनी के लिए डेटा वैज्ञानिक और बड़े डेटासेट काम करता हूं जो दुनिया भर में बड़े ग्राहकों के साथ काम करता है।

मेरे अनुभव से, डेटा वैज्ञानिक काम करने के लिए जो भी उपकरण की आवश्यकता होती है उसका उपयोग करते हैं। एक्सेल, आर, एसएएस, पायथन और अधिक सभी अच्छे डेटा वैज्ञानिक के लिए एक टूलबॉक्स में उपकरण हैं। डेटा का विश्लेषण और क्रंच करने के लिए सबसे अच्छे उपकरण का उपयोग किया जा सकता है।

इसलिए, यदि आप अपने आप को आर की तुलना पायथन से करते हैं, तो आप डेटा विज्ञान की दुनिया में यह सब गलत कर रहे हैं। अच्छा डेटा वैज्ञानिक दोनों का उपयोग करते हैं जब यह दूसरे पर एक का उपयोग करने के लिए समझ में आता है। यह एक्सेल पर भी लागू होता है।

मुझे लगता है कि यह बहुत मुश्किल है कि कोई भी ऐसा हो जो इतने सारे अलग-अलग साधनों और भाषाओं में अनुभव करने वाला हो, जबकि वह हर चीज में महान हो। मुझे यह भी लगता है कि यह विशेष रूप से डेटा वैज्ञानिक को खोजने के लिए कठिन होने जा रहा है जो न केवल जटिल एल्गोरिदम को प्रोग्राम कर सकते हैं, बल्कि यह भी जान सकते हैं कि उन्हें सांख्यिकीय दृष्टिकोण से भी कैसे उपयोग किया जाए।

मैंने जितने डेटा साइंटिस्ट के साथ काम किया है उनमें से लगभग 2 फ्लेवर में आए हैं। वे जो प्रोग्राम कर सकते हैं और जो नहीं कर सकते हैं। मैं शायद ही कभी डेटा वैज्ञानिक के साथ काम करता हूं जो पायथन में डेटा खींच सकता है, इसे पंडों की तरह कुछ के साथ हेरफेर कर सकता है, आर में डेटा के लिए एक मॉडल फिट कर सकता है और फिर इसे सप्ताह के अंत में प्रबंधन के लिए प्रस्तुत कर सकता है।

मेरा मतलब है, मुझे पता है कि वे मौजूद हैं। मैंने वेब स्क्रैपर विकसित करने वाले लोगों के कई डेटा साइंस ब्लॉग पढ़े हैं, इसे Hadoop में धकेला, इसे पायथन में वापस लाया, जटिल चीजों को प्रोग्रामिंग किया और R से बूट के माध्यम से इसे चलाया। वे जीवित हैं। वे वहाँ बाहर हैं। मैं अभी बहुत ज्यादा नहीं भागा हूँ जो यह सब कर सके। शायद यह सिर्फ मेरा क्षेत्र है?

तो, इसका मतलब यह है कि केवल एक चीज खराब में विशेषज्ञता है? नहीं। मेरे बहुत सारे दोस्त सिर्फ एक मुख्य भाषा के विशेषज्ञ हैं और इसे मार देते हैं। मैं बहुत से डेटा लोगों को जानता हूं जो केवल आर को जानते हैं और इसे मारते हैं। मैं बहुत से ऐसे लोगों को भी जानता हूं जो केवल डेटा का विश्लेषण करने के लिए एक्सेल का उपयोग करते हैं क्योंकि केवल एक चीज है जो अधिकांश गैर-डेटा वैज्ञानिक खोल सकते हैं और उपयोग कर सकते हैं (विशेष रूप से बी 2 बी कंपनियों में)। जिस प्रश्न का आपको वास्तव में उत्तर देने की आवश्यकता है, वह यह है कि क्या यह एक चीज़ है जो आपको इस पद के लिए चाहिए? और सबसे महत्वपूर्ण बात, क्या वे नई चीजें सीख सकते हैं?

पुनश्च

डेटा विज्ञान केवल "BIG DATA" या NoSQL तक ही सीमित नहीं है।


हाय ग्लेन, आपकी टिप्पणियों के लिए धन्यवाद। निम्नलिखित लिंक पर एक नज़र डालें। इसके स्वामी चंद्रशेखरन से जिन्होंने आईबीएम में वाटसन टीम का नेतृत्व किया, इसलिए मेरी राय में एक बहुत ही अनुभवी डेटा वैज्ञानिक हैं। उसके पास प्रोग्रामिंग है क्योंकि मूल रूप से एक तीसरी चीज जिसे डेटा वैज्ञानिक को "फंडामेंटल्स" और सांख्यिकी के पीछे जानने की जरूरत है। उनके रोडमैप के अनुसार, एक बार जब आप प्रोग्राम करना जानते हैं, तो आप डेटा वैज्ञानिक होने का 15% तरीका हैं। इसके आधार पर, मैं इस कथन से थोड़ा असहमत हो सकता हूं कि सच्चे डेटा वैज्ञानिक "नॉन-प्रोग्रामिंग" स्वाद में आते हैं। nirvacana.com/ हालांकिts
becoming-

वैसे, मैं केवल अनुभव के आधार पर कहता हूं। अधिकांश आँकड़े और डेटा विज्ञान पाठ्यक्रम भी प्रोग्रामिंग को कवर नहीं करते हैं जो आपको लोकप्रिय सांख्यिकीय कार्यक्रमों के लिए आवश्यक हैं। उसी के कारण, मैं सांख्यिकी दुनिया में जितने भी लोगों को चलाता हूं उनमें से अधिकांश प्रोग्रामिंग में अच्छे नहीं हैं। जब वे वास्तविक दुनिया में प्रवेश करते हैं और यह महसूस करते हैं कि यह मदद करता है, तो यह एक विचार की तरह है।
ग्लेन स्वान

1

एक्सेल खोजपूर्ण डेटा विश्लेषण के लिए एक उत्कृष्ट उपकरण हो सकता है जो वास्तव में आपकी आवश्यकताओं पर निर्भर करता है और निश्चित रूप से इसकी सीमाएं किसी भी उपकरण की तरह हैं, लेकिन एक्सेल निश्चित रूप से प्रसिद्धि के डेटा साइंस हॉल में एक स्थान के लिए योग्य है।

यह याद रखना कि व्यवहार में अधिकांश उपयोगकर्ता वैसे भी कम डेटा सेट (SQL क्वेरी से निर्मित) की खोज कर रहे होंगे।

एक्सेल डेटा की खोज के लिए शक्तिशाली है जब आप पिवट टेबल के साथ संयोजन में "टेबल" ऑब्जेक्ट का उपयोग करते हैं, तो विज़ुअलाइज़िंग सभी 1-2 क्लिक अधिकतम होता है और पावरपॉइंट में बहुत सारे एक्सेल चार्ट बहुत अच्छे लगते हैं, जब तक कि आपकी तलाश कुछ बहुत ही बेहतर बनाने के लिए न हो वैज्ञानिक कंप्यूटिंग संदर्भ। इंटरैक्टिव प्रकृति का मतलब है कि आप तेजी से तलाश कर सकते हैं।

"टेबल" ऑब्जेक्ट का लाभ यह है कि जैसा कि आप डेटा को एक्सेल में और अधिक रूपांतरित करते हैं, जिससे आप नए वितरणों का पता लगाने में सक्षम हो सकते हैं, जो सभी चर को याद करते हैं।

जहां एक्सेल कमजोर है, सूत्र सूची यकीनन सीमित है, उदाहरण के लिए एक SQL केस स्टेटमेंट या पायथन स्टेटमेंट, यदि फ़ंक्शन की अंतहीन श्रृंखला की तुलना में अधिक लचीला है।

यह वास्तव में आपकी आवश्यकताओं पर निर्भर करता है, लेकिन एक्सेल निश्चित रूप से प्रसिद्धि के डेटा साइंस हॉल में एक जगह के हकदार हैं।

दिलचस्प किस्सा है, जो टीम फेसबुक न्यूज़फ़ीड एल्गोरिथ्म पर काम करती है, वह सभी नियमित रूप से एक्सेल और बहुत सारे स्प्रेडसेट के साथ खेलती देखी जा सकती है।


0

मैं एक व्यवसाय विश्लेषिकी पाठ्यक्रम सिखाता हूं जिसमें एसक्यूएल और एक्सेल शामिल हैं। मैं एक बिजनेस स्कूल में पढ़ाता हूं, इसलिए मेरे छात्र तकनीकी रूप से सक्षम नहीं हैं, यही वजह है कि मैंने आर, पंडों या वेका जैसी किसी चीज का उपयोग नहीं किया। कहा जा रहा है कि, एक्सेल कुछ डेटा विश्लेषण के लिए उपयोग करने के लिए एक शक्तिशाली पर्याप्त उपकरण है। यह डेटा माइनिंग ऐड-इन का उपयोग करके SQL सर्वर विश्लेषण सेवाओं (डेटा विश्लेषण के लिए SQL सर्वर में एक घटक) के सामने के छोर के रूप में कार्य करने की अपनी क्षमता से अधिकांश शक्ति प्राप्त करता है।

SSAS आपको निर्णय वृक्षों का निर्माण, रैखिक और लॉजिस्टिक प्रतिगमन करने और यहां तक ​​कि बायेसियन या तंत्रिका नेटवर्क बनाने की सुविधा देता है। मैंने पाया है कि एक्सेल का फ्रंट-एंड के रूप में उपयोग करना इस तरह के विश्लेषणों को करने के लिए कम खतरा है क्योंकि वे सभी एक्सेल का उपयोग पहले कर चुके हैं। एक्सेल के बिना SSAS का उपयोग करने का तरीका विज़ुअल स्टूडियो के एक विशेष संस्करण के माध्यम से है और यह सबसे उपयोगकर्ता के अनुकूल उपकरण नहीं है। जब आप इसे कुछ अन्य एक्सेल टूल जैसे पावर क्वेरी और पावर पिवेट के साथ जोड़ते हैं, तो आप डेटा के कुछ काफी परिष्कृत विश्लेषण करने में सक्षम होते हैं।

पूर्ण प्रकटीकरण, मैं शायद इसे फिर से उपयोग नहीं करने जा रहा हूं जब मैं अगले साल पाठ्यक्रम का नया संस्करण सिखाता हूं (हम इसे दो पाठ्यक्रमों में विभाजित कर रहे हैं ताकि कोई व्यक्ति डेटा विश्लेषण पर अधिक ध्यान केंद्रित कर सके)। लेकिन यह सिर्फ इसलिए है कि विश्वविद्यालय को एलर्टेक्स के लिए पर्याप्त लाइसेंस प्राप्त करने में सक्षम था जो कि उपयोग करने में आसान है और अधिक शक्तिशाली है लेकिन $ 4-85k / उपयोगकर्ता / वर्ष है यदि आप इसे किसी भी तरह से मुक्त नहीं कर सकते हैं। एक्सेल के बारे में आप क्या कहेंगे, लेकिन यह उस मूल्य बिंदु को धड़कता है।


0

एक्सेल एक उत्कृष्ट उपकरण हो सकता है। निश्चित रूप से, आप जो करते हैं, उसके आधार पर, यह बिल फिट नहीं हो सकता है लेकिन यदि ऐसा होता है, तो इसे खारिज करना लगभग मूर्खतापूर्ण होगा। हालाँकि, अपनी पाइपलाइन को सेट करने में आपको कुछ समय लगता है, एक्सेल में आप ज़मीन को बहुत ज्यादा मार सकते हैं: बिल्ट इन यूआई, VBA के माध्यम से आसान विस्तार भी पायथन (जैसे https://www.xlwings.org )। संस्करण नियंत्रण जैसे सामान की बात हो तो यह आदर्श नहीं हो सकता है, लेकिन इसे Git (जैसे https://www.xltrail.com/blog/auto-export-vba-commit-hook ) के साथ काम करने के तरीके हैं ।


-2

यह व्यक्ति 'बिग डेटा' के साथ काम करता है और मुख्य रूप से एक्सेल का उपयोग करता है? गंभीरता से?!?! एक्सेल केवल एक एकल स्प्रेडशीट में डेटा की 1, 048, 576 पंक्तियों को संभालता है। इससे परे डेटा सेट के लिए इसे एक प्लगइन की आवश्यकता होती है। एक्सेल में पिवट टेबल के विश्लेषण पर गंभीर प्रतिबंध हैं जो उनका उपयोग करके किया जा सकता है।

जिस नौकरी के लिए आप भर्ती कर रहे हैं उसमें किस प्रकार के डेटा एनालिटिक्स कार्यों को करने की आवश्यकता होगी?

मेरा सुझाव है कि आप साक्षात्कार का आयोजन करें जिसमें उन कार्यों के प्रकार के परीक्षण शामिल हैं जिन्हें विचार के तहत नौकरी में करना होगा। गोपनीयता, गोपनीयता या डेटा सुरक्षा का उल्लंघन किए बिना, साक्षात्कार के भाग के रूप में सेट किए गए प्रोग्रामिंग या डेटा विश्लेषण कार्य में पोस्ट के लिए प्रासंगिक डेटासेट का एक (छद्म नाम) सबसेट होना चाहिए। अन्यथा आप किसी ऐसे व्यक्ति की भर्ती कर सकते हैं जो बातचीत-आधारित साक्षात्कार में मुखर है, लेकिन वास्तविक नौकरी करने में वास्तव में सक्षम नहीं है।


किसी ने भी 'बड़ा डेटा' नहीं कहा। उन्होंने कहा 'डेटा साइंटिस्ट'। सभी डेटा 'बड़ा डेटा' नहीं है। मैंने अनुभवी डेटा वैज्ञानिकों के साथ काम किया है जिन्होंने एक परियोजना पर सभी आर, पायथन, एसक्यूएल और एक्सेल का उपयोग किया है। सभी डेटा विश्लेषण प्रोग्रामेटिक या स्क्रिप्टेड नहीं हैं। जैसा कि कहीं और कहा गया है, अस्पष्ट नौकरी युक्ति => विभिन्न प्रकार के डेटा वैज्ञानिक।
मुस्कान
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.