डेटा वैज्ञानिक क्या है?


181

हाल ही में अपने पीएचडी कार्यक्रम से सांख्यिकी में स्नातक होने के बाद, मैंने पिछले कुछ महीनों से आँकड़ों के क्षेत्र में काम की तलाश शुरू कर दी थी। लगभग हर कंपनी ने मुझे " डेटा साइंटिस्ट " की नौकरी के शीर्षक के साथ एक नौकरी पोस्टिंग माना था । वास्तव में, ऐसा लगा कि लंबे समय से सांख्यिकीय वैज्ञानिक या सांख्यिकीविद् की नौकरी के शीर्षक देखने के दिन थे । एक डेटा वैज्ञानिक होने के नाते वास्तव में प्रतिस्थापित किया गया था कि एक सांख्यिकीविद् होने के नाते या क्या शीर्षक मैं आश्चर्यचकित था?

खैर, नौकरियों के लिए अधिकांश योग्यताएं उन चीजों की तरह महसूस की गईं जो सांख्यिकीविद् के शीर्षक के तहत योग्य होंगी। अधिकांश नौकरियों के आंकड़ों ( ) में पीएचडी चाहते थे , सबसे आवश्यक समझ प्रयोगात्मक डिजाइन ( ), रैखिक प्रतिगमन और anova ( ), सामान्यीकृत रैखिक मॉडल ( ), और पीसीए ( ) जैसे अन्य बहुभिन्नरूपी तरीकों , साथ ही सांख्यिकीय कंप्यूटिंग वातावरण जैसे आर या एसएएस ( ) में ज्ञान । डेटा साइंटिस्ट की तरह लगता है कि वास्तव में सिर्फ सांख्यिकीविद् के लिए एक कोड नाम है।

हालांकि, हर साक्षात्कार मैं इस सवाल के साथ शुरू हुआ: "तो क्या आप मशीन लर्निंग एल्गोरिदम से परिचित हैं?" अधिक बार नहीं, मैंने खुद को बड़े डेटा, उच्च प्रदर्शन कंप्यूटिंग, और तंत्रिका नेटवर्क, CART, समर्थन वेक्टर मशीनों, पेड़ों को बढ़ावा देने, असुरक्षित मॉडल, आदि के बारे में सवालों के जवाब देने की कोशिश करते हुए पाया, यकीन है कि मैंने खुद को आश्वस्त किया कि ये सभी थे दिल में सांख्यिकीय सवाल, लेकिन हर साक्षात्कार के अंत में मैं मदद नहीं कर सकता, लेकिन यह महसूस करना छोड़ देता हूं कि मुझे कम और कम पता था कि डेटा वैज्ञानिक क्या है।

मैं एक सांख्यिकीविद् हूं, लेकिन क्या मैं एक डेटा वैज्ञानिक हूं? मैं वैज्ञानिक समस्याओं पर काम करता हूं इसलिए मुझे वैज्ञानिक होना चाहिए! और मैं भी डेटा के साथ काम करता हूं, इसलिए मुझे डेटा वैज्ञानिक होना चाहिए! और विकिपीडिया के अनुसार, अधिकांश शिक्षाविद मुझसे सहमत होंगे ( https://en.wikipedia.org/wiki/Data_science , आदि)

यद्यपि "डेटा विज्ञान" शब्द का उपयोग व्यावसायिक वातावरण में विस्फोट हुआ है, कई शिक्षाविदों और पत्रकारों को डेटा विज्ञान और आंकड़ों के बीच कोई अंतर नहीं दिखाई देता है।

लेकिन अगर मैं एक डेटा वैज्ञानिक पद के लिए इन सभी नौकरी के साक्षात्कार पर जा रहा हूं, तो ऐसा क्यों लगता है कि वे मुझसे कभी सांख्यिकीय सवाल नहीं पूछ रहे हैं?

खैर मेरे अंतिम साक्षात्कार के बाद मैं चाहता था कि कोई भी अच्छा वैज्ञानिक करेगा और मैंने इस समस्या को हल करने के लिए डेटा मांगा (हे, मैं एक डेटा वैज्ञानिक हूं)। हालाँकि, बाद में कई अनगिनत Google खोजों के बाद, मैं वहीं समाप्त हो गया, जहाँ मुझे लगने लगा था कि मैं एक बार फिर से एक डेटा वैज्ञानिक की परिभाषा से जूझ रहा हूँ। मुझे नहीं पता था कि एक डेटा वैज्ञानिक वास्तव में क्या था क्योंकि इसकी बहुत सारी परिभाषाएँ थीं, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) लेकिन ऐसा लग रहा था कि हर कोई मुझे बता रहा है कि मैं एक बनना चाहता था:

खैर दिन के अंत में, मुझे पता चला कि "क्या एक डेटा वैज्ञानिक है" जवाब देने के लिए एक बहुत ही कठिन सवाल है। हेक, अम्स्टैट में पूरे दो महीने थे जहाँ उन्होंने इस प्रश्न का उत्तर देने के लिए समय समर्पित किया:

खैर अभी के लिए, मुझे डेटा साइंटिस्ट बनने के लिए एक सेक्सी सांख्यिकीविद् बनना होगा, लेकिन उम्मीद है कि क्रॉस वेरिफाइड कम्युनिटी कुछ प्रकाश डालने में सक्षम हो सकती है और मुझे यह समझने में मदद कर सकती है कि डेटा वैज्ञानिक होने का क्या मतलब है। क्या सभी सांख्यिकीविद् डेटा वैज्ञानिक नहीं हैं?


(संपादित करें / अपडेट)

मैंने सोचा कि यह बातचीत को मसाला दे सकता है। मुझे सिर्फ एक डेटा साइंटिस्ट की तलाश में माइक्रोसॉफ्ट के साथ काम करने के बारे में अमेरिकी सांख्यिकीय एसोसिएशन से एक ईमेल मिला। यहाँ लिंक है: डेटा वैज्ञानिक स्थिति । मुझे लगता है कि यह दिलचस्प है क्योंकि स्थिति की भूमिका बहुत सारे विशिष्ट लक्षणों पर हिट होती है, जिनके बारे में हम बात कर रहे हैं, लेकिन मुझे लगता है कि उनमें से बहुत से आंकड़ों में बहुत कठोर पृष्ठभूमि की आवश्यकता होती है, साथ ही साथ नीचे पोस्ट किए गए कई उत्तरों का खंडन भी किया जाता है। यदि लिंक मृत हो जाता है, तो Microsoft द्वारा डेटा वैज्ञानिक में दिए गए गुण हैं:

मुख्य नौकरी की आवश्यकताएं और कौशल:

Analytics का उपयोग करके व्यावसायिक डोमेन अनुभव

  • जटिल व्यावसायिक समस्याओं और बड़े पैमाने पर वास्तविक-विश्व व्यापार डेटा सेटों में उन्नत एनालिटिक्स का उपयोग करके उनके समाधानों की अवधारणा करने के लिए महत्वपूर्ण सोच कौशल के उपयोग में कई प्रासंगिक व्यावसायिक डोमेन का अनुभव होना चाहिए।
  • उम्मीदवार को विश्लेषणात्मक परियोजनाओं को स्वतंत्र रूप से चलाने में सक्षम होना चाहिए और हमारे आंतरिक ग्राहकों को निष्कर्षों को समझने में मदद करनी चाहिए और उन्हें अपने व्यवसाय को लाभ पहुंचाने के लिए कार्रवाई में अनुवाद करना चाहिए।

भविष्य कहनेवाला मॉडलिंग

  • भविष्य कहनेवाला मॉडलिंग में उद्योगों में अनुभव
  • व्यावसायिक समस्या परिभाषा और वैचारिक मॉडलिंग ग्राहक के साथ महत्वपूर्ण रिश्तों को जोड़ने और सिस्टम दायरे को परिभाषित करने के लिए

सांख्यिकी / अर्थमिति

  • निरंतर और श्रेणीबद्ध डेटा के लिए खोजपूर्ण डेटा विश्लेषण
  • उद्यम और उपभोक्ता व्यवहार, उत्पादन लागत, कारक की मांग, असतत पसंद, और अन्य प्रौद्योगिकी संबंधों के लिए संरचनात्मक मॉडल समीकरणों की विशिष्टता और अनुमान
  • निरंतर और श्रेणीबद्ध डेटा का विश्लेषण करने के लिए उन्नत सांख्यिकीय तकनीक
  • पूर्वानुमान मॉडल का समय श्रृंखला विश्लेषण और कार्यान्वयन
  • कई चर समस्याओं के साथ काम करने में ज्ञान और अनुभव
  • मॉडल की शुद्धता का आकलन करने और नैदानिक ​​परीक्षणों का संचालन करने की क्षमता
  • सांख्यिकी या आर्थिक मॉडल की व्याख्या करने की क्षमता
  • असतत घटना सिमुलेशन, और गतिशील सिमुलेशन मॉडल के निर्माण में ज्ञान और अनुभव

डाटा प्रबंधन

  • डेटा परिवर्तन के लिए टी-एसक्यूएल और एनालिटिक्स के उपयोग के साथ परिचित और बहुत बड़े वास्तविक दुनिया के सेट के लिए खोज डेटा विश्लेषण तकनीकों के अनुप्रयोग
  • डेटा अतिरेक, डेटा सटीकता, असामान्य या चरम मान, डेटा इंटरैक्शन और लापता मान सहित डेटा अखंडता पर ध्यान दें।

संचार और सहयोग कौशल

  • स्वतंत्र रूप से काम करें और एक आभासी परियोजना टीम के साथ काम करने में सक्षम हों जो चुनौतीपूर्ण व्यावसायिक समस्याओं के लिए अभिनव समाधानों का शोध करेंगे
  • भागीदारों के साथ सहयोग करें, महत्वपूर्ण सोच कौशल लागू करें, और विश्लेषणात्मक परियोजनाओं को एंड-टू-एंड ड्राइव करें
  • बेहतर संचार कौशल, मौखिक और लिखित दोनों
  • हितधारकों के विविध सेट द्वारा उपभोग्य रूप में विश्लेषणात्मक परिणामों का दृश्य

सॉफ्टवेयर का संकुल

  • उन्नत सांख्यिकीय / अर्थमितीय सॉफ्टवेयर पैकेज: पायथन, आर, जेएमपी, एसएएस, ईव्यू, एसएएस एंटरप्राइज माइनर
  • डेटा अन्वेषण, विज़ुअलाइज़ेशन और प्रबंधन: टी-एसक्यूएल, एक्सेल, पावरबीआई और समकक्ष उपकरण

योग्यता:

  • संबंधित अनुभव के न्यूनतम 5+ वर्ष आवश्यक
  • मात्रात्मक क्षेत्र में स्नातकोत्तर डिग्री वांछनीय है।

6
अच्छा प्रश्न! मैं इस बारे में बहुत हाल ही में सोच रहा था। मेरी नजर में ऐसा लगता है कि नौकरियों में विवरण में डेटा वैज्ञानिक शामिल हैं, ऐसे लोगों की तलाश कर रहे हैं जो सांख्यिकीय / एमएल तरीकों को लागू कर सकते हैं जो कि बड़े पैमाने पर हैं, जरूरी नहीं कि लोग जो सिद्धांत से निपट सकते हैं। मुझे अभी भी लगता है कि इन नौकरी विवरणों में कुछ अतिरेक है। पीएचडी की आवश्यकता शायद अक्सर एक अयोग्यता है और एचआर लोग जो इन नौकरी विवरणों को बनाते हैं, वे बिग-डेटा के आसपास चर्चा से बहुत प्रभावित होते हैं। क्या एक डेटा वैज्ञानिक एक सांख्यिकीविद् है या इसके विपरीत, मुख्य प्रश्न है जिसका उत्तर मैं देखना चाहता हूं।
गोमो

4
मुझे लगता है कि यह एक उत्कृष्ट कागज है कि पतों की तरह बनाम एक डेटा वैज्ञानिक होने के नाते एक सांख्यिकीविद् जा रहा है की संस्कृतियों में इस बदलाव: projecteuclid.org/download/pdf_1/euclid.ss/1009213726
RustyStatistician

6
"लेकिन अगर मैं एक डेटा वैज्ञानिक पद के लिए इन सभी नौकरी के साक्षात्कार पर जा रहा हूं, तो ऐसा क्यों लगता है कि वे मुझसे कभी भी सांख्यिकीय सवाल नहीं पूछ रहे हैं" ... मेरे जीवन की कहानी ... सचमुच एलओएल !!! मुझे लगता है कि डेटा विज्ञान, सांख्यिकी, अर्थमिति, बायोस्टेट, .. आदि। बहुत ओवरलैप है लेकिन वे सभी अलग-अलग शब्दजाल का उपयोग करते हैं जो संचार को मुश्किल बना देता है (विशेषकर जब आपको एक एचआर व्यक्ति द्वारा साक्षात्कार किया जा रहा है जो जानकार नहीं है और प्रमुख शब्दों पर केंद्रित है)। आशा है कि अंतर-अनुशासनात्मक प्रयासों में वृद्धि हुई है और कुछ बहुत खुले विचारों की जरूरत है जो भविष्य में इसे बदल देगा।
ज़ाचरी ब्लुमेनफ़ेल्ड

9
मैंने "डेटा साइंटिस्ट के उदय" का अनुसरण किया है क्योंकि यह लगभग 2008 में मुख्यधारा बन गया है। मेरे लिए यह एक विपणन शब्द है जो एक प्रचार को बढ़ावा दे रहा है - अनुशासन के आँकड़े, मशीन सीखना, डेटा इंजीनियरिंग, डेटा विश्लेषण सभी। अलग जोर के साथ भी। Paraphrasing G. Box: यदि आपसे "क्या आप बायेसियन, अक्सरवादी, डेटा विश्लेषक, प्रयोगों के डिजाइनर, डेटा वैज्ञानिक?" जैसे प्रश्न पूछे जाते हैं? हाँ बोलो"।
मोमो

10
@Momo: फिर भी, यदि कोई "मशीन लर्निंग" (या समान) नामक 600 + पृष्ठों की पाठ्यपुस्तकों में से एक को खोलता है और "सांख्यिकी" (या समान) नामक एक पाठ्यपुस्तक में से बहुत कम ओवरलैप होगा। मेरे बिशप की पैटर्न मान्यता और मशीन लर्निंग या मर्फी की मशीन लर्निंग में लगभग शून्य चौराहा है जिसमें लेहमैन और कैसला थ्योरी ऑफ़ पॉइंट एस्टीमेशन , कैसैला और बर्जर स्टैटिस्टिक इंट्रेंस या मैक्सवेल और डेलानी डिज़ाइनिंग एक्सपेरिमेंट्स और एनालिसिसिंग डेटा हैं । वे इतने अलग हैं कि मुझे लगता है कि पुस्तकों के एक सेट से परिचित लोगों को दूसरे को पढ़ने में परेशानी हो सकती है।
अमीबा

जवाबों:


52

कुछ हास्य परिभाषाएँ हैं जो अभी तक नहीं दी गई हैं:

डेटा साइंटिस्ट: कोई है जो एक मैक पर आँकड़े करता है।

मुझे यह पसंद है, क्योंकि यह अधिक-प्रचार-पदार्थ के कोण पर अच्छी तरह से खेलता है।

डेटा साइंटिस्ट: एक सांख्यिकीविद् जो सैन फ्रांसिस्को में रहता है।

इसी तरह, यह इस सब के वेस्ट कोस्ट स्वाद पर निर्भर करता है।

व्यक्तिगत रूप से, मुझे चर्चा मिलती है (सामान्य तौर पर, और यहाँ) कुछ उबाऊ और दोहरावदार। जब मैं इस बारे में सोच रहा था कि मैं क्या चाहता था --- शायद एक चौथाई सदी या उससे पहले का --- मैंने मात्रात्मक विश्लेषक का लक्ष्य रखा। यह वही है जो मैं करता हूं (और प्यार करता हूं!) और यह ज्यादातर ओवरलैप करता है और कवर करता है जो यहां विभिन्न उत्तरों में दिया गया था।

(नोट: उद्धरण दो के लिए एक पुराना स्रोत है लेकिन मैं इसे अभी नहीं ढूँढ सकता।)


27
+1। I find the discussion (in general, and here) somewhat boring and repetitiveऔर व्यर्थ बात करते हैं ट्रिफ़ल्स या नए गूंजने वाले शब्द, मैं जोड़ूंगा। मैं अब भी डेटा वैज्ञानिकों, क्रिस्टियन वैज्ञानिकों और डेटा वैज्ञानिकों के बीच अंतर नहीं कर सकता।
ttnphns 10:15 पर

1
LOL @ डेटा वैज्ञानिक।
dsaxton

4
और मैं अपनी टोपी टिप करता हूं (बेशक अनाम की) बहुत गंभीर व्यक्ति जो अभी आया था, नीचे उतरा और एक कारण नहीं छोड़ा। सुझाव: कि कैसे चर्चा में सुधार नहीं है।
डिर्क एडल्डबुलेटेल

1
दक्षिण सैन फ्रांसिस्को में एक सांख्यिकीविद् होने के नाते जो बहुत सक्रिय रूप से डेटा साइंटिस्ट शीर्षक से लड़ रहा है, दूसरी परिभाषा घर के करीब भी हिट होती है (लेकिन मैं नीच नहीं था)।
क्लिफ एबी

1
(+1) @ क्लिफ़ब मैं वास्तव में दक्षिण सैन फ्रांसिस्को में भी एक सांख्यिकीविद् हूं।
रस्टीस्टैटिशियन

87

लोग डेटा साइंस को अलग तरह से परिभाषित करते हैं, लेकिन मुझे लगता है कि सामान्य हिस्सा है:

  • व्यावहारिक ज्ञान कैसे डेटा से निपटने के लिए,
  • व्यावहारिक प्रोग्रामिंग कौशल।

अपने नाम के विपरीत, यह शायद ही कभी "विज्ञान" है। यही है, डेटा विज्ञान में जोर व्यावहारिक परिणामों पर है (जैसे इंजीनियरिंग में), न कि सबूत, गणितीय शुद्धता या अकादमिक विज्ञान की कठोरता। चीजों को काम करने की जरूरत है, और यह बहुत कम अंतर है अगर यह एक अकादमिक पेपर पर आधारित है, एक मौजूदा पुस्तकालय का उपयोग, आपका अपना कोड या एक इंप्रोमेप्ट हैक।

सांख्यिकीविद एक प्रोग्रामर नहीं है (पेन एंड पेपर और एक समर्पित सॉफ्टवेयर का उपयोग कर सकते हैं)। इसके अलावा, डेटा साइंस में कुछ जॉब कॉल्स का आंकड़ों से कोई लेना-देना नहीं है। जैसे यह डेटा इंजीनियरिंग है जैसे कि बड़ा डेटा संसाधित करना, भले ही सबसे उन्नत गणित में औसत गणना हो सकती है (व्यक्तिगत रूप से मैं इस गतिविधि को "डेटा विज्ञान" नहीं कहूंगा, हालांकि)। इसके अलावा, "डेटा साइंस" सम्मोहित है, इसलिए स्पर्श संबंधी रूप से संबंधित नौकरियां इस शीर्षक का उपयोग करती हैं - आवेदकों को लुभाने के लिए या वर्तमान श्रमिकों के अहंकार को बढ़ाने के लिए।

मुझे Quora पर माइकल होचस्टर के जवाब से करबद्धता पसंद है :

टाइप ए डेटा साइंटिस्ट: ए विश्लेषण के लिए है। यह प्रकार मुख्य रूप से डेटा की समझ बनाने या इसके साथ काफी स्थिर तरीके से काम करने से संबंधित है। टाइप ए डेटा साइंटिस्ट एक सांख्यिकीविद् (और एक हो सकता है) के समान है, लेकिन डेटा पाठ्यक्रम में सिखाया नहीं जाने वाले डेटा के साथ काम करने के सभी व्यावहारिक विवरणों को जानता है: डेटा की सफाई, बहुत बड़े डेटा सेटों से निपटने के तरीके, विज़ुअलाइज़ेशन , एक विशेष डोमेन का गहरा ज्ञान, डेटा के बारे में अच्छी तरह से लिखना, और इसी तरह।

टाइप बी डेटा साइंटिस्ट: बी बिल्डिंग के लिए है। टाइप बी डेटा वैज्ञानिक टाइप ए के साथ कुछ सांख्यिकीय पृष्ठभूमि साझा करते हैं, लेकिन वे बहुत मजबूत कोडर भी हैं और प्रशिक्षित सॉफ्टवेयर इंजीनियर हो सकते हैं। टाइप बी डेटा साइंटिस्ट मुख्य रूप से "उत्पादन में" डेटा का उपयोग करने में रुचि रखते हैं। वे ऐसे मॉडल का निर्माण करते हैं जो उपयोगकर्ताओं के साथ बातचीत करते हैं, अक्सर सिफारिशों (उत्पादों, जिन लोगों को आप जानते हैं, विज्ञापन, फिल्में, खोज परिणाम) परोस सकते हैं।

उस अर्थ में, टाइप ए डेटा साइंटिस्ट एक सांख्यिकीविद् है जो प्रोग्राम कर सकता है। लेकिन, यहां तक ​​कि मात्रात्मक भाग के लिए, नियमित आंकड़ों की तुलना में कंप्यूटर विज्ञान (उदाहरण के लिए मशीन लर्निंग) में पृष्ठभूमि वाले लोग हो सकते हैं, या डेटा विज़ुअलाइज़ेशन पर ध्यान केंद्रित करने वाले लोग।

और डेटा साइंस वेन आरेख (यहां: हैकिंग ~ प्रोग्रामिंग):

डेटा विज्ञान वेन आरेख

वैकल्पिक वेन आरेख ( यह और वह ) भी देखें । या यहां तक ​​कि एक ट्वीट , जबकि हास्य, एक डेटा वैज्ञानिक की विशिष्ट कौशल और गतिविधियों की एक संतुलित सूची दिखा रहा है:

एक डेटा वैज्ञानिक को सक्षम होना चाहिए

इस पोस्ट को भी देखें: डेटा वैज्ञानिक - सांख्यिकीविद्, प्रोग्रामर, सलाहकार और विज़ुअलाइज़र?


14
मुझे ट्वीट पसंद है। मैं जोड़ना होगा वह भी जानते हैं कि चाहिए पिज्जा बेक करने के लिए कैसे खुद पारिस्थितिक सब्जियों बढ़ने, कविता और नृत्य साल्सा लिखने :)
टिम

3
लघु वक्रोक्ति: सभी "विज्ञान" में "प्रमाण या गणितीय शुद्धता" पर जोर नहीं है। सोचो जीव विज्ञान।
अमीबा

2
पी-मूल्य को हैक करने का क्या मतलब है? यह मुझे लगता है कि किसी व्यक्ति (उर्फ क्लाइंट) के पास एक निर्दिष्ट पी-मूल्य लक्ष्य है और डेटा वैज्ञानिक को डेटा को काटने और पासा करने के लिए माना जाता है ताकि पी-मूल्य लक्ष्य प्राप्त किया जा सके। या यह कुछ अलग मतलब है माना जाता है?
एमोरी

2
@amory यह ट्वीट हास्यप्रद है (यह en.wikiquote.org/wiki/Time_Enough_for_Love के एक पैराग्राफ का एक पैशाइश है , "एक इंसान को [सूची] में सक्षम होना चाहिए। विशेषज्ञता कीड़ों के लिए है।")। "हैक ए पी-वैल्यू" निश्चित रूप से एक अंधेरे अभ्यास (दुख की बात है, कुछ अकादमिक विषयों में प्रचलित है), और (मुझे उम्मीद है) यहां एक मजाक के रूप में है।
पायोत्र मिग्डल

4
किसी को डेटा साइंटिस्ट नहीं कहने के बारे में टिप्पणी के लिए +1 जो विशाल डेटासेट पर सरल "सांख्यिकी" की गणना करता है। मुझे लगता है कि हम डेटा साइंस के एक चरण से बाहर निकल रहे हैं, जहाँ कंप्यूटर वैज्ञानिक जो क्लस्टर कंप्यूटिंग (Hadoop, इत्यादि) में विशेषज्ञता प्राप्त कर रहे थे, उन्हें "डेटा वैज्ञानिक" करार दिया गया था। मैं उन कौशलों को नहीं देख रहा हूं, लेकिन वे लगभग उतने महत्वपूर्ण नहीं हैं जितने कि सांख्यिकीय / तर्क / जांच कौशल और प्रौद्योगिकी मानचित्र-कम करने से आगे बढ़ रहे हैं।
वेन

42

डेटा विज्ञान क्षेत्र के कई सर्वेक्षण हैं। मुझे यह पसंद है , क्योंकि यह उन लोगों के प्रोफाइल का विश्लेषण करने का प्रयास करता है जो वास्तव में डेटा विज्ञान की नौकरियों को पकड़ते हैं। वास्तविक सबूत या लेखक के पूर्वाग्रहों का उपयोग करने के बजाय, वे डेटा वैज्ञानिक तकनीकों का उपयोग डेटा वैज्ञानिक डीएनए का विश्लेषण करने के लिए करते हैं।

यह डेटा वैज्ञानिकों द्वारा सूचीबद्ध कौशल को देखने के लिए काफी खुलासा है। ध्यान दें शीर्ष 20 कौशल में बहुत सारे आईटी कौशल होते हैं।

आज की दुनिया में, एक डेटा वैज्ञानिक को सभी ट्रेडों का जैक होने की उम्मीद है; एक आत्म-शिक्षार्थी, जिसके पास एक ठोस मात्रात्मक नींव है, प्रोग्रामिंग के लिए एक योग्यता, अनंत बौद्धिक जिज्ञासा और महान संचार कौशल है।

यहां छवि विवरण दर्ज करें

अपडेट करें:

मैं एक सांख्यिकीविद् हूं, लेकिन क्या मैं एक डेटा वैज्ञानिक हूं? मैं वैज्ञानिक समस्याओं पर काम करता हूं इसलिए मुझे वैज्ञानिक होना चाहिए!

यदि आप पीएचडी करते हैं, तो आप सबसे अधिक संभावना पहले से ही एक वैज्ञानिक हैं, खासकर, यदि आपने प्रकाशित पत्र और सक्रिय शोध किया है। हालांकि आपको डेटा साइंटिस्ट होने के लिए वैज्ञानिक होने की जरूरत नहीं है। कुछ फर्मों में कुछ भूमिकाएं हैं, जैसे वॉलमार्ट (नीचे देखें), जहां पीएचडी की आवश्यकता होती है, लेकिन आमतौर पर डेटा वैज्ञानिकों के पास बीएस और एमएस डिग्री होती है जैसा कि आप नीचे दिए गए उदाहरणों से देख सकते हैं।

जैसा कि आप ऊपर दिए गए चार्ट से समझ सकते हैं, सबसे अधिक संभावना है, आपको अच्छी प्रोग्रामिंग और डेटा हैंडलिंग कौशल की आवश्यकता होगी। इसके अलावा, अक्सर डेटा विज्ञान कुछ स्तरों से जुड़ा होता है, अक्सर "गहन", मशीन सीखने में विशेषज्ञता का। यदि आप सांख्यिकी में पीएचडी करते हैं, तो आप निश्चित रूप से खुद को डेटा वैज्ञानिक कह सकते हैं। हालांकि, शीर्ष विद्यालयों के कंप्यूटर विज्ञान में पीएचडी सांख्यिकी स्नातकों की तुलना में अधिक प्रतिस्पर्धी हो सकती है, क्योंकि उनके पास काफी मजबूत अनुप्रयुक्त सांख्यिकी ज्ञान हो सकता है जो कि मजबूत प्रोग्रामिंग कौशल द्वारा पूरक है - नियोक्ताओं द्वारा संयोजन के बाद की मांग है। उन्हें मुकाबला करने के लिए आपको मजबूत प्रोग्रामिंग कौशल प्राप्त करना होगा, इसलिए संतुलन में आप बहुत प्रतिस्पर्धी होंगे। क्या दिलचस्प है कि आमतौर पर सभी स्टेट पीएचडी में कुछ प्रोग्रामिंग अनुभव होगा, लेकिन डेटा साइंस में अक्सर आवश्यकता इससे बहुत अधिक होती है,

मेरे लिए आँकड़ों में पीएचडी होने का लाभ बाकी के वाक्यांश "सभी ट्रेडों का एक जैक" पर कब्जा कर लिया गया समस्या में है जो आमतौर पर गिरा दिया जाता है: "कोई नहीं का एक मास्टर"। ऐसे लोगों के लिए अच्छा है जो थोड़ा-बहुत सब कुछ जानते हैं, लेकिन मैं हमेशा ऐसे लोगों की तलाश में रहता हूं, जो कुछ और भी गहराई से जानते हों, चाहे वह आंकड़े हों या कंप्यूटर विज्ञान इतना महत्वपूर्ण नहीं है। क्या मायने रखता है कि आदमी नीचे तक पहुंचने में सक्षम है, जब आपको इसकी आवश्यकता होती है तो यह एक आसान गुणवत्ता है।

सर्वेक्षण में डेटा वैज्ञानिकों के शीर्ष नियोक्ताओं को भी सूचीबद्ध किया गया है। Microsoft शीर्ष पर है, जाहिरा तौर पर, जो मेरे लिए आश्चर्यजनक था। यदि आप एक बेहतर विचार प्राप्त करना चाहते हैं कि वे क्या देख रहे हैं, तो जॉब्स अनुभाग में "डेटा साइंस" के साथ लिंकेइन को खोजना उपयोगी है। नीचे एक बिंदु बनाने के लिए लिंक्डइन में एमएस और वॉलमार्ट की नौकरियों के दो अंश हैं।

  • Microsoft डेटा वैज्ञानिक

    • डेटा प्रोसेसिंग सिस्टम / सेवाओं के निर्माण में 5 साल का सॉफ्टवेयर डेवलपमेंट का अनुभव
    • सांख्यिकी, डेटा खनन या मशीन लर्निंग में विशेषज्ञता के साथ कंप्यूटर विज्ञान, ईई या गणित में स्नातक या उच्च योग्यता।
    • उत्कृष्ट प्रोग्रामिंग कौशल (C #, जावा, पायथन, आदि) बड़े पैमाने पर डेटा में हेरफेर
    • Hadoop या अन्य बिग डाटा प्रोसेसिंग तकनीक का कार्यसाधक ज्ञान
    • एनालिटिक्स उत्पादों (जैसे R, SQL AS, SAS, Mahout, आदि) का ज्ञान एक प्लस है।

ध्यान दें, स्टेट पैकेज जानना कैसे एक प्लस है, लेकिन जावा में उत्कृष्ट प्रोग्रामिंग कौशल एक आवश्यकता है।

  • वॉलमार्ट, डेटा साइंटिस्ट

    • कंप्यूटर विज्ञान या इसी तरह के क्षेत्र में पीएचडी या संबंधित अनुभव के कम से कम 2-5 वर्षों के साथ एमएस
    • C ++ या Java में अच्छा फंक्शनल कोडिंग स्किल (जावा को अत्यधिक पसंद किया जाता है)
    • C ++ / Java / Hadoop / Hive में उत्पादन कोड लिखने में 10% दैनिक कार्य दिवस तक खर्च करने में सक्षम होना चाहिए
    • पाइथन या पर्ल जैसी पटकथा भाषाओं में से एक का विशेषज्ञ स्तर का ज्ञान।
    • बड़े डेटा सेट और वितरित कंप्यूटिंग टूल के साथ काम करने का अनुभव एक प्लस (नक्शा / कम करें, Hadoop, Hive, Spark आदि)

यहां, पीएचडी को प्राथमिकता दी जाती है, लेकिन केवल कंप्यूटर साइंस मेजर नाम दिया गया है। Hadoop या Spark के साथ वितरित कंप्यूटिंग संभवतः एक सांख्यिकीविद् के लिए एक असामान्य कौशल है, लेकिन कुछ सैद्धांतिक भौतिक विज्ञानी और लागू गणितज्ञ समान उपकरणों का उपयोग करते हैं।

अद्यतन 2:

"डेटा साइंटिस्ट" टाइटल को मारने का समय पहले से ही है, थॉमस डेवनपोर्ट कहते हैं, जिन्होंने 2012 में हार्वर्ड बिजनेस रिव्यू में लेख लिखा था, जिसका शीर्षक था "डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ द 21 सेंचुरी" उस तरह का डेटािस्ट क्रेज शुरू किया:

आपके कहने का आज क्या मतलब है- या "बनना चाहते हैं, या" डाटा साइंटिस्ट बनना चाहते हैं? '' दुर्भाग्य से बहुत कुछ नहीं।


3
डेटा का उपयोग करने और एक अच्छी डेटा-संचालित रिपोर्ट से लिंक करने के लिए +1। लेकिन क्या स्क्रीनशॉट को वेब ब्राउज़र इंटरफ़ेस की आवश्यकता है?
पायोत्र मिग्डल

@PiotrMigdal, मैं फसल या आलसी जा रहा है को रोकने के लिए सीखना चाहिए
Aksakal

4
मैंने आपके लिए इसे क्रॉप किया।
अमीबा

1
मुझे आज के अपडेट के बाद डाउनवोट करने का प्रलोभन दिया जा रहा है: यह धागा पहले से ही बहुत व्यस्त है और नीचे स्क्रॉल करने के लिए प्रशंसा की विशाल दीवार होना मेरी राय में बहुत उपयोगी नहीं है ... शायद लिंक + संक्षिप्त सारांश पर्याप्त हो सकता है?
अमीबा

1
@amoeba, मैंने सूची को नीचे कर दिया। यह एक उचित टिप्पणी है
अक्षल

39

कहीं मैंने इसे पढ़ा है (EDIT: जोश विल अपने ट्वीट को समझाते हुए ):

डेटा वैज्ञानिक एक ऐसा व्यक्ति है जो किसी भी प्रोग्रामर की तुलना में सांख्यिकी में बेहतर है और किसी भी सांख्यिकीविद् की तुलना में प्रोग्रामिंग में बेहतर है।

इस उद्धरण को इस डेटा विज्ञान प्रक्रिया द्वारा शीघ्र ही समझाया जा सकता है । इस योजना पर पहली नज़र "अच्छी तरह से, प्रोग्रामिंग भाग कहाँ है?" जैसा दिखता है, लेकिन यदि आपके पास टन डेटा है तो आपको उन्हें संसाधित करने में सक्षम होना चाहिए।


11
तो शायद हर R योगदानकर्ता जो एक सांख्यिकीविद् है वह एक डेटा वैज्ञानिक है? ;)
टिम

15
वाह, मैं सिर्फ इस प्रश्न के बारे में सोच रहा था (यह देखते हुए कि डेटासाइंस है ) साइट पर टहल रहा था, और फिर पासिंग लर्न में कि मेरे पास एक फ्रिगिन 'विकिपीडिया पृष्ठ है ? यह मेरे लिए समाचार था ... और इसके लिए मैं इकोनोमेट्रिक्स में प्रशिक्षित होने के लायक हूं, आंकड़ों के लिए नहीं, बल्कि 20+ वर्षों तक 'क्वांट' के रूप में काम किया है। यह प्रभावी रूप से डेटा विज्ञान के समान ही है ...
डिर्क एडल्डबुलेटेल

3
-1। मैं यह नहीं बताता क्योंकि मुझे यह पसंद नहीं है (यह वैसे भी गाल में सबसे अधिक जीभ थी), लेकिन क्योंकि उत्तर बहुत संक्षिप्त और असंतोषजनक है, विशेष रूप से यहां कई अन्य उत्तरों की तुलना में। मेरा सुझाव है कि इसे एक टिप्पणी में बदल दिया जाए, जब तक कि शायद आप किसी तरह इसका विस्तार न करें।
अमीबा

3
यहाँ है उसके लेखक जोश विल्स द्वारा इस उद्धरण का एक विवरण । उद्धरण के बाद पहले तीन पैराग्राफ इस चर्चा के लिए काफी प्रासंगिक हैं।
अमीबा

3
@amoeba: मैं जोश विल्स के लेख को इस बिंदु तक पसंद करता हूं: "मुझे संदेह है कि हम लोगों को एक तरह से उन्नत आंकड़े सिखाते हैं, जो कंप्यूटर वैज्ञानिकों को पैरामीट्रिक मॉडल पर ध्यान केंद्रित करने से रोकते हैं जो गैर-पैरामील मॉडल के बजाय बहुत अधिक पथरी की आवश्यकता होती है यह मुख्य रूप से कम्प्यूटेशनल हैं ”। इसके अलावा, मैं उससे असहमत हूं कि सीएस लोगों को स्टैटिस्टिशियनों के लिए अच्छी तरह से प्रोग्राम करने के लिए उन्नत आंकड़े सिखाना आसान है (हालांकि मैं निश्चित रूप से सहमत हूं कि अधिकांश सांख्यिकीविद् भयानक प्रोग्रामर हैं)।
क्लिफ एबी

15

मैंने कई उत्तर लिखे हैं और हर बार वे लंबे होते गए और मैंने अंततः निर्णय लिया कि मैं एक साबुनबॉक्स पर उठ रहा हूं। लेकिन मुझे लगता है कि इस बातचीत ने दो महत्वपूर्ण कारकों का पूरी तरह से पता नहीं लगाया है:

  1. विज्ञान डाटा विज्ञान में। एक वैज्ञानिक दृष्टिकोण वह है जिसमें आप अपने स्वयं के मॉडल, सिद्धांतों, सुविधाओं, तकनीकों के विकल्प आदि को नष्ट करने की कोशिश करते हैं, और केवल जब आप ऐसा नहीं कर सकते हैं तो आप स्वीकार करते हैं कि आपके परिणाम उपयोगी हो सकते हैं। यह एक मानसिकता है और मेरे द्वारा मिले कई सर्वश्रेष्ठ डेटा वैज्ञानिकों के पास कठिन विज्ञान पृष्ठभूमि (रसायन विज्ञान, जीव विज्ञान, इंजीनियरिंग) है।

  2. डेटा साइंस एक व्यापक क्षेत्र है। एक अच्छा डेटा विज्ञान परिणाम में आमतौर पर डेटा वैज्ञानिकों की एक छोटी टीम शामिल होती है, प्रत्येक की अपनी विशेषता होती है। उदाहरण के लिए, एक टीम का सदस्य अधिक कठोर और सांख्यिकीय है, एक इंजीनियरिंग पृष्ठभूमि के साथ एक बेहतर प्रोग्रामर है, और दूसरा व्यवसाय प्रेमी के साथ एक मजबूत सलाहकार है। तीनों को विषय वस्तु सीखने की जल्दी है, और तीनों जिज्ञासु हैं और सत्य को खोजना चाहते हैं - हालांकि दर्दनाक - और यह करने के लिए कि ग्राहक (आंतरिक या बाहरी) ग्राहक के सर्वोत्तम हित में क्या है, भले ही ग्राहक न करे ' t समझ।

पिछले कुछ वर्षों में सनक - अब लुप्त होती है, मुझे लगता है - कंप्यूटर वैज्ञानिकों को भर्ती करना है, जिन्हें क्लस्टर प्रौद्योगिकियों (हडोप इकोसिस्टम, आदि) में महारत हासिल है और कहते हैं कि आदर्श डेटा वैज्ञानिक हैं। मुझे लगता है कि ओपी ने जो सामना किया है, और मैं ओपी को उनकी ताकत को कठोरता, शुद्धता और वैज्ञानिक सोच में धकेलने की सलाह दूंगा।


@RustyStatistician: आपका स्वागत है। मैं जोड़ता हूं कि मैं जिस कंसल्टेंसी के लिए काम करता हूं, उसमें पीएचडी (इंजीनियरिंग, बायोलॉजी, एस्ट्रोनॉमी, कंप्यूटर साइंस) है, लेकिन आम तौर पर एमएस डिग्री में - अक्सर काम के अनुभव वाले लोग जो एनालिटिक्स में एमएस के लिए वापस जाते हैं - मीठे स्थान के रूप में । उस ने कहा, मैं अपनी जीव विज्ञान पीएचडी सहकर्मी के लिए हर दिन आभारी हूं जो वर्तमान में एक परियोजना पर हूं जहां मैं टेक लीड हूं। प्रोजेक्ट लीड के साथ-साथ एक अर्थशास्त्र पृष्ठभूमि (और विश्लेषिकी में एक एमएस), हम एक महान टीम हैं! (मेरा एमएस आर्टिफिशियल इंटेलिजेंस में है।)
वेन

+1, लेकिन मैं कह रही है कि [अच्छा] डेटा विज्ञान अपने पहले बुलेट बिंदु के बारे में सोच रहा हूँ है एक विज्ञान। यदि हां, तो यह एक जिज्ञासु और शायद भ्रामक (?) शब्द है क्योंकि "डेटा साइंस" अपने आप में "डेटा" का अध्ययन नहीं कर रहा है; यह कुछ और का अध्ययन करने के लिए डेटा का उपयोग कर रहा है, जो किसी दिए गए आवेदन में रुचि रखता है। इसके विपरीत, उदाहरण के लिए "राजनीति विज्ञान" राजनीति का अध्ययन करने वाला है और "तंत्रिका विज्ञान" न्यूरॉन्स का अध्ययन कर रहा है, जैसा कि नाम से पता चलता है।
अमीबा

1
@amoeba: वास्तव में, मेरा मतलब था कि एक डेटा साइंटिस्ट को वैज्ञानिक पद्धति अला रिचर्ड फेनमैन का उपयोग करना चाहिए क्योंकि वे डेटा को कैसे समझते हैं और इसका उपयोग करते हैं। (जैसा कि आप कहते हैं, किसी विशेष एप्लिकेशन की खोज में।) यह नौकरी का सांख्यिकीय हिस्सा है: "यह चर अत्यधिक महत्वपूर्ण लगता है - क्या यह भविष्य से रिसाव है?" या "यह मॉडल उचित प्रतीत होता है, लेकिन चलो संपूर्ण मॉडल बनाने की प्रक्रिया पर CV चलाते हैं, और फिर उसके ऊपर कुछ रेज़मैपलिंग करते हैं।" यह आपके मॉडल / सिद्धांत को नापसंद करने और दूसरों को ऐसा करने में शामिल करने के लिए कड़ी मेहनत कर रहा है। "ग्रीन एम एंड एमएस कैंसर का कारण नहीं है"।
वेन

@Wayne एकमात्र ऐसा वैज्ञानिक है जो अब तक "वैज्ञानिक पद्धति" का उल्लेख करता है। यह बहुत दुखद है।
jgomo3

भौतिकी की समझ, विशेष रूप से इकाइयों, किसी भी चीज़ को समझने की कोशिश करने वाले किसी भी व्यक्ति के लिए आवश्यक है। हालाँकि, हमारे इस बहादुर नए संसार में, यह अक्सर ऐसा करने के लिए पर्याप्त होता है कि वह उपचारात्मक टिप्पणियों को "gob-stoppers" के रूप में उप-इष्टतम भविष्य कहनेवाला मान दे, लेकिन वास्तविक समाधान नहीं हैं।
कार्ल

14

मुझे लगता है कि बिटवाइज़ मेरे अधिकांश उत्तर को कवर करता है, लेकिन मैं अपना 2 सी जोड़ने वाला हूं।

नहीं, मुझे खेद है लेकिन एक सांख्यिकीविद् एक डेटा वैज्ञानिक नहीं है, कम से कम इस आधार पर कि अधिकांश कंपनियां आज कैसे भूमिका को परिभाषित करती हैं। ध्यान दें कि समय के साथ परिभाषा बदल गई है, और चिकित्सकों की एक चुनौती यह सुनिश्चित करना है कि वे प्रासंगिक बने रहें।

मैं कुछ सामान्य कारणों को साझा करूंगा कि हम "डेटा साइंटिस्ट" भूमिकाओं के लिए उम्मीदवारों को क्यों अस्वीकार करते हैं:

  • नौकरी के दायरे को लेकर उम्मीदें । आमतौर पर डीएस को स्वतंत्र रूप से काम करने में सक्षम होने की आवश्यकता होती है। इसका मतलब है कि उसके लिए कोई अन्य व्यक्ति नहीं था जो उसके द्वारा दी गई समस्या को हल करने के लिए डेटासेट बना सके। इसलिए, उसे डेटा स्रोतों को खोजने में सक्षम होने की जरूरत है, उन्हें क्वेरी करें, समाधान हल करें और फिर, अक्सर, एक प्रोटोटाइप भी बनाएं जो समस्या को हल करता है। कई बार जो केवल डैशबोर्ड, अलार्म या लाइव रिपोर्ट का निर्माण होता है जो लगातार अपडेट होता रहता है।
  • संचार । ऐसा लगता है, कि कई सांख्यिकीविदों के पास अपने विचारों को व्यवसायिक लोगों के लिए "सरल" और "बेचने" का कठिन समय है। क्या आप सिर्फ एक ग्राफ दिखा सकते हैं और डेटा से एक कहानी बता सकते हैं कि कमरे में हर कोई इसे प्राप्त कर सकता है? ध्यान दें, यह आपके सुरक्षित होने के बाद है कि आप चुनौती देने पर विश्लेषण के हर बिट का बचाव कर सकते हैं।
  • कोडिंग कौशल । हमें उत्पादन स्तर कोडिंग कौशल की आवश्यकता नहीं है, क्योंकि हमारे पास इसके लिए डेवलपर्स हैं, हालांकि, हमें उसकी जरूरत है कि वह एक प्रोटोटाइप लिखने में सक्षम हो और इसे एक एडब्ल्यूएस ईसी 2 उदाहरण में एक वेब सेवा के रूप में तैनात किया जाए। तो, कोडिंग कौशल का मतलब आर स्क्रिप्ट लिखने की क्षमता नहीं है। मैं लिनक्स में प्रवाह को कहीं और जोड़ सकता हूं। इसलिए, बार केवल उच्च स्तर के हैं जो अधिकांश सांख्यिकीविदों का मानना ​​है।
  • SQL और डेटाबेस । नहीं, वह काम पर नहीं ले जा सकता है, क्योंकि हमें वास्तव में उसकी ज़रूरत है कि वह पहले से ही जाने जाने वाले मूल एसक्यूएल को अनुकूलित करे और यह सीखे कि विभिन्न डीबी सिस्टमों का उपयोग कैसे किया जाए जो हम Redshift, HIVE और Presto सहित ऑर्ग में उपयोग करते हैं - प्रत्येक जो SQL के अपने स्वाद का उपयोग करता है। साथ ही, काम पर एसक्यूएल सीखने का अर्थ है कि उम्मीदवार हर दूसरे विश्लेषक में समस्याएं पैदा करेगा जब तक कि वे कुशल प्रश्न लिखना नहीं सीखते।
  • मशीन लर्निंग । आमतौर पर उन्होंने दिए गए डेटासेट (कागल शैली) के आधार पर समस्या को हल करने के लिए लॉजिस्टिक रिग्रेशन या कुछ अन्य तकनीकों का उपयोग किया है। हालाँकि, यह भी कि साक्षात्कार एल्गोरिदम और विधियों से शुरू होता है, यह जल्द ही फीचर जनरेशन जैसे विषयों पर ध्यान केंद्रित करता है (याद रखें कि आपको डेटासेट बनाने की आवश्यकता है, आपके लिए इसे बनाने के लिए और कोई नहीं है), स्थिरता, स्केलेबिलिटी और प्रदर्शन और साथ ही संबंधित व्यापार बंद। कुछ संदर्भ के लिए आप एनआईपीएस 2015 में प्रकाशित Google से एक प्रासंगिक पेपर देख सकते हैं ।
  • पाठ विश्लेषण । नहीं होना चाहिए, लेकिन प्राकृतिक भाषा प्रसंस्करण में कुछ अनुभव अच्छा है। आखिरकार, डेटा का एक बड़ा हिस्सा टेक्स्ट फॉर्मेट में है। जैसा कि चर्चा की गई है कि किसी और को बदलने के लिए और पाठ को साफ करने के लिए कोई अन्य नहीं है ताकि आप इसे एक एमएल या अन्य सांख्यिकीय दृष्टिकोण के द्वारा उपभोग्य बना सकें। इसके अलावा, ध्यान दें कि आज भी सीएस ग्रेड पहले से ही कुछ प्रोजेक्ट कर चुके हैं जो इस बॉक्स को टिक करते हैं।

बेशक एक जूनियर भूमिका के लिए आप उपरोक्त सभी नहीं कर सकते। लेकिन, आप इनमें से कितने हुनर ​​को याद कर सकते हैं और काम को पूरा कर सकते हैं?

अंत में, स्पष्ट करने के लिए, गैर-सांख्यिकीविदों को अस्वीकार करने का सबसे आम कारण बिल्कुल आंकड़ों के बुनियादी ज्ञान की कमी है। और कहीं न कहीं डेटा इंजीनियर और डेटा वैज्ञानिक के बीच अंतर है। फिर भी, डेटा इंजीनियर इन भूमिकाओं के लिए आवेदन करते हैं, क्योंकि कई बार वे मानते हैं कि "आँकड़े" केवल औसत, विचरण और सामान्य वितरण है। इसलिए, हम नौकरी विवरणों में कुछ प्रासंगिक लेकिन डरावने सांख्यिकीय buzzwords जोड़ सकते हैं ताकि यह स्पष्ट हो सके कि "आँकड़ों" से हमारा क्या मतलब है और भ्रम को रोकें।


4
2006 के बाद से मैं दो विश्वविद्यालयों में "बिजनेस इंफॉर्मेटिक्स" नामक कार्यक्रमों में लागू सांख्यिकी और डेटा विश्लेषण पाठ्यक्रम पढ़ाता हूं और यह मेरे छात्रों के सीखने के लिए 100% लागू होता है। 1. उन्हें अपने व्यवसाय, वेब, सर्वेक्षण आदि से वास्तविक, शायद गन्दा डेटा एकत्र करने की आवश्यकता है। 2. पाठ्यक्रम के लिए SQL डेटा बेस में डेटा को साफ, तैयार और संग्रहीत करना। 3. आंकड़ों पर विभिन्न सांख्यिकीय विश्लेषण करें। 4. 1-2 पृष्ठ संक्षिप्त कार्यकारी संक्षेप तैयार करें और शाब्दिक प्रोग्रामिंग (निट या इसी तरह) के साथ एक गहन रिपोर्ट लिखें। उस डेटा विज्ञान से एक अतिरिक्त सांख्यिकी / एमएल पाठ्यक्रम के साथ व्यावसायिक सूचना विज्ञान है, नहीं?
मोमो

4
ज़रूर, आपके पाठ्यक्रम में कई आवश्यक कौशल शामिल हैं। मुझे लगता है कि हम कई संयोजन पा सकते हैं, उदाहरण के लिए, कुछ सांख्यिकी पाठ्यक्रमों के साथ कंप्यूटर विज्ञान की डिग्री और व्यवसाय एमएल आधारित समस्या पर एक थीसिस / इंटर्नशिप। दिन के अंत में, प्रासंगिक कौशल जो उम्मीदवार मेज पर लाता है, उसकी गहराई और चौड़ाई क्या मायने रखती है ।
इलियासफेल

11

मुझे प्रचार और चर्चा को अनदेखा करने की अनुमति दें। मुझे लगता है कि "डेटा साइंटिस्ट" (या जिसे आप इसे कॉल करना चाहते हैं) एक वास्तविक चीज है और यह एक सांख्यिकीविद् से अलग है। कई प्रकार के पद हैं जो प्रभावी रूप से डेटा वैज्ञानिक हैं लेकिन उन्हें यह नाम नहीं दिया गया है - एक उदाहरण जीनोमिक्स में काम करने वाले लोग हैं।

जिस तरह से मैं इसे देखता हूं, एक डेटा वैज्ञानिक वह व्यक्ति होता है जिसके पास बड़ी मात्रा में जटिल डेटा पर अनुसंधान को डिजाइन और निष्पादित करने का कौशल और विशेषज्ञता होती है (जैसे अत्यधिक आयामी जिसमें अंतर्निहित तंत्र अज्ञात और जटिल हैं)।

इसका मतलब है की:

  • प्रोग्रामिंग: विश्लेषण और पाइपलाइनों को लागू करने में सक्षम होने के नाते, अक्सर डेटाबेस और उच्च-प्रदर्शन कंप्यूटिंग संसाधनों के साथ समानांतरीकरण और अंतराल के कुछ स्तर की आवश्यकता होती है।
  • कंप्यूटर विज्ञान (एल्गोरिदम): कुशल एल्गोरिदम को डिजाइन / चुनना जैसे कि चुना गया विश्लेषण संभव है और त्रुटि दर नियंत्रित है। कभी-कभी इसके लिए संख्यात्मक विश्लेषण, अनुकूलन आदि का ज्ञान भी आवश्यक हो सकता है।
  • कंप्यूटर विज्ञान / सांख्यिकी (आमतौर पर मशीन सीखने पर जोर): डेटा पर सवाल पूछने या उसमें "पैटर्न" खोजने के लिए एक रूपरेखा को डिजाइन करना और लागू करना। इसमें न केवल विभिन्न परीक्षणों / उपकरणों / एल्गोरिदम का ज्ञान शामिल होगा बल्कि उचित होल्डआउट, क्रॉस-वैरिफिकेशन इत्यादि को कैसे डिज़ाइन किया जाए।
  • मॉडलिंग: अक्सर हम कुछ मॉडल का उत्पादन करने में सक्षम होना चाहते हैं जो डेटा का एक सरल प्रतिनिधित्व देता है जैसे कि हम दोनों उपयोगी पूर्वानुमान बना सकते हैं और डेटा अंतर्निहित तंत्र में अंतर्दृष्टि प्राप्त कर सकते हैं। इसके लिए संभाव्य मॉडल बहुत लोकप्रिय हैं।
  • डोमेन-विशिष्ट विशेषज्ञता: जटिल डेटा के साथ सफलतापूर्वक काम करने का एक प्रमुख पहलू डोमेन-विशिष्ट अंतर्दृष्टि को शामिल करना है। इसलिए मैं कहूंगा कि यह महत्वपूर्ण है कि डेटा वैज्ञानिक या तो डोमेन में विशेषज्ञता रखते हैं, नए क्षेत्रों को जल्दी से सीखने में सक्षम हो सकते हैं, या उस क्षेत्र के विशेषज्ञों के साथ अच्छी तरह से इंटरफ़ेस करने में सक्षम होना चाहिए जो डेटा का दृष्टिकोण करने के बारे में उपयोगी अंतर्दृष्टि प्राप्त कर सकते हैं। ।

6
और एक सांख्यिकीविद कौन है, आपकी राय में? कौशल की यह सूची उन कौशलों से अलग कैसे है जो एक "सांख्यिकीविद्" के पास होनी चाहिए?
अमीबा

4
@amoeba मैं गलत हो सकता है, लेकिन कई सांख्यिकीविदों के पास इनमें से कुछ कौशल नहीं हैं (जैसे कि बड़े डेटासेट के साथ व्यापक प्रोग्रामिंग, कंप्यूटर विज्ञान में स्नातक स्तर का प्रशिक्षण)। इसके अलावा, कुछ सांख्यिकीय कौशल अक्सर एक डेटा वैज्ञानिक (सिद्धांत के कुछ उप-क्षेत्र) के लिए अप्रासंगिक हैं।
बिटवाइस

4
@ अत्याचार: मैं दृढ़ता से असहमत हूं कि "बड़े पैमाने पर डेटासेट के साथ प्रोग्रामिंग वास्तव में बाधा नहीं है"। मुझे नहीं लगता कि मैं किसी को "सांख्यिकीविद" शीर्षक के साथ जानता हूं जो एक ऐसे सॉफ़्टवेयर को लागू कर सकता है जो सर्वर पर आने वाले पैकेटों के आधार पर वास्तविक समय के निर्णय लेता है। निश्चित रूप से सभी डेटा वैज्ञानिक या तो नहीं कर सकते थे, लेकिन अनुपात बहुत अधिक है।
क्लिफ एबी

3
@ अत्याचार की आँकड़ों की अच्छी समझ आवश्यक है लेकिन मेरे विचार में पर्याप्त नहीं है। आँकड़ों बनाम अन्य कौशलों की गहनता / कठिनाई के बारे में, मैं तर्क दूंगा कि कंप्यूटर विज्ञान पक्ष की अच्छी समझ प्राप्त करना उतना ही गहरा / कठिन है, यदि अधिक नहीं। इसके अलावा, उस एसई पर प्रश्नों के संबंध में, आप किसी भी एसई (इस सहित) पर उन प्रकार के प्रश्नों का पता लगाते हैं - इसका कोई मतलब नहीं है सिवाय इसके कि कुछ लोग बिना समझे आसान समाधान चाहते हैं।
१२:१६ को

6
एक बात जो इन "डेटा साइंस बनाम सांख्यिकी" बहस में थक जाती है, वह सूक्ष्म निहितार्थ है कि डेटा वैज्ञानिक सांख्यिकीविद की बेहतर नस्ल की तरह हैं। तथ्य यह है कि जैसे-जैसे आपके ज्ञान की चौड़ाई बढ़ती जाती है गहराई कम होती जाती है, और उन लोगों में जो "डेटा वैज्ञानिक" होने के लिए आवश्यक सभी कार्यों में स्पष्टता से बेहतर होते हैं, मैं इनमें से अधिकांश चीजों के बारे में अपने ज्ञान की कल्पना करूंगा। बहुत सतही। सामान्य तौर पर , किसी भी डोमेन के विशेषज्ञ होने के करीब आना बेहद कठिन होता है, लोग इन पौराणिक डेटा वैज्ञानिकों से महारत हासिल करने की उम्मीद करते हैं।
1

7

सभी महान जवाब, हालांकि मेरे नौकरी के शिकार के अनुभव में मैंने नोट किया है कि "डेटा वैज्ञानिक" शब्द को भर्ती करने वालों के दिमाग में "कनिष्ठ डेटा विश्लेषक" के साथ भ्रमित किया गया है, जिसके साथ मैं संपर्क में था। इस प्रकार बिना किसी आँकड़े के कई अच्छे लोग उस परिचयात्मक एक शब्द के अलावा अनुभव करते हैं कि उन्होंने कुछ साल पहले खुद को डेटा वैज्ञानिक कहा था। एक कंप्यूटर साइंस बैकग्राउंड और डेटा एनालिस्ट के रूप में वर्षों के अनुभव वाले किसी व्यक्ति के रूप में, मैंने अपने करियर में बाद में सांख्यिकी में पीएचडी किया, यह सोचकर कि यह मुझे भीड़ से बाहर खड़ा करने में मदद करेगा, मैं खुद को अप्रत्याशित रूप से बड़ी भीड़ में पाता हूं "डेटा वैज्ञानिकों "। मुझे लगता है कि मैं "सांख्यिकीविद्" पर वापस लौट सकता हूं!


5
मैं मूल रूप से एक ही चीज देखता हूं। कोई भी काम जो डेटा या कुछ विश्लेषण के साथ कुछ काम का अनुरोध करता है उसे "डेटा साइंस" कहा जाता है। मुझे लगता है कि वित्त में "क्वांट" के लिए बहुत कुछ ऐसा ही हुआ, जहां किसी ने भी डेटा के साथ कुछ काम किया वह खुद को "क्वांट" कह रहा था।
अकवाल

6

मैं एक जूनियर कर्मचारी हूं, लेकिन मेरा काम का शीर्षक "डेटा वैज्ञानिक" है। मुझे लगता है कि बिटवाइज़ का उत्तर इस बात का एक उपयुक्त विवरण है कि मुझे क्या करने के लिए रखा गया था, लेकिन मैं अपने काम पर दिन के अनुभव के आधार पर एक और बिंदु जोड़ना चाहूंगा:

Data ScienceStatistics,
StatisticsData Science.

विज्ञान जांच की एक प्रक्रिया है। जब डेटा वह साधन है जिसके द्वारा उस जांच को किया जाता है, तो डेटा विज्ञान हो रहा है। इसका मतलब यह नहीं है कि हर कोई जो डेटा के साथ प्रयोग करता है या शोध करता है, वह आवश्यक रूप से एक डेटा वैज्ञानिक है, उसी तरह हर कोई जो वायरिंग के साथ प्रयोग या अनुसंधान नहीं करता है, वह आवश्यक रूप से एक इलेक्ट्रिकल इंजीनियर है। लेकिन इसका मतलब यह है कि एक पेशेवर "डेटा इन्क्वायरर" बनने के लिए पर्याप्त प्रशिक्षण प्राप्त कर सकता है, उसी तरह से एक पेशेवर इलेक्ट्रिशियन बनने के लिए पर्याप्त प्रशिक्षण प्राप्त कर सकता है। यह प्रशिक्षण कमोबेश बिटवाइज़ के उत्तरों में शामिल है, जिनमें से आँकड़े एक घटक है लेकिन संपूर्णता नहीं है।

पियोट्र का जवाब उन सभी चीजों का एक अच्छा सारांश भी है जो मुझे इच्छा है कि मुझे पता है कि किसी दिए गए सप्ताह में कैसे करना है। मेरा काम अब तक ज्यादातर पूर्व कर्मचारियों द्वारा किए गए नुकसान को कम करने में मदद कर रहा है जो वेन आरेख के "डेंजर ज़ोन" घटक से संबंधित थे।


2
+1। मुझे लगता है कि इस सूत्र में उन लोगों से सुनना बहुत मूल्यवान है जो वास्तव में "डेटा वैज्ञानिक" के रूप में कार्यरत हैं।
अमीबा

(+1) @amoeba मैं आपकी भावना से 100% सहमत हूं।
रस्टीस्टिस्टियन

8
Data ScienceStatisticsStatisticsData ScienceStatisticsData Science

@ गुफाएं मैं निश्चित रूप से सहमत हूं।
RustyStatistician

1
StatisticsData ScienceStatisticsData ScienceData Science

3

मुझे हाल ही में एक करियर के रूप में डेटा विज्ञान में रुचि हो गई है, और जब मैंने सोचा कि मैंने जो डेटा आँकड़े की तुलना में डेटा विज्ञान की नौकरी के बारे में सीखा है, जो मैंने (और आनंद!) लिया, तो मैंने डेटा वैज्ञानिकों के बारे में सोचना शुरू कर दिया। कंप्यूटर वैज्ञानिक जिन्होंने अपना ध्यान डेटा की ओर लगाया। विशेष रूप से, मैंने निम्नलिखित मुख्य अंतरों पर ध्यान दिया। ध्यान दें कि मतभेद मूड में दिखाई देते हैं। निम्नलिखित सिर्फ मेरे व्यक्तिपरक छापों को दर्शाता है, और मैं सामान्यता का दावा नहीं करता हूं। बस मेरी छाप!

  1. आंकड़ों में, आप वितरण, संभाव्यता और हीनतापूर्ण प्रक्रियाओं (परिकल्पना परीक्षण कैसे करें, जो अंतर्निहित वितरण, आदि) के बारे में बहुत परवाह करते हैं। मैं जो समझता हूं, डेटा साइंस अक्सर भविष्यवाणी के बारे में नहीं है, और अनुमानों के बारे में चिंताएं कुछ हद तक कंप्यूटर विज्ञान से प्रक्रियाओं द्वारा अवशोषित की जाती हैं, जैसे कि क्रॉस-मान्यता।

  2. सांख्यिकीय पाठ्यक्रमों में, मैं अक्सर केवल अपना स्वयं का डेटा बनाता हूं, या कुछ तैयार किए गए डेटा का उपयोग करता हूं जो कि एक स्वच्छ प्रारूप में उपलब्ध होता है। इसका मतलब है कि यह एक अच्छा आयताकार प्रारूप में है, कुछ एक्सेल स्प्रेडशीट, या ऐसा कुछ है जो रैम में अच्छी तरह से फिट बैठता है। डेटा की सफाई निश्चित रूप से शामिल है, लेकिन मुझे कभी भी वेब से "एक्सट्रैक्टिंग" डेटा से निपटने की ज़रूरत नहीं थी, केवल उन डेटाबेस से ही जाने दें जिन्हें डेटा की मात्रा रखने के लिए सेट करना पड़ता था जो अब रैम में फिट नहीं होते हैं। मेरी धारणा है कि यह कम्प्यूटेशनल पहलू डेटा विज्ञान में अधिक प्रभावी है।

  3. हो सकता है कि यह मेरे सांख्यिकीविदों के बारे में मेरी अज्ञानता को दर्शाता है कि ठेठ सांख्यिकीय नौकरियों में क्या होता है, लेकिन डेटा विज्ञान से पहले मैंने मॉडल के निर्माण के बारे में कभी नहीं सोचा था। एक विश्लेषण किया जाना था, एक सांख्यिकीय समस्या हल की जानी थी, कुछ पैरामीटर का अनुमान लगाया जाना था, और वह यह है। डेटा विज्ञान में, ऐसा लगता है कि अक्सर (हालांकि हमेशा नहीं) भविष्य कहनेवाला मॉडल एक बड़ी चीज में निर्मित होते हैं। उदाहरण के लिए, आप कहीं क्लिक करते हैं, और मिलीसेकंड के भीतर, एक भविष्य कहनेवाला एल्गोरिथ्म ने तय किया होगा कि परिणामस्वरूप क्या दिखाया जा रहा है। इसलिए, आंकड़ों में, मैं हमेशा सोचता था कि "हम किस पैरामीटर का अनुमान लगा सकते हैं, और हम इसे सुरुचिपूर्ण ढंग से कैसे करते हैं", ऐसा लगता है कि डेटा विज्ञान में फोकस "क्या हम भविष्यवाणी कर सकते हैं कि डेटा उत्पाद में संभवतः उपयोगी है" ।

फिर, ऊपर एक सामान्य परिभाषा देने की कोशिश नहीं करता है। मैं केवल उन प्रमुख अंतरों की ओर इशारा कर रहा हूं, जो मैंने खुद महसूस किए हैं। मैं अभी तक डेटा साइंस में नहीं हूं, लेकिन मुझे अगले साल में संक्रमण की उम्मीद है। इस अर्थ में नमक के एक दाने के साथ मेरे दो सेंट यहां ले जाएं।


2

मैं कहता हूं कि एक डेटा साइंटिस्ट एक भूमिका है, जहां कोई व्यक्ति व्यवसाय के लिए मानव-पठनीय परिणाम बनाता है, परिणाम को सांख्यिकीय रूप से ठोस (महत्वपूर्ण) बनाने के तरीकों का उपयोग करता है।

यदि इस परिभाषा के किसी भी भाग का पालन नहीं किया जाता है, तो हम एक डेवलपर, एक सच्चे वैज्ञानिक / सांख्यिकीविद्, या एक डेटा इंजीनियर के बारे में बात करते हैं।


2

मैं हमेशा मामले के सार में कटौती करना पसंद करता हूं।

statistics - science + some computer stuff + hype = data science

1
ऐसा लगता है कि मैंने "मशीन लर्निंग" का गठन किया है, जिसे मैं "सीखने के बिना सॉफ़्टवेयर का एक टुकड़ा संचालित करने के लिए सीखने के रूप में समझाया जाता हूं कि यह वास्तव में कैसे काम करता है" (बेशक अनुचित है, लेकिन हम "मशीन सीखने" का एक बहुत देखते हैं। स्कूल से बाहर आने वाले लोग जो कुछ भी नहीं समझते हैं, लेकिन विभिन्न प्रकार के तंत्रिका जाल के ट्यूनिंग पैरामीटर क्या
दर्शाते हैं

1

डेटा विज्ञान विश्लेषणात्मक रूप से जटिल समस्याओं को हल करने के लिए डेटा इंट्रेंस, एल्गोरिथम विकास और प्रौद्योगिकी का एक बहु-विषयक मिश्रण है। लेकिन डेटा वैज्ञानिकों की कमी के कारण, डेटा विज्ञान में एक कैरियर वास्तव में कई अवसर पैदा कर सकता है। हालांकि, संगठन एसएएस, डेटा साइंस काउंसिल ऑफ अमेरिका (डीएएससीए), हॉर्टनवर्क्स आदि से प्रमाणित पेशेवरों की तलाश कर रहे हैं । आशा है कि यह एक अच्छी जानकारी है!


1

डेटा वैज्ञानिकों के पास पायथन, MySQL और जावा विकास में बहुत कुशल कौशल हैं।

उन्हें विश्लेषणात्मक कार्यों की बहुत स्पष्ट समझ है, वास्तव में गणित, सांख्यिकी, डाटा खनन, भविष्य कहनेवाला विश्लेषण कौशल और साथ ही उन्हें पायथन और आर जैसी कोडिंग भाषाओं का वास्तव में अच्छा ज्ञान है।

बहुत सारे डेटा वैज्ञानिकों ने अभी अपने पीएच.डी. या उनके मास्टर डिग्री वास्तव में केवल 8% के शोध के अनुसार एक स्नातक की डिग्री है तो यह बहुत अधिक गहराई में है।

आंकड़ों के आधार पर निर्णय लेने वाले सांख्यिकीय मॉडल का निर्माण। प्रत्येक निर्णय कठिन हो सकता है, उदाहरण के लिए किसी पृष्ठ को रेंडरिंग या सॉफ्ट से ब्लॉक करें, जैसे कि किसी पेज की दुर्भावना के लिए एक अंक प्रदान करें, जिसका उपयोग डाउनवर्ड सिस्टम या मनुष्यों द्वारा किया जाता है।

एक मनाया घटना के मूल कारण को बताने का प्रयास करने वाले कार्य-कारण प्रयोगों का संचालन करना। यह ए / बी प्रयोगों को डिजाइन करके किया जा सकता है या यदि ए / बी प्रयोग समस्या के लिए महामारी विज्ञान के दृष्टिकोण को लागू करना संभव नहीं है, जैसे @ रुबिन कारण मॉडल

नए उत्पादों या विशेषताओं की पहचान करना जो डेटा के मूल्य को अनलॉक करने से आते हैं; डेटा के मूल्य पर एक विचारशील नेता होना। इसका एक अच्छा उदाहरण उत्पाद सिफारिशें हैं जो अमेज़ॅन ने पहली बार बड़े पैमाने पर दर्शकों के लिए उपलब्ध कराई हैं।


1
नहीं। मैं उतना ही ऊँचा हूँ जितना आप डेटा साइंटिस्ट जॉब चेन पर पा सकते हैं, और मैं जावा को बिलकुल नहीं जानता हूँ, और न ही मैं पायथन में प्रवीण हूँ, और मेरे MySQL कौशल जेनेरिक गुणवत्ता के सर्वोत्तम हैं। मेरे समूह में हमारे पास अन्य लोगों के एक जोड़े हैं जो आर को पसंद करते हैं, आर को बहुत कम जानते हैं, और केवल एक व्यक्ति जावा को जानता है, लेकिन वह मुख्य रूप से आर और सी / सी ++ (मेरी तरह) में कोड करता है। तीन लोग पायथन को जानते हैं, लेकिन वास्तव में कोई नहीं जानता। निचले स्तर की भाषा। मैं अजगर वी। आर लौ युद्धों, या जावा वी। सी / सी ++ में नहीं आना चाहता, लेकिन इसका मतलब यह नहीं है कि मामला यह है कि आपकी प्रोग्रामिंग से संबंधित कौशल सूची में से कोई भी आवश्यक है।
जूलमैन

0

आपके प्रश्न का उत्तर देने के लिए "डेटा वैज्ञानिक क्या है?" Http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/ में बताए गए डेटा साइंटिस्ट और डेटा मैकेनिक के बीच अंतर के बारे में पता होना सार्थक हो सकता है।


1
इसका पूरा उत्तर देने के लिए, कृपया अपने उत्तर में लेख से मुख्य बिंदुओं को उजागर करें, ताकि मुख्य बिंदुओं के साथ ओपी और अन्य पाठकों को प्रदान किया जा सके।
ग्रीनपार्क
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.