हाल ही में अपने पीएचडी कार्यक्रम से सांख्यिकी में स्नातक होने के बाद, मैंने पिछले कुछ महीनों से आँकड़ों के क्षेत्र में काम की तलाश शुरू कर दी थी। लगभग हर कंपनी ने मुझे " डेटा साइंटिस्ट " की नौकरी के शीर्षक के साथ एक नौकरी पोस्टिंग माना था । वास्तव में, ऐसा लगा कि लंबे समय से सांख्यिकीय वैज्ञानिक या सांख्यिकीविद् की नौकरी के शीर्षक देखने के दिन थे । एक डेटा वैज्ञानिक होने के नाते वास्तव में प्रतिस्थापित किया गया था कि एक सांख्यिकीविद् होने के नाते या क्या शीर्षक मैं आश्चर्यचकित था?
खैर, नौकरियों के लिए अधिकांश योग्यताएं उन चीजों की तरह महसूस की गईं जो सांख्यिकीविद् के शीर्षक के तहत योग्य होंगी। अधिकांश नौकरियों के आंकड़ों ( ) में पीएचडी चाहते थे , सबसे आवश्यक समझ प्रयोगात्मक डिजाइन ( ), रैखिक प्रतिगमन और anova ( ), सामान्यीकृत रैखिक मॉडल ( ), और पीसीए ( ) जैसे अन्य बहुभिन्नरूपी तरीकों , साथ ही सांख्यिकीय कंप्यूटिंग वातावरण जैसे आर या एसएएस ( ) में ज्ञान । डेटा साइंटिस्ट की तरह लगता है कि वास्तव में सिर्फ सांख्यिकीविद् के लिए एक कोड नाम है।✓ ✓ ✓ ✓ ✓
हालांकि, हर साक्षात्कार मैं इस सवाल के साथ शुरू हुआ: "तो क्या आप मशीन लर्निंग एल्गोरिदम से परिचित हैं?" अधिक बार नहीं, मैंने खुद को बड़े डेटा, उच्च प्रदर्शन कंप्यूटिंग, और तंत्रिका नेटवर्क, CART, समर्थन वेक्टर मशीनों, पेड़ों को बढ़ावा देने, असुरक्षित मॉडल, आदि के बारे में सवालों के जवाब देने की कोशिश करते हुए पाया, यकीन है कि मैंने खुद को आश्वस्त किया कि ये सभी थे दिल में सांख्यिकीय सवाल, लेकिन हर साक्षात्कार के अंत में मैं मदद नहीं कर सकता, लेकिन यह महसूस करना छोड़ देता हूं कि मुझे कम और कम पता था कि डेटा वैज्ञानिक क्या है।
मैं एक सांख्यिकीविद् हूं, लेकिन क्या मैं एक डेटा वैज्ञानिक हूं? मैं वैज्ञानिक समस्याओं पर काम करता हूं इसलिए मुझे वैज्ञानिक होना चाहिए! और मैं भी डेटा के साथ काम करता हूं, इसलिए मुझे डेटा वैज्ञानिक होना चाहिए! और विकिपीडिया के अनुसार, अधिकांश शिक्षाविद मुझसे सहमत होंगे ( https://en.wikipedia.org/wiki/Data_science , आदि)
यद्यपि "डेटा विज्ञान" शब्द का उपयोग व्यावसायिक वातावरण में विस्फोट हुआ है, कई शिक्षाविदों और पत्रकारों को डेटा विज्ञान और आंकड़ों के बीच कोई अंतर नहीं दिखाई देता है।
लेकिन अगर मैं एक डेटा वैज्ञानिक पद के लिए इन सभी नौकरी के साक्षात्कार पर जा रहा हूं, तो ऐसा क्यों लगता है कि वे मुझसे कभी सांख्यिकीय सवाल नहीं पूछ रहे हैं?
खैर मेरे अंतिम साक्षात्कार के बाद मैं चाहता था कि कोई भी अच्छा वैज्ञानिक करेगा और मैंने इस समस्या को हल करने के लिए डेटा मांगा (हे, मैं एक डेटा वैज्ञानिक हूं)। हालाँकि, बाद में कई अनगिनत Google खोजों के बाद, मैं वहीं समाप्त हो गया, जहाँ मुझे लगने लगा था कि मैं एक बार फिर से एक डेटा वैज्ञानिक की परिभाषा से जूझ रहा हूँ। मुझे नहीं पता था कि एक डेटा वैज्ञानिक वास्तव में क्या था क्योंकि इसकी बहुत सारी परिभाषाएँ थीं, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) लेकिन ऐसा लग रहा था कि हर कोई मुझे बता रहा है कि मैं एक बनना चाहता था:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- आदि .... सूची जारी है।
खैर दिन के अंत में, मुझे पता चला कि "क्या एक डेटा वैज्ञानिक है" जवाब देने के लिए एक बहुत ही कठिन सवाल है। हेक, अम्स्टैट में पूरे दो महीने थे जहाँ उन्होंने इस प्रश्न का उत्तर देने के लिए समय समर्पित किया:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
खैर अभी के लिए, मुझे डेटा साइंटिस्ट बनने के लिए एक सेक्सी सांख्यिकीविद् बनना होगा, लेकिन उम्मीद है कि क्रॉस वेरिफाइड कम्युनिटी कुछ प्रकाश डालने में सक्षम हो सकती है और मुझे यह समझने में मदद कर सकती है कि डेटा वैज्ञानिक होने का क्या मतलब है। क्या सभी सांख्यिकीविद् डेटा वैज्ञानिक नहीं हैं?
(संपादित करें / अपडेट)
मैंने सोचा कि यह बातचीत को मसाला दे सकता है। मुझे सिर्फ एक डेटा साइंटिस्ट की तलाश में माइक्रोसॉफ्ट के साथ काम करने के बारे में अमेरिकी सांख्यिकीय एसोसिएशन से एक ईमेल मिला। यहाँ लिंक है: डेटा वैज्ञानिक स्थिति । मुझे लगता है कि यह दिलचस्प है क्योंकि स्थिति की भूमिका बहुत सारे विशिष्ट लक्षणों पर हिट होती है, जिनके बारे में हम बात कर रहे हैं, लेकिन मुझे लगता है कि उनमें से बहुत से आंकड़ों में बहुत कठोर पृष्ठभूमि की आवश्यकता होती है, साथ ही साथ नीचे पोस्ट किए गए कई उत्तरों का खंडन भी किया जाता है। यदि लिंक मृत हो जाता है, तो Microsoft द्वारा डेटा वैज्ञानिक में दिए गए गुण हैं:
मुख्य नौकरी की आवश्यकताएं और कौशल:
Analytics का उपयोग करके व्यावसायिक डोमेन अनुभव
- जटिल व्यावसायिक समस्याओं और बड़े पैमाने पर वास्तविक-विश्व व्यापार डेटा सेटों में उन्नत एनालिटिक्स का उपयोग करके उनके समाधानों की अवधारणा करने के लिए महत्वपूर्ण सोच कौशल के उपयोग में कई प्रासंगिक व्यावसायिक डोमेन का अनुभव होना चाहिए।
- उम्मीदवार को विश्लेषणात्मक परियोजनाओं को स्वतंत्र रूप से चलाने में सक्षम होना चाहिए और हमारे आंतरिक ग्राहकों को निष्कर्षों को समझने में मदद करनी चाहिए और उन्हें अपने व्यवसाय को लाभ पहुंचाने के लिए कार्रवाई में अनुवाद करना चाहिए।
भविष्य कहनेवाला मॉडलिंग
- भविष्य कहनेवाला मॉडलिंग में उद्योगों में अनुभव
- व्यावसायिक समस्या परिभाषा और वैचारिक मॉडलिंग ग्राहक के साथ महत्वपूर्ण रिश्तों को जोड़ने और सिस्टम दायरे को परिभाषित करने के लिए
सांख्यिकी / अर्थमिति
- निरंतर और श्रेणीबद्ध डेटा के लिए खोजपूर्ण डेटा विश्लेषण
- उद्यम और उपभोक्ता व्यवहार, उत्पादन लागत, कारक की मांग, असतत पसंद, और अन्य प्रौद्योगिकी संबंधों के लिए संरचनात्मक मॉडल समीकरणों की विशिष्टता और अनुमान
- निरंतर और श्रेणीबद्ध डेटा का विश्लेषण करने के लिए उन्नत सांख्यिकीय तकनीक
- पूर्वानुमान मॉडल का समय श्रृंखला विश्लेषण और कार्यान्वयन
- कई चर समस्याओं के साथ काम करने में ज्ञान और अनुभव
- मॉडल की शुद्धता का आकलन करने और नैदानिक परीक्षणों का संचालन करने की क्षमता
- सांख्यिकी या आर्थिक मॉडल की व्याख्या करने की क्षमता
- असतत घटना सिमुलेशन, और गतिशील सिमुलेशन मॉडल के निर्माण में ज्ञान और अनुभव
डाटा प्रबंधन
- डेटा परिवर्तन के लिए टी-एसक्यूएल और एनालिटिक्स के उपयोग के साथ परिचित और बहुत बड़े वास्तविक दुनिया के सेट के लिए खोज डेटा विश्लेषण तकनीकों के अनुप्रयोग
- डेटा अतिरेक, डेटा सटीकता, असामान्य या चरम मान, डेटा इंटरैक्शन और लापता मान सहित डेटा अखंडता पर ध्यान दें।
संचार और सहयोग कौशल
- स्वतंत्र रूप से काम करें और एक आभासी परियोजना टीम के साथ काम करने में सक्षम हों जो चुनौतीपूर्ण व्यावसायिक समस्याओं के लिए अभिनव समाधानों का शोध करेंगे
- भागीदारों के साथ सहयोग करें, महत्वपूर्ण सोच कौशल लागू करें, और विश्लेषणात्मक परियोजनाओं को एंड-टू-एंड ड्राइव करें
- बेहतर संचार कौशल, मौखिक और लिखित दोनों
- हितधारकों के विविध सेट द्वारा उपभोग्य रूप में विश्लेषणात्मक परिणामों का दृश्य
सॉफ्टवेयर का संकुल
- उन्नत सांख्यिकीय / अर्थमितीय सॉफ्टवेयर पैकेज: पायथन, आर, जेएमपी, एसएएस, ईव्यू, एसएएस एंटरप्राइज माइनर
- डेटा अन्वेषण, विज़ुअलाइज़ेशन और प्रबंधन: टी-एसक्यूएल, एक्सेल, पावरबीआई और समकक्ष उपकरण
योग्यता:
- संबंधित अनुभव के न्यूनतम 5+ वर्ष आवश्यक
- मात्रात्मक क्षेत्र में स्नातकोत्तर डिग्री वांछनीय है।