शर्तें नई हैं क्योंकि वे नई हैं
'डेटा साइंस' क्षेत्र में नौकरी की तलाश के बीच में होने के कारण, मुझे लगता है कि यहां दो चीजें चल रही हैं। सबसे पहले, नौकरियां नई हैं, और विभिन्न शर्तों की कोई निश्चित परिभाषा नहीं है, इसलिए नौकरी विवरण के साथ शर्तों के मिलान पर कोई सहमति नहीं है। इसकी तुलना 'वेब डेवलपर' या 'बैक-एंड डेवलपर' से करें। ये दो समान कार्य हैं जिन पर यथोचित रूप से सहमति है और अलग-अलग विवरण हैं।
दूसरा, जॉब पोस्टिंग और शुरुआती इंटरव्यू करने वाले बहुत से लोग यह नहीं जानते कि वे किस काम के लिए नौकरी कर रहे हैं। यह विशेष रूप से छोटे से मध्यम आकार की कंपनियों के मामले में सच है जो भर्तीकर्ताओं को उनके लिए आवेदक खोजने के लिए नियुक्त करते हैं। यह इन मध्यस्थों जो CareerBuilder या जो भी मंच पर नौकरी विवरण पोस्ट कर रहे हैं। यह कहना नहीं है कि उनमें से कई अपने सामान को नहीं जानते हैं, उनमें से कई कंपनियों के बारे में काफी जानकार हैं जो वे प्रतिनिधित्व करते हैं और कार्यस्थल की आवश्यकताओं के बारे में जानते हैं। लेकिन, विभिन्न विशिष्ट नौकरियों का वर्णन करने के लिए अच्छी तरह से परिभाषित शर्तों के बिना, अस्पष्ट नौकरी के शीर्षक अक्सर परिणाम होते हैं।
क्षेत्र के तीन सामान्य विभाग हैं
मेरे अनुभव में, डेटा विज्ञान के 'जॉब स्पेस' के तीन सामान्य विभाजन हैं।
पहला गणितीय और कम्प्यूटेशनल तकनीकों का विकास है जो डेटा विज्ञान को संभव बनाता है। इसमें नई मशीन शिक्षण विधियों में सांख्यिकीय अनुसंधान, इन विधियों के कार्यान्वयन, और वास्तविक दुनिया में इन विधियों को नियोजित करने के लिए कम्प्यूटेशनल बुनियादी ढांचे के निर्माण जैसी चीजों को शामिल किया गया है। यह ग्राहक से अलग होने वाला सबसे छोटा और सबसे छोटा विभाजन है। इस काम का अधिकांश हिस्सा अकादमिक या बड़ी कंपनियों (Google, Facebook, आदि) के शोधकर्ताओं द्वारा किया जाता है। यह Google के TensorFlow, IBM के SPSS न्यूरल नेट, या जो भी अगला बड़ा ग्राफ डेटाबेस होने वाला है, जैसी चीजों के लिए है।
दूसरा डिवीजन अंतर्निहित टूल का उपयोग कर रहा है ताकि जो भी डेटा विश्लेषण किया जाना है, उसे निष्पादित करने के लिए एप्लिकेशन विशिष्ट पैकेज बनाएं। लोगों को पायथन या आर या डेटा के कुछ सेट पर विश्लेषण क्षमता का निर्माण करने के लिए काम पर रखा जाता है। इस काम का एक बहुत, मेरे अनुभव में, 'डेटा लॉन्ड्री,' कच्चे डेटा को किसी भी रूप में प्रयोग करने योग्य बनाने में शामिल है। इस काम का एक और बड़ा हिस्सा डेटाबेसिंग है; यह पता लगाना कि डेटा को इस तरह से कैसे संग्रहीत किया जाए कि इसे जिस भी समयरेखा में आपकी आवश्यकता हो, उस तक पहुँचा जा सके। यह काम इतना अधिक उपकरण लेने वाला नहीं है, लेकिन कुछ परिणामों का उत्पादन करने के लिए मौजूदा डेटाबेस, सांख्यिकी और ग्राफ़िकल विश्लेषण पुस्तकालयों का उपयोग करना।
तीसरा डिवीजन नए संगठित और सुलभ डेटा से विश्लेषण का उत्पादन कर रहा है। आपके संगठन के आधार पर, यह सबसे अधिक ग्राहक का सामना करने वाला पक्ष है। आपको विश्लेषण का उत्पादन करना होगा जो व्यापारिक नेता निर्णय लेने के लिए उपयोग कर सकते हैं। यह तीन डिवीजनों की सबसे कम तकनीकी होगी; कई नौकरियां इस बिंदु पर दूसरे और तीसरे विभाजन के बीच संकर हैं, क्योंकि डेटा विज्ञान अपनी प्रारंभिक अवस्था में है। लेकिन भविष्य में, मुझे दृढ़ता से संदेह है कि इन दो नौकरियों के बीच एक और अधिक स्वच्छ विभाजन होगा, लोगों को दूसरी नौकरी की आवश्यकता होगी जिसमें तकनीकी, कंप्यूटर विज्ञान या सांख्यिकी आधारित शिक्षा की आवश्यकता होगी, और इस तीसरी नौकरी के लिए केवल एक सामान्य शिक्षा की आवश्यकता है।
सामान्य तौर पर, तीनों अपने आप को 'डेटा वैज्ञानिक' के रूप में वर्णित कर सकते थे, लेकिन केवल पहले दो खुद को 'मशीन लर्निंग इंजीनियर' के रूप में वर्णित कर सकते थे।
निष्कर्ष
कुछ समय के लिए, आपको यह पता लगाना होगा कि प्रत्येक कार्य क्या है। मेरी वर्तमान नौकरी ने मुझे एक 'विश्लेषक' के रूप में काम पर रखा, कुछ मशीन सीखने का सामान बनाने के लिए। लेकिन जैसा कि हमें काम मिला, यह स्पष्ट हो गया कि कंपनी का डेटाबेसिंग अपर्याप्त था, और अब मेरा 90% समय डेटाबेस पर काम करने में व्यतीत होता है। मेरा मशीन लर्निंग एक्सपोज़र अब बस जल्दी से चल रहा है जो कुछ भी सीखता है, जो कुछ भी सीखता है पैकेज के माध्यम से सबसे उपयुक्त लगता है, और तीसरे डिवीजन विश्लेषकों को सीएसवी फ़ाइलों की शूटिंग करना ग्राहक के लिए पावरपॉइंट प्रस्तुतिकरण बनाता है।
मैदान फ्लक्स में है। बहुत सारे संगठन अपनी प्रक्रियाओं में डेटा साइंस निर्णय को जोड़ने की कोशिश कर रहे हैं, लेकिन स्पष्ट रूप से यह जानने के बिना कि इसका क्या मतलब है। यह उनकी गलती नहीं है, भविष्य की भविष्यवाणी करना बहुत कठिन है, और एक नई तकनीक के प्रभाव कभी भी बहुत स्पष्ट नहीं होते हैं। जब तक क्षेत्र अधिक स्थापित नहीं हो जाता, तब तक कई नौकरियां स्वयं उतनी ही अस्पष्ट होंगी जितनी कि उनका वर्णन करने के लिए उपयोग की जाने वाली शर्तें।
Data scientist
वास्तविक कार्य क्या होगा, इस बारे में थोड़ी स्पष्टता के साथ पदनाम की तरह लगता है, जबकिmachine learning engineer
अधिक विशिष्ट है। पहले मामले में, आपकी कंपनी आपको एक लक्ष्य देगी और आपको यह पता लगाना होगा कि आप किस दृष्टिकोण (मशीन लर्निंग, इमेज प्रोसेसिंग, न्यूरल नेटवर्क, फ़ज़ी लॉजिक, आदि) का उपयोग करेंगे। दूसरे मामले में, आपने पहले ही कंपनी को संकुचित कर दिया है कि किस दृष्टिकोण का उपयोग किया जाना है।