डेटा वैज्ञानिक बनाम मशीन लर्निंग इंजीनियर


66

"डेटा वैज्ञानिक" और "मशीन लर्निंग इंजीनियर" के बीच क्या अंतर हैं, यदि कोई हो?

पिछले एक साल में या तो "मशीन लर्निंग इंजीनियर" ने नौकरी पोस्टिंग में बहुत कुछ दिखाना शुरू कर दिया है। यह सैन फ्रांसिस्को में विशेष रूप से ध्यान देने योग्य है, जो यकीनन "डेटा वैज्ञानिक" शब्द से उत्पन्न हुआ है। एक बिंदु पर "डेटा वैज्ञानिक" "सांख्यिकीविद" से आगे निकल गया, और मैं सोच रहा हूं कि क्या अब धीरे-धीरे "डेटा वैज्ञानिक" होने लगे हैं।

कैरियर सलाह को इस साइट पर ऑफ-टॉपिक के रूप में सूचीबद्ध किया गया है, लेकिन मैं अपने प्रश्न को अत्यधिक प्रासंगिक मानता हूं क्योंकि मैं परिभाषाओं के बारे में पूछ रहा हूं; मैं अपने कैरियर के प्रक्षेपवक्र या अन्य ऑफ-टॉपिक प्रश्नों की तरह व्यक्तिगत परिस्थितियों को देखते हुए सिफारिशों के बारे में नहीं पूछ रहा हूं।

यह सवाल ऑन-टॉपिक है क्योंकि किसी दिन इस साइट के कई उपयोगकर्ताओं के लिए महत्वपूर्ण प्रभाव पड़ सकता है। वास्तव में, यह स्टैक-एक्सचेंज साइट मौजूद नहीं हो सकती है यदि "सांख्यिकीविद" बनाम "डेटा वैज्ञानिक" विकास नहीं हुआ है। इस अर्थ में, यह एक उचित, संभावित अस्तित्वगत प्रश्न है।


2
Data scientistवास्तविक कार्य क्या होगा, इस बारे में थोड़ी स्पष्टता के साथ पदनाम की तरह लगता है, जबकि machine learning engineerअधिक विशिष्ट है। पहले मामले में, आपकी कंपनी आपको एक लक्ष्य देगी और आपको यह पता लगाना होगा कि आप किस दृष्टिकोण (मशीन लर्निंग, इमेज प्रोसेसिंग, न्यूरल नेटवर्क, फ़ज़ी लॉजिक, आदि) का उपयोग करेंगे। दूसरे मामले में, आपने पहले ही कंपनी को संकुचित कर दिया है कि किस दृष्टिकोण का उपयोग किया जाना है।
गुरविंदर372

संबंधित: डेटा विज्ञान बनाम संचालन अनुसंधान । इसके अलावा, एक वैज्ञानिक एक इंजीनियर से कुछ अलग है । दुर्भाग्य से, उद्योग को इसकी परवाह नहीं है।
छिपकली

1
जैसा कि किसी और ने कहा, एक एमएल इंजीनियर केवल कोई है जो एमएल मॉडल को उत्पादन में डालता है। वह वास्तविक भविष्य कहनेवाला मॉडल और उनके अंतर्निहित गणित को गहराई से समझने की उम्मीद नहीं कर रहे हैं, लेकिन फिर भी इन मॉडलों को उपयोगी बनाने वाले सॉफ़्टवेयर टूल में महारत हासिल करना आवश्यक है। एक डेटा साइंटिस्ट को आँकड़ों / गणित और ML / AI की गहरी समझ होने की उम्मीद है, और अक्सर वह व्यक्ति होता है जो ML इंजीनियरों के लिए उपयोग किए जाने वाले उपकरण बनाता है। तो एक एमएल इंजीनियर मूल रूप से एक विशेष सॉफ्टवेयर इंजीनियर के करीब है और एक डीएस एक कम्प्यूटेशनल सांख्यिकीविद् के करीब है।
डिगियो

जवाबों:


55

अच्छा प्रश्न। वास्तव में इस विषय पर बहुत भ्रम है, मुख्यतः क्योंकि दोनों ही काफी नई नौकरियां हैं। लेकिन अगर हम शब्दार्थ पर ध्यान दें, तो नौकरियों का वास्तविक अर्थ स्पष्ट हो जाता है।

पहले से सेब की तुलना सेब से करना बेहतर है, एक ही विषय के बारे में बात करते हुए, डेटा। मशीन लर्निंग और इसकी उप-शैली (डीप लर्निंग, आदि) डेटा वर्ल्ड का सिर्फ एक पहलू है, साथ में सांख्यिकीय सिद्धांत, डेटा अधिग्रहण (DAQ), प्रसंस्करण (जो गैर-मशीन सीखने के लिए प्रेरित किया जा सकता है), परिणामों की व्याख्या, आदि।

इसलिए, मेरे स्पष्टीकरण के लिए, मैं डेटा इंजीनियर में से एक के लिए मशीन लर्निंग इंजीनियर भूमिका को व्यापक करूंगा।

विज्ञान प्रयोग, परीक्षण और विफलताओं, सिद्धांत निर्माण, अभूतपूर्व समझ के बारे में है। इंजीनियरिंग उस काम के बारे में है जो विज्ञान पहले से ही जानता है, इसे पूरा करना और "वास्तविक दुनिया" पर ले जाना है।

एक प्रॉक्सी के बारे में सोचें: परमाणु वैज्ञानिक और परमाणु इंजीनियर में क्या अंतर है?

परमाणु वैज्ञानिक वह है जो परमाणु के पीछे के विज्ञान को जानता है, उन दोनों के बीच की बातचीत, एक जिसने नुस्खा लिखा है जो परमाणुओं से ऊर्जा प्राप्त करने की अनुमति देता है।

परमाणु इंजीनियर वह आदमी है जिसे वैज्ञानिक की रेसिपी लेने के लिए चार्ज किया जाता है, और इसे वास्तविक दुनिया में ले जाया जाता है। इसलिए यह परमाणु भौतिकी के बारे में ज्ञान काफी सीमित है, लेकिन वह सामग्री, इमारतों, अर्थशास्त्र और उचित परमाणु संयंत्र के निर्माण के लिए उपयोगी अन्य चीजों के बारे में भी जानता है।

डेटा की दुनिया में वापस आ रहा है, यहां एक और उदाहरण: जिन लोगों ने कॉन्ट्रॉशनल न्यूरल नेटवर्क्स (यान लेकन) विकसित किया है, वह एक डेटा साइंटिस्ट है, वह व्यक्ति जो तस्वीरों में चेहरे को पहचानने के लिए मॉडल को तैनात करता है वह मशीन लर्निंग इंजीनियर है। डेटा अधिग्रहण से .JPG छवि के पंजीकरण तक पूरी प्रक्रिया के लिए जिम्मेदार व्यक्ति, एक डेटा इंजीनियर है।

इसलिए, मूल रूप से, आज डेटा साइंटिस्ट का 90% वास्तव में डेटा इंजीनियर या मशीन लर्निंग इंजीनियर्स हैं, और 90% पोजिशन को डेटा साइंटिस्ट के रूप में खोला गया है जो वास्तव में इंजीनियर्स की जरूरत है। एक आसान जांच: साक्षात्कार में, आपसे पूछा जाएगा कि आपने कितने एमएल मॉडल उत्पादन में तैनात किए हैं, न कि कितने तरीकों पर प्रकाशित नए तरीकों पर।

इसके बजाय, जब आप "मशीन लर्निंग इंजीनियर" के बारे में अनाउंस करते हैं, तो इसका मतलब है कि भर्ती करने वालों को अंतर के बारे में अच्छी तरह से पता है, और उन्हें वास्तव में उत्पादन में किसी मॉडल को रखने में सक्षम किसी की आवश्यकता है।


मैंने कभी भी परमाणु वैज्ञानिकों बनाम इंजीनियर के बारे में नहीं सोचा है। मुझे लगता है कि यह एक गहन उत्तर है। यह मेरे अनुभव के लिए उपयुक्त है, जब मैं विश्लेषण कर रहा हूं यह उस सफेद लैब कोट (ज्यूपिटर और सुंदर रेखांकन) की तरह है। जब मैं इंजीनियरिंग प्रोडक्शन वर्क (etl & webapp कंटेनर्स) के साथ "अपने हाथ गंदे कर रहा हूं", तो मुझे लगातार अजीब केस, बग्स, और खराब कोड की गंध मिल रही है।
टोनी

Yann LeCun एक कंप्यूटर वैज्ञानिक नहीं है? और डेटा साइंटिस्ट कोई ऐसा व्यक्ति होगा जो डेटा के वैज्ञानिक विश्लेषण करने के लिए पूर्व-निर्मित कंप्यूटर एल्गोरिदम और तकनीकों (यान साइकॉन जैसे कंप्यूटर वैज्ञानिकों द्वारा आविष्कार) का उपयोग करता है? उसी तरह जो अन्य वैज्ञानिक अपने काम में कंप्यूटर का लाभ उठाते हैं? तो डेटा प्राप्त करना, इसे साफ करना, डेटा के भीतर छिपी सच्चाइयों को जानने के लिए विभिन्न विश्लेषण तकनीकों (प्लॉटिंग, पैटर्न मिलान, एमएल मॉडल आदि) को एक साथ जोड़ना?
दीदी ए।

YLC, वास्तव में एक कंप्यूटर वैज्ञानिक है, लेकिन वह डेटा में विशिष्ट है। सीएस एक बहुत व्यापक क्षेत्र बन गया है, जहाँ से उन सभी नई परिभाषाओं (जैसे डीएस) को बाहर रखा गया है। और इसलिए CS का उपयोग करना वास्तव में भेदभावपूर्ण नहीं है। अपीलीय "भौतिक विज्ञानी" की तरह सैकड़ों साल पहले: आज वह शब्द वास्तव में किसी की नौकरी को परिभाषित नहीं करता है, जब तक कि आप इसे बेहतर निर्दिष्ट नहीं करते हैं (उदाहरण। पार्टिकल पी।, सॉलिड स्टेट पी।, आदि)। लेकिन वैसे भी, एक साइंटिस्ट (CS, DS, any -S) कोई ऐसा व्यक्ति नहीं है जो दूसरे की खोजों का उपयोग करने के लिए खुद को सीमित करता है। इसके बजाय, उसका काम समझना है, और इस माध्यम से, खोज करना है।
विन्केन्ज़ो लावेरिनी

क्या आप करियर गाइडेंस के बारे में इस सवाल का जवाब दे सकते हैं Data Engineer
stom

"अभूतपूर्व समझ" के बारे में विज्ञान कैसे है?
ubadub

10

शर्तें नई हैं क्योंकि वे नई हैं

'डेटा साइंस' क्षेत्र में नौकरी की तलाश के बीच में होने के कारण, मुझे लगता है कि यहां दो चीजें चल रही हैं। सबसे पहले, नौकरियां नई हैं, और विभिन्न शर्तों की कोई निश्चित परिभाषा नहीं है, इसलिए नौकरी विवरण के साथ शर्तों के मिलान पर कोई सहमति नहीं है। इसकी तुलना 'वेब डेवलपर' या 'बैक-एंड डेवलपर' से करें। ये दो समान कार्य हैं जिन पर यथोचित रूप से सहमति है और अलग-अलग विवरण हैं।

दूसरा, जॉब पोस्टिंग और शुरुआती इंटरव्यू करने वाले बहुत से लोग यह नहीं जानते कि वे किस काम के लिए नौकरी कर रहे हैं। यह विशेष रूप से छोटे से मध्यम आकार की कंपनियों के मामले में सच है जो भर्तीकर्ताओं को उनके लिए आवेदक खोजने के लिए नियुक्त करते हैं। यह इन मध्यस्थों जो CareerBuilder या जो भी मंच पर नौकरी विवरण पोस्ट कर रहे हैं। यह कहना नहीं है कि उनमें से कई अपने सामान को नहीं जानते हैं, उनमें से कई कंपनियों के बारे में काफी जानकार हैं जो वे प्रतिनिधित्व करते हैं और कार्यस्थल की आवश्यकताओं के बारे में जानते हैं। लेकिन, विभिन्न विशिष्ट नौकरियों का वर्णन करने के लिए अच्छी तरह से परिभाषित शर्तों के बिना, अस्पष्ट नौकरी के शीर्षक अक्सर परिणाम होते हैं।

क्षेत्र के तीन सामान्य विभाग हैं

मेरे अनुभव में, डेटा विज्ञान के 'जॉब स्पेस' के तीन सामान्य विभाजन हैं।

पहला गणितीय और कम्प्यूटेशनल तकनीकों का विकास है जो डेटा विज्ञान को संभव बनाता है। इसमें नई मशीन शिक्षण विधियों में सांख्यिकीय अनुसंधान, इन विधियों के कार्यान्वयन, और वास्तविक दुनिया में इन विधियों को नियोजित करने के लिए कम्प्यूटेशनल बुनियादी ढांचे के निर्माण जैसी चीजों को शामिल किया गया है। यह ग्राहक से अलग होने वाला सबसे छोटा और सबसे छोटा विभाजन है। इस काम का अधिकांश हिस्सा अकादमिक या बड़ी कंपनियों (Google, Facebook, आदि) के शोधकर्ताओं द्वारा किया जाता है। यह Google के TensorFlow, IBM के SPSS न्यूरल नेट, या जो भी अगला बड़ा ग्राफ डेटाबेस होने वाला है, जैसी चीजों के लिए है।

दूसरा डिवीजन अंतर्निहित टूल का उपयोग कर रहा है ताकि जो भी डेटा विश्लेषण किया जाना है, उसे निष्पादित करने के लिए एप्लिकेशन विशिष्ट पैकेज बनाएं। लोगों को पायथन या आर या डेटा के कुछ सेट पर विश्लेषण क्षमता का निर्माण करने के लिए काम पर रखा जाता है। इस काम का एक बहुत, मेरे अनुभव में, 'डेटा लॉन्ड्री,' कच्चे डेटा को किसी भी रूप में प्रयोग करने योग्य बनाने में शामिल है। इस काम का एक और बड़ा हिस्सा डेटाबेसिंग है; यह पता लगाना कि डेटा को इस तरह से कैसे संग्रहीत किया जाए कि इसे जिस भी समयरेखा में आपकी आवश्यकता हो, उस तक पहुँचा जा सके। यह काम इतना अधिक उपकरण लेने वाला नहीं है, लेकिन कुछ परिणामों का उत्पादन करने के लिए मौजूदा डेटाबेस, सांख्यिकी और ग्राफ़िकल विश्लेषण पुस्तकालयों का उपयोग करना।

तीसरा डिवीजन नए संगठित और सुलभ डेटा से विश्लेषण का उत्पादन कर रहा है। आपके संगठन के आधार पर, यह सबसे अधिक ग्राहक का सामना करने वाला पक्ष है। आपको विश्लेषण का उत्पादन करना होगा जो व्यापारिक नेता निर्णय लेने के लिए उपयोग कर सकते हैं। यह तीन डिवीजनों की सबसे कम तकनीकी होगी; कई नौकरियां इस बिंदु पर दूसरे और तीसरे विभाजन के बीच संकर हैं, क्योंकि डेटा विज्ञान अपनी प्रारंभिक अवस्था में है। लेकिन भविष्य में, मुझे दृढ़ता से संदेह है कि इन दो नौकरियों के बीच एक और अधिक स्वच्छ विभाजन होगा, लोगों को दूसरी नौकरी की आवश्यकता होगी जिसमें तकनीकी, कंप्यूटर विज्ञान या सांख्यिकी आधारित शिक्षा की आवश्यकता होगी, और इस तीसरी नौकरी के लिए केवल एक सामान्य शिक्षा की आवश्यकता है।

सामान्य तौर पर, तीनों अपने आप को 'डेटा वैज्ञानिक' के रूप में वर्णित कर सकते थे, लेकिन केवल पहले दो खुद को 'मशीन लर्निंग इंजीनियर' के रूप में वर्णित कर सकते थे।

निष्कर्ष

कुछ समय के लिए, आपको यह पता लगाना होगा कि प्रत्येक कार्य क्या है। मेरी वर्तमान नौकरी ने मुझे एक 'विश्लेषक' के रूप में काम पर रखा, कुछ मशीन सीखने का सामान बनाने के लिए। लेकिन जैसा कि हमें काम मिला, यह स्पष्ट हो गया कि कंपनी का डेटाबेसिंग अपर्याप्त था, और अब मेरा 90% समय डेटाबेस पर काम करने में व्यतीत होता है। मेरा मशीन लर्निंग एक्सपोज़र अब बस जल्दी से चल रहा है जो कुछ भी सीखता है, जो कुछ भी सीखता है पैकेज के माध्यम से सबसे उपयुक्त लगता है, और तीसरे डिवीजन विश्लेषकों को सीएसवी फ़ाइलों की शूटिंग करना ग्राहक के लिए पावरपॉइंट प्रस्तुतिकरण बनाता है।

मैदान फ्लक्स में है। बहुत सारे संगठन अपनी प्रक्रियाओं में डेटा साइंस निर्णय को जोड़ने की कोशिश कर रहे हैं, लेकिन स्पष्ट रूप से यह जानने के बिना कि इसका क्या मतलब है। यह उनकी गलती नहीं है, भविष्य की भविष्यवाणी करना बहुत कठिन है, और एक नई तकनीक के प्रभाव कभी भी बहुत स्पष्ट नहीं होते हैं। जब तक क्षेत्र अधिक स्थापित नहीं हो जाता, तब तक कई नौकरियां स्वयं उतनी ही अस्पष्ट होंगी जितनी कि उनका वर्णन करने के लिए उपयोग की जाने वाली शर्तें।


9

[पूरी तरह से एक व्यक्तिगत राय]

जब 'डेटा साइंटिस्ट' शब्द 'स्टेटिस्टिशियन' से आगे निकल गया, तो यह किसी भी बड़े अंतर के बजाय शांत ध्वनि की ओर अधिक है। इसी तरह, 'डीप लर्निंग' शब्द। यह अधिक परतों के एक जोड़े के साथ सिर्फ तंत्रिका नेटवर्क (जो एक और मशीन लर्निंग एल्गोरिदम है)। कोई भी यह नहीं समझा सकता है कि कब किसी विशेष तंत्रिका जाल को डीएल कहा जा सकता है, एमएल के बजाय, परिभाषा स्वयं फजी है। तो, 'डेटा साइंटिस्ट' शब्द है।

हालाँकि, जैसा कि कंपनियां डेटा विज्ञान के लिए DevOps मानसिकता को अपना रही हैं, एमएल इंजीनियर शब्द विकसित हुआ।

डेटा विज्ञान के लिए DevOps मानसिकता क्या है?

यह वह जगह है जहां आप मॉडल का निर्माण करते हैं, इसे तैनात करते हैं और उत्पादन में इसे बनाए रखने की उम्मीद भी करते हैं। यह सॉफ्टवेयर टीमों में बहुत अधिक घर्षण से बचने में मदद करता है।

[पुनश्च: DevOps एक दर्शन की तरह, सॉफ्टवेयर करने का एक तरीका है। इसलिए, इसे एक पदनाम के रूप में उपयोग करते हुए, फिर से मुझे भ्रमित करता है]।

तो, एमएल इंजीनियरों को सिस्टम इंजीनियरिंग, एमएल, और सांख्यिकी (स्पष्ट रूप से) की बारीकियों को जानना चाहिए।

एक अस्पष्ट सामान्यीकरण डेटा इंजीनियर + डेटा वैज्ञानिक = एमएल इंजीनियर होगा।

यह कहते हुए कि, इस स्थान में पदनाम दिन-प्रतिदिन अस्पष्ट होते जा रहे हैं, और 'सांख्यिकीविद' शब्द अधिक प्रासंगिक (विडंबनापूर्ण) होता जा रहा है।


2
मशीन लर्निंग सिर्फ न्यूरल नेट्स (सिर्फ एक उदाहरण के रूप में, सभी प्रकार के ट्री-बेस्ड क्लासीफायर पर विचार करें) की तुलना में बहुत अधिक है, इसलिए यह न देखें कि "डीप लर्निंग सिर्फ मशीन लर्निंग है जिसमें कुछ और लेयर्स हैं"।
एस। कोलासा - मोनिका

@StephanKolassa हाँ। इस बात से सहमत। इसे बहुत अधिक सामान्यीकृत नहीं किया जाना चाहिए :) इसे इंगित करने के लिए धन्यवाद।
Dawny33

1
(+1) लेकिन मुझे नहीं लगता कि "सांख्यिकीविद्" अधिक प्रासंगिक हो जाना एक विडंबना है, बस ... एक अपेक्षित संक्रमण? इन दिनों "परिचालन शोधकर्ता" कहां हैं? ;)
us atr11852

7

यह कंपनी से कंपनी में भिन्न हो सकता है, लेकिन एक पदनाम के रूप में डेटा साइंटिस्ट पिछले कुछ समय से लगभग है और आमतौर पर ज्ञान और डेटा से अंतर्दृष्टि निकालने के लिए है

मैंने देखा है डेटा वैज्ञानिकों कर

  • लेखन छवि प्रसंस्करण और छवि मान्यता एल्गोरिदम,
  • व्यावसायिक उपयोग के मामले के लिए निर्णय पेड़ों को डिजाइन और कार्यान्वित करें,
  • या बस कुछ रिपोर्ट डिज़ाइन और कार्यान्वित करें या डेटा परिवर्तनों के लिए ETL लिखें।

डाटा विज्ञान , तथापि, के एक सुपर डोमेन है मशीन सीखने

यह विशेष रूप से मशीन लर्निंग, वर्गीकरण, क्लस्टर विश्लेषण, अनिश्चितता मात्रा का ठहराव, कम्प्यूटेशनल विज्ञान, डेटा खनन, डेटाबेस के उप-क्षेत्रों से गणित, सांख्यिकी, सूचना विज्ञान और कंप्यूटर विज्ञान के व्यापक क्षेत्रों के भीतर कई क्षेत्रों से खींची गई तकनीकों और सिद्धांतों को नियोजित करता है। और दृश्य

मशीन लर्निंग इंजीनियर एक पदनाम लगता है जहां आपका नियोक्ता पहले से ही संकुचित हो गया है

  • दृष्टिकोण,
  • उपकरण,
  • और एक मोटा मॉडल (क्या देने के लिए)

मशीन लर्निंग का उपयोग करके डेटा से ज्ञान या अंतर्दृष्टि निकालने के लिए और आपका काम उसी को वितरित करने के लिए मशीन लर्निंग एल्गोरिदम को डिजाइन और कार्यान्वित करना होगा


5

मशीन लर्निंग इंजीनियर्स और इंजीनियरिंग केंद्रित डेटा साइंटिस्ट एक ही हैं, लेकिन सभी डेटा साइंटिस्ट इंजीनियरिंग केंद्रित नहीं हैं। लगभग 5 साल पहले लगभग सभी डेटा साइंटिस्ट इंजीनियरिंग केंद्रित थे, उदाहरण के लिए, उन्हें उत्पादन कोड लिखना था। अब, हालांकि, कई डेटा वैज्ञानिक भूमिकाएं हैं जो अधिकांश भाग के लिए हैं: जुपिटर नोटबुक में खेलना, डेटा को समझना, सुंदर रेखांकन बनाना, ग्राहकों, प्रबंधकों, विश्लेषकों को समझाते हुए ... वे कोई इंजीनियरिंग नहीं करते हैं। और मेरा मानना ​​है कि टर्म मशीन लर्निंग इंजीनियर्स को यह रेखांकित करना था कि यह इंजीनियरिंग की स्थिति है।


2

टीएल; डीआर: यह इस बात पर निर्भर करता है कि कौन पूछ रहा है।

इस सवाल का जवाब काफी हद तक अपेक्षाओं, ज्ञान और अनुभव पर निर्भर करता है, जिसे पूछ रहा है। एक जवाब के फजी के रूप में एक अनुरूप प्रश्न है:

एक सॉफ्टवेयर डेवलपर, एक सॉफ्टवेयर इंजीनियर और एक कंप्यूटर वैज्ञानिक के बीच अंतर क्या है?

कुछ लोगों के लिए, विशेष रूप से ऐसे लोग जो कंप्यूटर विज्ञान और सॉफ्टवेयर इंजीनियरिंग का अध्ययन या शिक्षण करते हैं, इन क्षेत्रों के बीच एक बड़ा और परिभाषित अंतर है। लेकिन औसत एचआर कार्यकर्ता, तकनीकी भर्ती, या प्रबंधक, ये सभी सिर्फ "कंप्यूटर लोग" हैं।

मुझे विन्सेन्ट ग्रानविले का यह उद्धरण बहुत पसंद है , मेरा जोर:

इससे पहले अपने करियर में (लगभग 1990) मैंने सैटेलाइट इमेज में पैटर्न (या शेप्स या फीचर्स, उदाहरण के लिए झीलों) की पहचान करने और इमेज सेगमेंटेशन करने के लिए इमेज रिमोट सेंसिंग तकनीक पर काम किया था: उस समय मेरे शोध को कम्प्यूटेशनल के रूप में लेबल किया गया था। आँकड़े, लेकिन मेरे गृह विश्वविद्यालय में अगले दरवाजे में कंप्यूटर विज्ञान विभाग में सटीक काम करने वाले लोगों ने अपने शोध को कृत्रिम बुद्धिमत्ता कहा। आज, इसे डाटा साइंस या आर्टिफिशियल इंटेलिजेंस, सब-डोमेन सिग्नल प्रोसेसिंग, कंप्यूटर विज़न या IoT कहा जाएगा।


1

मशीन लर्निंग अधिक विशिष्ट है और इस क्षेत्र में आपको निम्नलिखित में महारत हासिल करने की आवश्यकता होगी:

  • सुविधाएँ बनाम लेबल
  • परीक्षण डेटा बनाम प्रशिक्षण डेटा
  • फ़ीचर सामान्यीकरण
  • सामान्य डेटा संरचनाएं (सरणियों के एरे)
  • फीचर चयन

0

मैं दिए गए किसी भी जवाब से असहमत नहीं हूं। हालांकि, मुझे लगता है कि डेटा साइंटिस्ट की एक भूमिका है जो लगभग सभी उत्तरों में यहाँ पर चमक रही है। इन उत्तरों में से अधिकांश के प्रभाव को कुछ कहते हैं, "ठीक है, एक इंजीनियर सिर्फ मॉडल लिखता है और दिखाता है।"। एक सेकंड में पकड़ो - उन दो चरणों में बहुत काम है!

डेटा साइंटिस्ट की मेरी मूल परिभाषा वह है जो डेटा के साथ काम करने के लिए वैज्ञानिक पद्धति को लागू करती है। इसलिए मैं हाइपोस्टेसिस के बारे में लगातार सोच रहा हूं, परीक्षण डिजाइन कर रहा हूं, अपने डेटा एकत्र कर रहा हूं और उन परीक्षणों को निष्पादित कर रहा हूं, मेरे क्रॉस सत्यापन परिणामों की जांच कर रहा हूं, नए दृष्टिकोणों की कोशिश कर रहा हूं, मेरे डेटा को बदल रहा हूं, आदि। यही अनिवार्य रूप से "बस लिखते हैं और मॉडल को तैनात करता है।" "एक पेशेवर सेटिंग में।

तो, आपके उत्तर के लिए, मुझे लगता है कि "शैतान विवरण में है" क्योंकि आप इनमें से कुछ चरणों / शर्तों पर सिर्फ चमक नहीं सकते। इसके अलावा, यदि आप नौकरी के शिकार हैं, तो आपको सावधान रहना चाहिए क्योंकि "डेटा इंजीनियर" और "डेटा वैज्ञानिक" के पास अलग-अलग वेतनमान हो सकते हैं - आप डेटा इंजीनियर वेतन पर डेटा वैज्ञानिक नहीं बनना चाहते हैं!

मैं हमेशा अपने आप को एक डेटा वैज्ञानिक के रूप में बाहर रखता हूं, मैं कंपनियों को बताता हूं कि मैं भविष्य कहनेवाला मॉडल (केवल विश्लेषणात्मक नहीं) पर काम करता हूं और मैं एक्सेल जॉकी नहीं हूं - मैं प्रोग्रामिंग भाषाओं (आर, पायथन, आदि) में लिखता हूं। यदि आप एक स्थिति पा सकते हैं कि आप उन दोनों को करते हैं, तो आप डेटा वैज्ञानिक होने के लिए अपने रास्ते पर हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.