मुझे पहले स्पष्ट करना चाहिए कि मैं एक प्रोग्रामर और डेटाबेस डेवलपर के दृष्टिकोण से डेटा विज्ञान में अपनी यात्रा शुरू कर रहा हूं। मैं 10 साल का डेटा साइंस विशेषज्ञ नहीं हूं और न ही कोई सांख्यिकीय ईश्वर। हालांकि, मैं एक कंपनी के लिए डेटा वैज्ञानिक और बड़े डेटासेट काम करता हूं जो दुनिया भर में बड़े ग्राहकों के साथ काम करता है।
मेरे अनुभव से, डेटा वैज्ञानिक काम करने के लिए जो भी उपकरण की आवश्यकता होती है उसका उपयोग करते हैं। एक्सेल, आर, एसएएस, पायथन और अधिक सभी अच्छे डेटा वैज्ञानिक के लिए एक टूलबॉक्स में उपकरण हैं। डेटा का विश्लेषण और क्रंच करने के लिए सबसे अच्छे उपकरण का उपयोग किया जा सकता है।
इसलिए, यदि आप अपने आप को आर की तुलना पायथन से करते हैं, तो आप डेटा विज्ञान की दुनिया में यह सब गलत कर रहे हैं। अच्छा डेटा वैज्ञानिक दोनों का उपयोग करते हैं जब यह दूसरे पर एक का उपयोग करने के लिए समझ में आता है। यह एक्सेल पर भी लागू होता है।
मुझे लगता है कि यह बहुत मुश्किल है कि कोई भी ऐसा हो जो इतने सारे अलग-अलग साधनों और भाषाओं में अनुभव करने वाला हो, जबकि वह हर चीज में महान हो। मुझे यह भी लगता है कि यह विशेष रूप से डेटा वैज्ञानिक को खोजने के लिए कठिन होने जा रहा है जो न केवल जटिल एल्गोरिदम को प्रोग्राम कर सकते हैं, बल्कि यह भी जान सकते हैं कि उन्हें सांख्यिकीय दृष्टिकोण से भी कैसे उपयोग किया जाए।
मैंने जितने डेटा साइंटिस्ट के साथ काम किया है उनमें से लगभग 2 फ्लेवर में आए हैं। वे जो प्रोग्राम कर सकते हैं और जो नहीं कर सकते हैं। मैं शायद ही कभी डेटा वैज्ञानिक के साथ काम करता हूं जो पायथन में डेटा खींच सकता है, इसे पंडों की तरह कुछ के साथ हेरफेर कर सकता है, आर में डेटा के लिए एक मॉडल फिट कर सकता है और फिर इसे सप्ताह के अंत में प्रबंधन के लिए प्रस्तुत कर सकता है।
मेरा मतलब है, मुझे पता है कि वे मौजूद हैं। मैंने वेब स्क्रैपर विकसित करने वाले लोगों के कई डेटा साइंस ब्लॉग पढ़े हैं, इसे Hadoop में धकेला, इसे पायथन में वापस लाया, जटिल चीजों को प्रोग्रामिंग किया और R से बूट के माध्यम से इसे चलाया। वे जीवित हैं। वे वहाँ बाहर हैं। मैं अभी बहुत ज्यादा नहीं भागा हूँ जो यह सब कर सके। शायद यह सिर्फ मेरा क्षेत्र है?
तो, इसका मतलब यह है कि केवल एक चीज खराब में विशेषज्ञता है? नहीं। मेरे बहुत सारे दोस्त सिर्फ एक मुख्य भाषा के विशेषज्ञ हैं और इसे मार देते हैं। मैं बहुत से डेटा लोगों को जानता हूं जो केवल आर को जानते हैं और इसे मारते हैं। मैं बहुत से ऐसे लोगों को भी जानता हूं जो केवल डेटा का विश्लेषण करने के लिए एक्सेल का उपयोग करते हैं क्योंकि केवल एक चीज है जो अधिकांश गैर-डेटा वैज्ञानिक खोल सकते हैं और उपयोग कर सकते हैं (विशेष रूप से बी 2 बी कंपनियों में)। जिस प्रश्न का आपको वास्तव में उत्तर देने की आवश्यकता है, वह यह है कि क्या यह एक चीज़ है जो आपको इस पद के लिए चाहिए? और सबसे महत्वपूर्ण बात, क्या वे नई चीजें सीख सकते हैं?
पुनश्च
डेटा विज्ञान केवल "BIG DATA" या NoSQL तक ही सीमित नहीं है।