अलग-अलग लोग अलग-अलग चीजों के लिए अलग-अलग टूल का इस्तेमाल करते हैं। डेटा साइंस जैसे शब्द एक कारण से सामान्य हैं। एक डेटा वैज्ञानिक हडूप जैसे किसी विशेष उपकरण को सीखने के बिना एक संपूर्ण कैरियर खर्च कर सकता था। Hadoop का व्यापक रूप से उपयोग किया जाता है, लेकिन यह एकमात्र ऐसा प्लेटफ़ॉर्म नहीं है जो डेटा का प्रबंधन और हेरफेर करने में सक्षम है, यहां तक कि बड़े पैमाने पर डेटा भी।
मैं कहूंगा कि एक डेटा वैज्ञानिक को MapReduce, वितरित सिस्टम, वितरित फ़ाइल सिस्टम और जैसी अवधारणाओं से परिचित होना चाहिए, लेकिन मैं किसी को ऐसी चीजों के बारे में नहीं जानने के लिए न्याय नहीं करूंगा।
यह एक बड़ा क्षेत्र है। ज्ञान का एक समुद्र है और अधिकांश लोग एक ही बूंद में सीखने और विशेषज्ञ होने में सक्षम हैं। एक वैज्ञानिक होने की कुंजी सीखने की इच्छा है और यह जानने की प्रेरणा है कि आप पहले से ही नहीं जानते हैं।
एक उदाहरण के रूप में: मैं एक दशक में एक विशेष वर्ग में कक्षा के प्रदर्शन के बारे में जानकारी रखने वाले सही व्यक्ति को सौ संरचित सीएसवी फाइलें सौंप सकता हूं। एक डेटा साइंटिस्ट कई मशीनों में गणना फैलाने की आवश्यकता के बिना डेटा से एक साल की शानदार अंतर्दृष्टि खर्च करने में सक्षम होगा। आप मशीन लर्निंग एल्गोरिदम लागू कर सकते हैं, इसे विज़ुअलाइज़ेशन का उपयोग करके विश्लेषण कर सकते हैं, इसे बाहरी डेटा के साथ जोड़ सकते हैं क्षेत्र के बारे में, जातीय मेकअप, समय के साथ पर्यावरण में परिवर्तन, राजनीतिक जानकारी, मौसम के पैटर्न, आदि। ये सभी मेरी राय में "डेटा विज्ञान" होंगे। । यह कुछ भी हो सकता है जैसे कि आपने कक्षा के बजाय छात्रों के पूरे देश में डेटा के परीक्षण के लिए कुछ भी सीखा और लागू किया, लेकिन यह अंतिम चरण जरूरी नहीं कि किसी को डेटा वैज्ञानिक बना दे।