सांख्यिकी + कंप्यूटर विज्ञान = डेटा विज्ञान? [बन्द है]


10

मैं एक डेटा वैज्ञानिक बनना चाहता हूं । मैंने अनुप्रयुक्त सांख्यिकी (एक्चुअरल साइंस) का अध्ययन किया है , इसलिए मेरे पास एक महान सांख्यिकीय पृष्ठभूमि (प्रतिगमन, स्टोकेस्टिक प्रक्रिया, समय श्रृंखला, बस कुछ ही उल्लेख के लिए) है। लेकिन अब, मैं इंटेलिजेंट सिस्टम में कंप्यूटर साइंस फोकस में मास्टर डिग्री करने जा रहा हूं ।

यहाँ मेरी अध्ययन योजना है:

  • मशीन लर्निंग
  • उन्नत मशीन लर्निंग
  • डेटा माइनिंग
  • अस्पष्ट तर्क
  • सिफारिश प्रणाली
  • वितरित डेटा सिस्टम
  • क्लाउड कंप्यूटिंग
  • ज्ञान की खोज
  • व्यापारिक सूचना
  • सूचना पुनर्प्राप्ति
  • टेक्स्ट खनन

अंत में, मेरे सभी सांख्यिकीय और कंप्यूटर विज्ञान ज्ञान के साथ, क्या मैं खुद को डेटा वैज्ञानिक कह सकता हूं? , या मैं गलत हूँ?

जवाब के लिए धन्यवाद।



यह सवाल ऑफ-टॉपिक प्रतीत होता है क्योंकि यह करियर सलाह के बारे में है। कैरियर सलाह को राय-उन्मुख, व्यापक प्रश्नों या कभी-कभी अत्यंत प्रतिबंधित प्रश्नों के परिणामस्वरूप सिद्ध किया गया है, जिसके अधिकांश परिणाम उपयोगी प्रवचन नहीं हैं। यदि आप इस राय से असहमत हैं, तो कृपया डेटा साइंस मेटा पर इस मुद्दे को उठाएं ।
एशेशर

संक्षेप में, नहीं। डेटा + वैज्ञानिक विधि = डेटा विज्ञान :-)। बाकी सब कुछ सिर्फ एक कार्यप्रणाली है
I_Play_With_Data

जवाबों:


1

मुझे लगता है कि आप विशेषज्ञ डेटा वैज्ञानिक बनने की दिशा में सही रास्ते पर हैं । हाल ही में मैंने डेटा साइंस स्टैकएक्सचेंज पर संबंधित प्रश्न का उत्तर दिया है: https://datascience.stackexchange.com/a/742/2452 ( मेरे द्वारा बताई गई परिभाषा पर ध्यान दें , क्योंकि यह अनिवार्य रूप से आपके प्रश्न का उत्तर देता है, साथ ही साथ) सॉफ्टवेयर इंजीनियरिंग का अभ्यास करने और वास्तविक दुनिया की समस्याओं को हल करने के लिए ज्ञान लागू करने के पहलू )। मुझे उम्मीद है कि आपको वह सब उपयोगी मिलेगा। आपके करियर में गुड लक!


9

वैसे यह इस बात पर निर्भर करता है कि आप "डेटा साइंस" किस तरह से प्राप्त करना चाहते हैं। बुनियादी विश्लेषण और रिपोर्टिंग के आंकड़ों के लिए निश्चित रूप से मदद मिलेगी, लेकिन मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के लिए तो आप कुछ और कौशल चाहते हैं

  • संभाव्यता सिद्धांत - आपके पास शुद्ध संभाव्यता में एक ठोस पृष्ठभूमि होनी चाहिए ताकि आप किसी भी समस्या का विघटन कर सकें, चाहे पहले देखा जाए या नहीं, संभाव्य सिद्धांतों में। पहले से हल की गई समस्याओं के लिए आंकड़े बहुत मदद करते हैं, लेकिन नई और अनसुलझी समस्याओं के लिए संभाव्यता की गहरी समझ की आवश्यकता होती है ताकि आप उपयुक्त तकनीकों को डिजाइन कर सकें।

  • सूचना सिद्धांत - यह (आंकड़ों के सापेक्ष) काफी नया क्षेत्र है (हालांकि अभी भी दशकों पुराना है), सबसे महत्वपूर्ण काम शैनन द्वारा किया गया था, लेकिन साहित्य में इससे भी अधिक महत्वपूर्ण और अक्सर उपेक्षित नोट हॉबसन द्वारा काम किया गया है, जिसने साबित किया कि कुल्बैक-लेवेलर डाइवर्जेंस केवल गणितीय परिभाषा है जो "सूचना के माप" की धारणा को सही मायने में पकड़ती है । अब मौलिक से कृत्रिम अंतर्ज्ञान तक जानकारी को निर्धारित करने में सक्षम हो रहा है। "सांख्यिकीय यांत्रिकी में अवधारणाओं" को पढ़ने का सुझाव दें - आर्थर होब्सन (बहुत महंगी पुस्तक, केवल शैक्षणिक पुस्तकालयों में उपलब्ध)।

  • जटिलता सिद्धांत- एक बड़ी समस्या कई डेटा वैज्ञानिकों का सामना करना पड़ता है जिनके पास एक ठोस जटिलता सिद्धांत पृष्ठभूमि नहीं है, यह है कि उनके एल्गोरिदम पैमाने पर नहीं होते हैं, या बस बड़े डेटा पर चलने के लिए एक बहुत लंबा समय लगता है। उदाहरण के लिए, पीसीए को लें, साक्षात्कार के सवाल पर कई लोगों का पसंदीदा जवाब "आप हमारे डेटासेट में सुविधाओं की संख्या को कैसे कम करते हैं", लेकिन भले ही आप उम्मीदवार को "डेटा सेट वास्तव में वास्तव में बहुत बड़ा है" बताते हैं, फिर भी वे विभिन्न रूपों का प्रस्ताव करते हैं पीसीए जो ओ (एन ^ 3) हैं। यदि आप बाहर खड़े होना चाहते हैं, तो आप प्रत्येक समस्या को स्वयं हल करने में सक्षम होना चाहते हैं, बिग डेटा ऐसी एक हिप चीज़ होने से बहुत पहले डिज़ाइन किए गए कुछ टेक्स्ट बुक समाधान को फेंक नहीं सकते हैं। इसके लिए आपको यह समझने की आवश्यकता है कि सैद्धांतिक रूप से ही नहीं, बल्कि व्यावहारिक रूप से कितनी देर चलने वाली चीजें हैं - इसलिए एल्गोरिथ्म को वितरित करने के लिए कंप्यूटर के क्लस्टर का उपयोग कैसे करें

  • कम्युनिकेशन स्किल्स - डेटा साइंस का बहुत बड़ा हिस्सा बिजनेस को समझ रहा है। चाहे वह डेटा विज्ञान द्वारा संचालित उत्पाद का आविष्कार कर रहा हो, या डेटा विज्ञान द्वारा संचालित व्यावसायिक अंतर्दृष्टि दे रहा हो, परियोजना और उत्पाद प्रबंधक, तकनीक टीमों, और आपके साथी डेटा वैज्ञानिकों दोनों के साथ अच्छी तरह से संवाद करने में सक्षम होना बहुत महत्वपूर्ण है। आपके पास एक अद्भुत विचार हो सकता है, एक भयानक एआई समाधान कह सकते हैं, लेकिन यदि आप प्रभावी रूप से (ए) क्यों नहीं बता सकते हैं जो कि व्यापार को पैसा देगा, (बी) आपके कोलीगनों को आश्वस्त करता है कि यह काम करेगा और (ग) तकनीकी लोगों को बताएं कि आपको कैसे ज़रूरत है उनकी मदद से इसे बनाने के लिए, तो यह नहीं किया जाएगा।


6

डेटा वैज्ञानिक (मेरे लिए) एक बड़ा छाता शब्द। मैं एक डेटा वैज्ञानिक को एक ऐसे व्यक्ति के रूप में देखूंगा जो डेटा माइनिंग, मशीन लर्निंग, पैटर्न वर्गीकरण और सांख्यिकी के क्षेत्रों से तकनीकों का उपयोग कर सकता है।

हालाँकि, उन शब्दों को आपस में जोड़ा गया है: मशीन लर्निंग को पैटर्न वर्गीकरण के साथ जोड़ा जाता है, और जब डेटा में पैटर्न की बात आती है, तो डेटा माइनिंग ओवरलैप भी होता है। और सभी तकनीकों में उनके अंतर्निहित सांख्यिकीय सिद्धांत हैं। मैं हमेशा एक विशाल चौराहे के साथ वेन आरेख के रूप में चित्र बनाता हूं।

कंप्यूटर विज्ञान उन सभी क्षेत्रों से भी संबंधित है। मैं कहूंगा कि आपको कंप्यूटर-वैज्ञानिक अनुसंधान करने के लिए "डेटा साइंस" तकनीकों की आवश्यकता है, लेकिन कंप्यूटर विज्ञान ज्ञान "डेटा साइंस" में निहित नहीं है। हालांकि, प्रोग्रामिंग कौशल - मैं प्रोग्रामिंग और कंप्यूटर विज्ञान को विभिन्न व्यवसायों के रूप में देखता हूं, जहां प्रोग्रामिंग समस्याओं को हल करने के लिए अधिक उपकरण है - डेटा के साथ काम करने और डेटा विश्लेषण करने के लिए भी महत्वपूर्ण है।

आपके पास एक बहुत अच्छी अध्ययन योजना है, और यह सब समझ में आता है। लेकिन मुझे यकीन नहीं है कि अगर आप "खुद को सिर्फ" डेटा वैज्ञानिक "कहना चाहते हैं, तो मुझे यह धारणा है कि" डेटा वैज्ञानिक "एक ऐसा अस्पष्ट शब्द है जिसका अर्थ सब कुछ या कुछ भी हो सकता है। मैं जो बताना चाहता हूं, वह यह है कि आप एक डेटा वैज्ञानिक की तुलना में कुछ अधिक - विशेष "विशिष्ट" होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.