मैं एक प्रोग्रामर हूं, मैं डेटा साइंस के क्षेत्र में कैसे पहुंचूं?


13

सबसे पहले यह शब्द बहुत अस्पष्ट लगता है।

वैसे भी..मैं एक सॉफ्टवेयर प्रोग्रामर हूं। मैं जिन भाषाओं को कोड कर सकता हूं उनमें से एक पायथन है। डेटा की बात करें तो मैं एसक्यूएल का उपयोग कर सकता हूं और डेटा स्क्रैपिंग कर सकता हूं। क्या मैं कई लेखों को पढ़ने के बाद अब तक पता लगा चुका हूं कि डेटा साइंस सब पर अच्छा है:

1- आँकड़े

2- बीजगणित

3- डेटा विश्लेषण

४- दृश्य।

5- मशीन लर्निंग।

मैं अब तक क्या जानता हूं:

1- पायथन प्रोग्रामिंग 2- पायथन में डेटा स्क्रैपिंग

क्या आप विशेषज्ञ मुझे गाइड कर सकते हैं या सिद्धांत और व्यावहारिक दोनों को समझने के लिए रोडमैप सुझा सकते हैं? मैंने खुद को लगभग 8 महीने का समय दिया है।


कृपया इस बारे में विशिष्ट रहें कि आप "क्या करना चाहते हैं"। न केवल क्षेत्र, बल्कि किस स्तर पर। उदाहरण के लिए-- "पेशेवर चिकित्सा पाठ खान में काम करनेवाला" या "शौकिया खगोल भौतिकी परीक्षक"
पीट

मैं कुछ ऐसा बनने के लिए तैयार हूं जो एक सलाहकार या एक कर्मचारी के रूप में काम कर सकता है जो कंपनियों के लिए अपने डेटा में खोदने और इसके बारे में जानकारी प्राप्त करने के लिए संपर्क कर सकता है।
Volatil3

(1) मशीन लर्निंग पर एंड्रयू का एनजी कोर्स; (2) डेटा से सीखने पर यासर अबू-मोस्तफा पाठ्यक्रम; दोनों सुलभ हैं (समय शामिल नहीं है) और आपको अच्छे स्तर की समझ मिलेगी।
व्लादिस्लाव डोवगलकेस


डाटा साइंस शब्द बहुत व्यापक है। हो सकता है कि आप सोच सकते हैं कि आप किस तरह की नौकरियां चाहते हैं, और किस कंपनी में काम करना चाहते हैं, उनकी आवश्यकताओं और जिम्मेदारियों को देखें। तब आपको पता चलेगा कि क्या नौकरी आपकी अपेक्षा और आपकी क्षमता के अंतर को पूरा करती है। यहां GOOGLE में डेटा वैज्ञानिक की आवश्यकता है। [[Google से डेटा वैज्ञानिक आवश्यकताएं ] ( i.stack.imgur.com/5KSN6.png )
Octoparse

जवाबों:


18

कौशल हासिल करने पर कम और अनुभव प्राप्त करने पर अधिक ध्यान दें। वास्तव में कुछ समस्याओं को हल करने की कोशिश करें और अपने काम को जीथब पर पोस्ट करें। आप इस प्रक्रिया में अधिक जानेंगे और ज्ञान और अनुभव को नियोक्ताओं को प्रदर्शित करने में सक्षम होंगे, जो किसी विषय या सिद्धांत की गहरी समझ होने की तुलना में बहुत अधिक मूल्यवान है।

डेटा साइंस इन दिनों काफी भरा हुआ क्षेत्र है, इसलिए मुझे यकीन नहीं है कि आप किस तरह का काम करना चाहते हैं, लेकिन यह मानना ​​कि मशीन लर्निंग इसका एक घटक है तो kaggle.com शुरू करने के लिए एक अच्छी जगह है। लक्ष्यों के संदर्भ में, यदि आप पंडों / सुन्न / डरपोक में डेटा के साथ काम करने में सक्षम हैं, तो विज्ञान किट में मॉडल बनाएं और समुद्री, ggplot या यहां तक ​​कि matplotlib में कुछ सुंदर रेखांकन बनाएं, तो आपको एक समस्या नहीं होगी कौशल के नजरिए से नौकरी - खासकर अगर आपके पास अपनी क्षमताओं को प्रदर्शित करने के लिए कोड नमूने और उदाहरण हैं। यदि आप अटक जाते हैं तो स्टैकटेक्चेंज के पास या तो उत्तर होगा या आप एक प्रश्न पोस्ट कर सकते हैं और आपके पास शीघ्र ही एक उत्तर होगा। एक बार जब आप एक जीविका के लिए काम कर रहे होते हैं, तो आप और भी अधिक सीखेंगे, संभवतः टीम के एक वरिष्ठ सदस्य से जो आपको सलाह देता है।

शुभकामनाएँ।


7

मुझे डेटा साइंस पर बर्कले कोर्स पसंद है, डेटा साइंस के लिए एक अच्छा आधार और स्वाद देगा, बाद में udacity और coursera में स्थानांतरित किया गया और कई और संसाधन। इसलिए यदि आपके पास प्रोग्रामिंग कौशल है, तो गणित और स्टेटमेंट और बहुत सारे विज़ुअलाइज़ेशन की आवश्यकता होगी। IPython के लिए उपयोग होने के लिए भी बहुत अच्छा होगा क्योंकि हर चरण को देखने के लिए आवश्यक है (कल्पना करें) कि यह पूरी स्क्रिप्ट लिखने के बजाय कैसा प्रदर्शन करता है और बाद में परीक्षण (एनाकोंडा स्थापित करना आसान है और साथ काम करना है)। कोर्स को सूचीबद्ध किया गया है bellow: bcourses.berkeley.edu/courses/1267848/wiki, एसएएस से भी अच्छा मुक्त पाठ्यक्रम ढूंढता है I सांख्यिकी: 1: एनोवा, रिग्रेशन और लॉजिस्टिक रिग्रेशन सपोर्ट का परिचय। sas.com/edu/schedules.html ? ctry = हमें और आईडी = 1979

एमएल के साथ शुरू करने की सिफारिश करेंगे: www.kaggle.com/c/titanic/details/getting-started-with-python

बाईं ओर धुरी तालिकाओं का उपयोग करते हुए एक्सेल के लिए भी है और आर। डेटाकैम्प ने आर का उपयोग करने के तरीके पर ट्यूटोरियल जारी किया है। एक बार जब आप अनुभव प्राप्त करने में अधिक प्रतियोगिताओं की तुलना में इस चरण को पूरा करते हैं, तो कागले (हाल ही में सैन फ्रांसिस्को अपराध वर्गीकरण के लिए जारी किया गया) और अंततः www.dataschool.io से अद्भुत वीडियो ट्यूटोरियल

आशा करता हूँ की ये काम करेगा ...


आपके उत्तर के लिए धन्यवाद। तुमने कैसे सीखा?
वोलेटिल 3

1
किताबें, ट्यूटोरियल ऑनलाइन और कोड पर बहुत सारे हाथ डेटा से खेलने से संबंधित हैं। Kaggle.com आज़माएँ और प्रतियोगिताओं को आज़माएँ। एमएल सीखना शुरू करने में महान है।
n1tk

और अंततः डेटा वैज्ञानिकों के एक समुदाय को खोजने और परियोजनाओं में भाग लेने का प्रयास करें, आप परियोजनाओं में साझा किए गए अनुभव को इतना लाभ प्राप्त करेंगे जो कोई भी किताबें नहीं सिखा सकती हैं।
n1tk

लेकिन मैं
स्टैटिक्स

मैं अपने विशेष मामले पर विचार कर रहा हूं जिसे मैंने स्कूल में वापस लौटाने और विश्लेषिकी और डेटा विज्ञान में पीएचडी कार्यक्रम में स्थानांतरित करने के लिए माना ... बड़े पैमाने पर डेटा के लिए पथरी 1,2, रैखिक बीजगणित, संख्यात्मक रेखीय बीजगणित, एसएएस, आर, गणित की आवश्यकता है। ग्राफ सिद्धांत और बहुत कुछ ...
n1tk

5

डेविड के साथ असहमत, एक सच्चे डेटा वैज्ञानिक एक लागू सांख्यिकीविद् है जो कोड और जानता है कि सही कारणों के लिए मशीन लर्निंग एल्गोरिदम का उपयोग कैसे करें। सांख्यिकी सभी डेटा विज्ञान का आधार है। यह प्रति से "केक" है। बाकी सब सिर्फ आइसिंग है।

सवाल यह है कि आप किस तरह के डेटा वैज्ञानिक बनना चाहते हैं? क्या आप इस विषय के मास्टर बनना चाहते हैं (कैसे, क्यों, कब और कब एक एल्गोरिथ्म या तकनीक को लागू करने के लिए नहीं) या एक कागेल स्क्रिप्ट किडी को सिप्पी का उपयोग करके और यह सोचकर कि वह एक डेटा वैज्ञानिक है?

1 - आँकड़े

2- सब कुछ


2
मुझे यकीन नहीं है कि तुम क्या कह रहे हो। मैंने कभी यह नहीं कहा कि "लागू आँकड़ों को जानना" महत्वपूर्ण नहीं है - मैंने केवल यह भेद किया है कि तरीकों को लागू करने के लिए सैद्धांतिक ज्ञान प्राप्त करने की तुलना में अनुभव प्राप्त करने के तरीकों को प्राप्त करना अधिक महत्वपूर्ण है।
डेविड

1
डेविड, यह बिल्कुल असहमति की मेरी बात थी। तरीकों के सैद्धांतिक ज्ञान के बिना खुद हम सिर्फ स्क्रिप्ट किडिज़ हैं। अनुभव महत्वपूर्ण है, लेकिन यह सैद्धांतिक ज्ञान का उप-उत्पाद है, न कि दूसरे तरीके से।
छिपे हुए मार्कोव मॉडल

2
नहीं, यह नहीं है। लागू अनुभव और सैद्धांतिक ज्ञान के बीच एक बड़ा अंतर है, यह अक्सर उद्योग बनाम कक्षा में प्राप्त होने वाले अंतर के बीच का अंतर है। उदाहरण के लिए, यह जानना अधिक मूल्यवान है कि प्रभावी रूप से यह सत्यापित करने के लिए कि किसी मॉडल ने लागू विधि की तरह क्रॉस-सत्यापन का उपयोग करके ओवरफिट नहीं किया है, यह नियमितीकरण के सैद्धांतिक आधारों को जानना है। इसके अलावा, कृपया "स्क्रिप्ट किड्स" का उल्लेख करना बंद कर दें - कोई भी कागल की नई और भयानक वन-क्लिक-टू-सबमिट कार्यक्षमता का उपयोग करने की वकालत नहीं कर रहा है।
डेविड

1
यदि आप जो कह रहे हैं वह सच है, तो कंपनियां पीएचडी और मास्टर्स डिग्री वाले लोगों को केवल बैचलर्स वाले लोगों पर क्यों पसंद करती हैं? इसका कारण यह है कि उन्हें तकनीकों का सैद्धांतिक ज्ञान है जो एल्गोरिदम को चलाते हैं। वे प्रति इंजन निर्माता हैं। सैद्धांतिक ज्ञान गहरा ज्ञान है। काग्ले स्क्रिप्ट किडीज़ के लिए एक होल्डिंग टैंक है।
छिपे हुए मार्कोव मॉडल

1
जबकि मैं देख सकता हूं कि आप दोनों को बनाने की कोशिश कर रहे हैं, मुझे लगता है कि यह शायद संदर्भ से बाहर है। मूल प्रश्न था 'डेटा साइंस में प्रोग्रामर नौकरी में कैसे बदलाव ला सकता है?' यदि प्रतिक्रिया 'सब कुछ छोड़ दें, कुछ साल पीएचडी के आंकड़े हासिल करने में बिताएं, तो कुछ प्रोजेक्ट अपने दम पर करें और फिर आवेदन करना शुरू करें', यह एक बहुत बड़ी बाधा है और आप उन्हें व्यावहारिक रूप से परेशान नहीं करने के लिए कह सकते हैं समझ। इसके विपरीत, स्टैट्स PHD (या यहां तक ​​कि मास्टर्स) की संख्या और देखने वाले लोगों की संख्या को देखते हुए, नियोक्ता ऐसे लोगों पर विचार कर सकते हैं जो बिना डिग्री के अनुभव का प्रदर्शन कर सकते हैं।
संतुष्ट करता है

4

यदि आप सच्चे ज्ञान के साथ व्यावहारिक व्यक्ति बनना चाहते हैं, तो गणित (पथरी, संभावना + स्टेट, लेलिनियर बीजगणित) से शुरू करें। हर कदम पर प्रोग्रामिंग के साथ सब कुछ लागू करने की कोशिश करें, इसके लिए अजगर अच्छा है। जब आप अच्छी जमीन प्राप्त करते हैं, तो वास्तविक आंकड़ों के साथ खेलते हैं और समस्याओं का समाधान करते हैं

पाठ्यक्रम। रेखीय बीजगणित - edx Laff या कोडिंग मैट्रिक्स स्टेट - edx stat 2x बार्कले पथरी - पढ़ें ... इसका सरल


2

डेविड के पास एक अच्छी बात है, मैं आपको सुझाव दूंगा कि वह जो भी हो, वह आपकी रुचि को अधिक बढ़ाए। यह हर तरह के प्रयास में सफल होने का एकमात्र तरीका है। अगर आप इसके साथ कुछ बेहतरीन शुरुआत करना चाहते हैं। अगर आप एक किताब पढ़ना चाहते हैं तो वह भी अच्छी है। प्रारंभिक बिंदु कोई फर्क नहीं पड़ता। कुछ दिन आगे आपको बेहतर समझ होगी कि आप क्या चाहते हैं और आगे क्या करना चाहिए।


1

डेटा साइंस इतना व्यापक है, इसमें आने के लिए कई अलग-अलग रास्ते हैं। यह आमतौर पर उदाहरण के लिए 4 या 5 विभिन्न प्रकारों में विभाजित किया जाता है:

यहाँ छवि विवरण दर्ज करें

आप इस विषय में अन्य पदों से एक अनुप्रयुक्त सांख्यिकी पृष्ठभूमि (सही एल्गोरिथ्म को लागू करने), प्रोग्रामिंग पृष्ठभूमि (कागले में भाग लेने वाले), और अन्य लोगों द्वारा इसे व्यावसायिक पृष्ठभूमि पर आने से देख सकते हैं

प्रेमी कंपनियां एक प्रोग्रामिंग तिरछे व्यक्ति को "डेटा इंजीनियर" के रूप में संदर्भित कर सकती हैं। बड़ी कंपनियां भी अपने डेटा विज्ञान टीम के लिए प्रत्येक प्रकार का उपयोग करती हैं, इसलिए अच्छे टी-आकार के कौशल का प्रदर्शन करना एक अच्छी बात होगी।


0

यदि आप एक प्रोग्रामर हैं, तो आप एक डिसीजन ट्री क्लासिफायर के साथ शुरुआत कर सकते हैं, एंट्रॉपी और सूचना-लाभ के पीछे के गणित को समझने पर ध्यान केंद्रित करें। यह समझना आवश्यक है कि एमएल केवल डेटा संपीड़न के बारे में है।

मैं व्यावहारिक पाठ्यक्रमों के मूल्य पर कुछ अन्य उत्तरों से बहुत असहमत हूँ। एमएल के लिए सबसे मूल्यवान गणित है: संख्या सिद्धांत, रैखिक बीजगणित और संभाव्यता सिद्धांत।

यदि आप गणित पर ध्यान केंद्रित नहीं करते हैं, तो केवल एक चीज जो आप सीखेंगे, वह यह है कि जादू करने के लिए कुछ पुस्तकालय का उपयोग कैसे करें, यह मशीन सीखना नहीं है और विज्ञान बिल्कुल नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.