एक विशिष्ट विषय के ज्ञान के बिना डेटा विज्ञान, क्या यह कैरियर के रूप में आगे बढ़ने के लायक है? [बन्द है]


15

मैंने हाल ही में किसी के साथ एक बातचीत की और डेटा विश्लेषण में मेरी रुचि का उल्लेख किया और जिसे मैं आवश्यक कौशल और उपकरण सीखने का इरादा था। उन्होंने मुझे सुझाव दिया कि जब उपकरणों को सीखना और कौशल का निर्माण करना बहुत अच्छा है, तो ऐसा करने का बहुत कम बिंदु है जब तक कि मुझे किसी विशिष्ट क्षेत्र में विशेष ज्ञान न हो।

उन्होंने मूल रूप से यह उल्लेख किया है कि मैं सिर्फ एक उपकरण के ढेर के साथ एक बिल्डर की तरह होऊंगा जो कुछ लकड़ी के बक्से का निर्माण कर सकता है और बेहतर चीजें (केबिन, अलमारी आदि) का निर्माण कर सकता है, लेकिन एक विशिष्ट क्षेत्र में ज्ञान के बिना मैं कभी नहीं बनूंगा। एक बिल्डर लोग एक विशिष्ट उत्पाद के लिए आएंगे।

क्या किसी को यह मिला है या इस बारे में कोई इनपुट है कि इसे क्या बनाया जाए? ऐसा लगता है कि अगर यह सच था तो चीजों के डेटा विज्ञान पहलुओं को सीखना होगा और फिर विशेष बनने के लिए एक नया क्षेत्र सीखना होगा।


जबकि आपका प्रश्न वैध है, यह इसके लिए सही जगह नहीं है। करियर से जुड़े सवालों को टॉपिक माना जाता है।
शेल्डोन्क्रेगर

यह स्पष्ट नहीं है कि आप क्या पूछ रहे हैं - क्या उपकरण सीखना या डोमेन ज्ञान इकट्ठा करना बेहतर है? शायद StackExchange के लिए बहुत खुले और राय-आधारित हैं।
सीन ओवेन

जवाबों:


43

ड्रू कॉनवे ने डेटा साइंस वेन डायग्राम प्रकाशित किया , जिसके साथ मैं दिल से सहमत हूं:

डेटा विज्ञान वेन आरेख

एक ओर, आपको वास्तव में उसकी पोस्ट को पढ़ना चाहिए। दूसरी ओर, मैं अपने स्वयं के अनुभव की पेशकश कर सकता हूं: मेरी विषय वस्तु विशेषज्ञता (जो मुझे "सब्स्टेंटिव एक्सपर्ट" की तुलना में एक शब्द के रूप में बेहतर लगती है, क्योंकि आपके पास गणित / सांख्यिकी और हैकिंग में वास्तव में "सब्स्टेंटिव एक्सपर्ट" भी होना चाहिए) खुदरा व्यापार, मेरे गणित / आँकड़े पूर्वानुमान और अनुमान के आँकड़े हैं, और मेरे हैकिंग कौशल आर में निहित हैं।

इस सहूलियत के बिंदु से, मैं खुदरा विक्रेताओं से बात कर सकता हूं और समझ सकता हूं, और जिस व्यक्ति को इस क्षेत्र का कम से कम ज्ञान नहीं है, उसे खुदरा विक्रेताओं के साथ एक परियोजना में एक मजबूत सीखने की अवस्था का सामना करना पड़ेगा । एक साइड टमटम के रूप में, मैं मनोविज्ञान में आंकड़े देता हूं, और यह बिल्कुल वैसा ही है। और यहां तक ​​कि आरेख के गणित / सांख्यिकी भाग के कुछ ज्ञान के साथ, मेरे पास एक कठिन समय होगा कि मैं गति करूं, कहूं, क्रेडिट स्कोरिंग या कुछ अन्य नए विषय क्षेत्र।

एक बार जब आप गणित / आँकड़े और हैकिंग कौशल की एक निश्चित राशि है, यह है ज्यादा बेहतर जोड़ने में से एक या अधिक विषयों में एक ग्राउंडिंग प्राप्त करने के लिए अभी तक अपने हैकिंग कौशल के लिए एक और प्रोग्रामिंग भाषा, या अभी तकआपके गणित / सांख्यिकी पोर्टफोलियो में एक और मशीन लर्निंग एल्गोरिदम। आखिरकार, एक बार जब आपके पास एक ठोस गणित / आँकड़े / हैकिंग ग्राउंडिंग हो, तो आपको जरूरत पड़ सकती है कि आप वेब से या किसी सापेक्ष समय अवधि में पाठ्यपुस्तकों से ऐसे नए उपकरण सीख सकें। लेकिन विषय वस्तु विशेषज्ञता, दूसरी ओर, यदि आप शून्य से शुरू करते हैं, तो आप संभवतः खरोंच से सीख नहीं पाएंगे। और ग्राहक कुछ डेटा वैज्ञानिक ए के साथ काम करेंगे, जो एक अन्य डेटा वैज्ञानिक बी के साथ अपने विशिष्ट क्षेत्र को समझते हैं, जिन्हें पहले मूल बातें सीखने की जरूरत है - भले ही बी गणित / सांख्यिकी / हैकिंग में बेहतर हो।

बेशक, यह सब भी इसका मतलब होगा कि आप कभी भी तीनों क्षेत्रों में विशेषज्ञ नहीं बनेंगे । लेकिन यह ठीक है, क्योंकि आप एक डेटा वैज्ञानिक हैं, न कि प्रोग्रामर या सांख्यिकीविद या विषय विशेषज्ञ। हमेशा तीन अलग-अलग मंडलियों के लोग होंगे, जिनसे आप सीख सकते हैं। डेटा साइंस के बारे में मुझे क्या पसंद है, इसका एक हिस्सा है।


संपादित करें: थोड़ी देर और बाद में कुछ विचार, मैं इस पोस्ट को आरेख के एक नए संस्करण के साथ अपडेट करना चाहता हूं। मुझे अभी भी लगता है कि हैकिंग स्किल्स, मैथ एंड स्टैटिस्टिक्स नॉलेज एंड सब्स्टेंटिव एक्सपर्ट ("प्रोग्रामिंग", "स्टेटिस्टिक्स" और "बिजनेस" लेगबिलिटी के लिए छोटा है) महत्वपूर्ण हैं ... लेकिन मुझे लगता है कि कम्युनिकेशन की भूमिका महत्वपूर्ण है, भी। जब तक आप अपने हैकिंग, आँकड़े और व्यावसायिक विशेषज्ञता का लाभ नहीं उठाते हैं, तब तक आप जो कुछ नहीं करेंगे, जब तक आप उन्हें उन लोगों से संवाद नहीं करवाएँगे जिनके पास ज्ञान का अनूठा मिश्रण नहीं है। आपको एक व्यवसाय प्रबंधक को अपनी सांख्यिकीय अंतर्दृष्टि को समझाने की आवश्यकता हो सकती है जिसे पैसे खर्च करने या प्रक्रियाओं को बदलने के लिए आश्वस्त होने की आवश्यकता है। या एक प्रोग्रामर के लिए जो सांख्यिकीय रूप से नहीं सोचता है।

तो यहाँ नया डेटा विज्ञान वेन आरेख है, जिसमें एक अनिवार्य घटक के रूप में संचार भी शामिल है। मैंने क्षेत्रों को उन तरीकों से लेबल किया है जो अधिकतम फ्लेमिंग की गारंटी दें, जबकि याद रखना आसान हो।

दूर टिप्पणी करें।

नया डेटा विज्ञान वेन आरेख

आर कोड:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
मैं आपके अपडेट किए गए आरेख को संदर्भित करते हुए एक ब्लॉग पोस्ट द्वारा यहां लाया गया था। मुझे लगता है कि यह मूल कॉनवे संस्करण पर एक बड़ा सुधार है, हालांकि मैं ओवरलैप के आकार से निहित धारणा - काफी अतीत नहीं पा सकता हूं - कि सांख्यिकी प्रो सांख्यिकी और संचार में समान कौशल वाला व्यक्ति है।
रॉबर्ट डी ग्रेफ

1

जरूर आप कर सकते हो। कंपनियां डेटा वैज्ञानिकों के लिए संघर्ष कर रही हैं। हालांकि सावधान रहें कि वे सभी अलग-अलग शब्द की व्याख्या करते हैं। कंपनी पर निर्भर करता है कि आप खुद को उत्पादन कोड लिखने के लिए सांख्यिकी से कुछ भी करने के लिए कह सकते हैं। या तो एक अपने आप में एक पूर्णकालिक काम है और आपको दोनों के लिए तैयार रहना है, इसलिए उसके शीर्ष पर गहन विशेष ज्ञान के लिए पूछना उचित नहीं है, मेरी राय में, और जिन कंपनियों से मैंने बात की है, वे अन्य दो क्षेत्रों पर जोर दिया है ( esp। प्रोग्रामिंग)। हालांकि, मैंने पाया कि यह उन समस्याओं के प्रकारों से परिचित होने में मदद करता है, जिनका आप सामना कर सकते हैं। क्षेत्र के आधार पर, यह विसंगति का पता लगाने, सिफारिश / वैयक्तिकरण, भविष्यवाणी, रिकॉर्ड लिंकेज आदि हो सकता है। ये ऐसी चीजें हैं जो आप गणित और प्रोग्रामिंग के रूप में एक ही समय में उदाहरण के रूप में सीख सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.