ड्रू कॉनवे ने डेटा साइंस वेन डायग्राम प्रकाशित किया , जिसके साथ मैं दिल से सहमत हूं:
एक ओर, आपको वास्तव में उसकी पोस्ट को पढ़ना चाहिए। दूसरी ओर, मैं अपने स्वयं के अनुभव की पेशकश कर सकता हूं: मेरी विषय वस्तु विशेषज्ञता (जो मुझे "सब्स्टेंटिव एक्सपर्ट" की तुलना में एक शब्द के रूप में बेहतर लगती है, क्योंकि आपके पास गणित / सांख्यिकी और हैकिंग में वास्तव में "सब्स्टेंटिव एक्सपर्ट" भी होना चाहिए) खुदरा व्यापार, मेरे गणित / आँकड़े पूर्वानुमान और अनुमान के आँकड़े हैं, और मेरे हैकिंग कौशल आर में निहित हैं।
इस सहूलियत के बिंदु से, मैं खुदरा विक्रेताओं से बात कर सकता हूं और समझ सकता हूं, और जिस व्यक्ति को इस क्षेत्र का कम से कम ज्ञान नहीं है, उसे खुदरा विक्रेताओं के साथ एक परियोजना में एक मजबूत सीखने की अवस्था का सामना करना पड़ेगा । एक साइड टमटम के रूप में, मैं मनोविज्ञान में आंकड़े देता हूं, और यह बिल्कुल वैसा ही है। और यहां तक कि आरेख के गणित / सांख्यिकी भाग के कुछ ज्ञान के साथ, मेरे पास एक कठिन समय होगा कि मैं गति करूं, कहूं, क्रेडिट स्कोरिंग या कुछ अन्य नए विषय क्षेत्र।
एक बार जब आप गणित / आँकड़े और हैकिंग कौशल की एक निश्चित राशि है, यह है ज्यादा बेहतर जोड़ने में से एक या अधिक विषयों में एक ग्राउंडिंग प्राप्त करने के लिए अभी तक अपने हैकिंग कौशल के लिए एक और प्रोग्रामिंग भाषा, या अभी तकआपके गणित / सांख्यिकी पोर्टफोलियो में एक और मशीन लर्निंग एल्गोरिदम। आखिरकार, एक बार जब आपके पास एक ठोस गणित / आँकड़े / हैकिंग ग्राउंडिंग हो, तो आपको जरूरत पड़ सकती है कि आप वेब से या किसी सापेक्ष समय अवधि में पाठ्यपुस्तकों से ऐसे नए उपकरण सीख सकें। लेकिन विषय वस्तु विशेषज्ञता, दूसरी ओर, यदि आप शून्य से शुरू करते हैं, तो आप संभवतः खरोंच से सीख नहीं पाएंगे। और ग्राहक कुछ डेटा वैज्ञानिक ए के साथ काम करेंगे, जो एक अन्य डेटा वैज्ञानिक बी के साथ अपने विशिष्ट क्षेत्र को समझते हैं, जिन्हें पहले मूल बातें सीखने की जरूरत है - भले ही बी गणित / सांख्यिकी / हैकिंग में बेहतर हो।
बेशक, यह सब भी इसका मतलब होगा कि आप कभी भी तीनों क्षेत्रों में विशेषज्ञ नहीं बनेंगे । लेकिन यह ठीक है, क्योंकि आप एक डेटा वैज्ञानिक हैं, न कि प्रोग्रामर या सांख्यिकीविद या विषय विशेषज्ञ। हमेशा तीन अलग-अलग मंडलियों के लोग होंगे, जिनसे आप सीख सकते हैं। डेटा साइंस के बारे में मुझे क्या पसंद है, इसका एक हिस्सा है।
संपादित करें: थोड़ी देर और बाद में कुछ विचार, मैं इस पोस्ट को आरेख के एक नए संस्करण के साथ अपडेट करना चाहता हूं। मुझे अभी भी लगता है कि हैकिंग स्किल्स, मैथ एंड स्टैटिस्टिक्स नॉलेज एंड सब्स्टेंटिव एक्सपर्ट ("प्रोग्रामिंग", "स्टेटिस्टिक्स" और "बिजनेस" लेगबिलिटी के लिए छोटा है) महत्वपूर्ण हैं ... लेकिन मुझे लगता है कि कम्युनिकेशन की भूमिका महत्वपूर्ण है, भी। जब तक आप अपने हैकिंग, आँकड़े और व्यावसायिक विशेषज्ञता का लाभ नहीं उठाते हैं, तब तक आप जो कुछ नहीं करेंगे, जब तक आप उन्हें उन लोगों से संवाद नहीं करवाएँगे जिनके पास ज्ञान का अनूठा मिश्रण नहीं है। आपको एक व्यवसाय प्रबंधक को अपनी सांख्यिकीय अंतर्दृष्टि को समझाने की आवश्यकता हो सकती है जिसे पैसे खर्च करने या प्रक्रियाओं को बदलने के लिए आश्वस्त होने की आवश्यकता है। या एक प्रोग्रामर के लिए जो सांख्यिकीय रूप से नहीं सोचता है।
तो यहाँ नया डेटा विज्ञान वेन आरेख है, जिसमें एक अनिवार्य घटक के रूप में संचार भी शामिल है। मैंने क्षेत्रों को उन तरीकों से लेबल किया है जो अधिकतम फ्लेमिंग की गारंटी दें, जबकि याद रखना आसान हो।
दूर टिप्पणी करें।
आर कोड:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()