मैं एक R
भाषा प्रोग्रामर हूं । मैं उन लोगों के समूह में भी हूं, जिन्हें डेटा वैज्ञानिक माना जाता है, लेकिन जो सीएस के अलावा अन्य शैक्षणिक विषयों से आते हैं।
यह एक डेटा साइंटिस्ट के रूप में मेरी भूमिका में अच्छी तरह से काम करता है, हालांकि, अपना करियर शुरू करने R
और केवल अन्य स्क्रिप्टिंग / वेब भाषाओं का बुनियादी ज्ञान होने से, मैंने 2 प्रमुख क्षेत्रों में कुछ हद तक अपर्याप्त महसूस किया है:
- प्रोग्रामिंग सिद्धांत के एक ठोस ज्ञान का अभाव।
- तेजी से और अधिक व्यापक रूप से इस्तेमाल की जाने वाली भाषाओं में कौशल के प्रतिस्पर्धी स्तर का अभाव
C
,C++
औरJava
, जिसका उपयोग पाइपलाइन और बिग डेटा संगणना की गति बढ़ाने के लिए और साथ ही डीएस / डेटा उत्पादों को बनाने के लिए किया जा सकता है जो अधिक आसानी से तेजी से विकसित हो सकते हैं। बैक-एंड स्क्रिप्ट या स्टैंडअलोन एप्लिकेशन।
समाधान सरल है - प्रोग्रामिंग के बारे में जानें, जो कि मैं कुछ कक्षाओं (वर्तमान में सी प्रोग्रामिंग) में नामांकन करके कर रहा हूं।
हालांकि, अब है कि मैं पता समस्याओं # 1 और ऊपर # 2 के लिए शुरू कर, मैं छोड़ दिया अपने आप पूछ रहा हूँ " कितना व्यवहार्य तरह भाषाएं हैं C
और C++
डाटा विज्ञान के लिए? "।
उदाहरण के लिए, मैं बहुत तेज़ी से चारों ओर डेटा स्थानांतरित कर सकता हूं और उपयोगकर्ताओं के साथ बातचीत कर सकता हूं, लेकिन उन्नत प्रतिगमन, मशीन लर्निंग, टेक्स्ट माइनिंग और अन्य उन्नत सांख्यिकीय संचालन के बारे में क्या?
इसलिए। C
नौकरी कर सकते हैं - उन्नत सांख्यिकी, एमएल, एआई और डेटा साइंस के अन्य क्षेत्रों के लिए कौन से उपकरण उपलब्ध हैं? या मुझे स्क्रिप्ट या अन्य भाषाओं C
पर कॉल करके प्रोग्रामिंग द्वारा प्राप्त की गई अधिकांश दक्षता ढीली करनी चाहिए R
?
सबसे अच्छा संसाधन मैं अब तक सी में मिल गया है एक पुस्तकालय कहा जाता है शार्क , जो देता है C
/ C++
समर्थन वेक्टर मशीनें, रेखीय प्रतीपगमन (नहीं गैर रेखीय और बहुपद PROBIT जैसे अन्य उन्नत प्रतिगमन, आदि) और अन्य की एक शॉर्टलिस्ट उपयोग करने की क्षमता (महान लेकिन) सांख्यिकीय कार्य।