यह एक बहुत बड़ा सवाल है, इसलिए इसका पूर्ण उत्तर देने का इरादा नहीं है, लेकिन उम्मीद है कि यह डेटा विज्ञान के लिए सबसे अच्छा उपकरण निर्धारित करने के लिए सामान्य अभ्यास को सूचित करने में मदद कर सकता है। आम तौर पर, मेरे पास योग्यता की एक अपेक्षाकृत छोटी सूची है जिसे मैं इस स्थान के किसी भी उपकरण के लिए देखता हूं। किसी विशेष क्रम में वे नहीं हैं:
- प्रदर्शन : मूल रूप से यह उबलता है कि भाषा कितनी जल्दी मैट्रिक्स गुणा करती है, क्योंकि यह डेटा विज्ञान में सबसे महत्वपूर्ण कार्य है।
- स्केलेबिलिटी : कम से कम मेरे लिए व्यक्तिगत रूप से, यह वितरित प्रणाली के निर्माण में आसानी के लिए आता है। यह कहीं न कहीं ऐसी भाषा है जहां
Julia
वास्तव में चमक आती है।
- समुदाय : किसी भी भाषा के साथ, आप वास्तव में एक सक्रिय समुदाय की तलाश कर रहे हैं जो आपकी मदद कर सकता है जब भी आप जिस भी उपकरण का उपयोग कर रहे हों। यह वह जगह है जहाँ
python
अधिकांश अन्य भाषाओं से बहुत आगे है।
- लचीलापन : आपके द्वारा उपयोग की जाने वाली भाषा द्वारा सीमित होने से कुछ भी बुरा नहीं है। यह बहुत बार नहीं होता है, लेकिन इसमें ग्राफ संरचनाओं का प्रतिनिधित्व करने की कोशिश
haskell
एक कुख्यात दर्द है, और Julia
इस तरह की युवा भाषा होने के परिणामस्वरूप बहुत सारे कोड आर्किटेक्चर दर्द से भर जाते हैं।
- उपयोग में आसानी : यदि आप एक बड़े वातावरण में कुछ का उपयोग करना चाहते हैं, तो आप यह सुनिश्चित करना चाहते हैं कि सेटअप एक सीधा है और इसे स्वचालित किया जा सकता है। आधा दर्जन मशीनों पर फाइनेंकी बिल्ड अप करने के लिए कुछ भी नहीं है।
वहाँ प्रदर्शन और मापनीयता के बारे में एक टन लेख हैं, लेकिन सामान्य तौर पर आप भाषाओं के बीच 5-10x के प्रदर्शन अंतर को देख सकते हैं, जो आपके विशिष्ट अनुप्रयोग के आधार पर हो सकता है या नहीं भी हो सकता है। जहाँ तक GPU त्वरण जाता है, cudamat
यह वास्तव में एक सहज तरीका है जिसके साथ यह काम कर रहा है python
, और cuda
सामान्य रूप से पुस्तकालय ने GPU त्वरण को पहले की तुलना में कहीं अधिक सुलभ बना दिया है।
समुदाय और लचीलेपन दोनों के लिए मैं जिन दो प्राथमिक मेट्रिक्स का उपयोग करता हूं, वे भाषा के पैकेज मैनेजर और एसओ जैसी साइट पर भाषा के प्रश्नों को देखते हैं। यदि बड़ी संख्या में उच्च गुणवत्ता वाले प्रश्न और उत्तर हैं, तो यह एक अच्छा संकेत है कि समुदाय सक्रिय है। पैकेज की संख्या और उन पैकेजों पर सामान्य गतिविधि भी इस मीट्रिक के लिए एक अच्छा प्रॉक्सी हो सकती है।
जहां तक उपयोग में आसानी होती है, मैं एक दृढ़ विश्वास हूं कि वास्तव में जानने का एकमात्र तरीका वास्तव में इसे खुद को स्थापित करना है। बहुत सारे डेटा साइंस टूल के आसपास बहुत अधिक अंधविश्वास है, विशेष रूप से डेटाबेस जैसी चीजें और वितरित कंप्यूटिंग आर्किटेक्चर, लेकिन वास्तव में यह जानने का कोई तरीका नहीं है कि क्या कुछ आसान या कठिन है और बिना इसे बनाए खुद को बनाए रखना है।