यह एक बहुत बड़ा सवाल है, इसलिए इसका पूर्ण उत्तर देने का इरादा नहीं है, लेकिन उम्मीद है कि यह डेटा विज्ञान के लिए सबसे अच्छा उपकरण निर्धारित करने के लिए सामान्य अभ्यास को सूचित करने में मदद कर सकता है। आम तौर पर, मेरे पास योग्यता की एक अपेक्षाकृत छोटी सूची है जिसे मैं इस स्थान के किसी भी उपकरण के लिए देखता हूं। किसी विशेष क्रम में वे नहीं हैं:
- प्रदर्शन : मूल रूप से यह उबलता है कि भाषा कितनी जल्दी मैट्रिक्स गुणा करती है, क्योंकि यह डेटा विज्ञान में सबसे महत्वपूर्ण कार्य है।
- स्केलेबिलिटी : कम से कम मेरे लिए व्यक्तिगत रूप से, यह वितरित प्रणाली के निर्माण में आसानी के लिए आता है। यह कहीं न कहीं ऐसी भाषा है जहां
Juliaवास्तव में चमक आती है।
- समुदाय : किसी भी भाषा के साथ, आप वास्तव में एक सक्रिय समुदाय की तलाश कर रहे हैं जो आपकी मदद कर सकता है जब भी आप जिस भी उपकरण का उपयोग कर रहे हों। यह वह जगह है जहाँ
pythonअधिकांश अन्य भाषाओं से बहुत आगे है।
- लचीलापन : आपके द्वारा उपयोग की जाने वाली भाषा द्वारा सीमित होने से कुछ भी बुरा नहीं है। यह बहुत बार नहीं होता है, लेकिन इसमें ग्राफ संरचनाओं का प्रतिनिधित्व करने की कोशिश
haskellएक कुख्यात दर्द है, और Juliaइस तरह की युवा भाषा होने के परिणामस्वरूप बहुत सारे कोड आर्किटेक्चर दर्द से भर जाते हैं।
- उपयोग में आसानी : यदि आप एक बड़े वातावरण में कुछ का उपयोग करना चाहते हैं, तो आप यह सुनिश्चित करना चाहते हैं कि सेटअप एक सीधा है और इसे स्वचालित किया जा सकता है। आधा दर्जन मशीनों पर फाइनेंकी बिल्ड अप करने के लिए कुछ भी नहीं है।
वहाँ प्रदर्शन और मापनीयता के बारे में एक टन लेख हैं, लेकिन सामान्य तौर पर आप भाषाओं के बीच 5-10x के प्रदर्शन अंतर को देख सकते हैं, जो आपके विशिष्ट अनुप्रयोग के आधार पर हो सकता है या नहीं भी हो सकता है। जहाँ तक GPU त्वरण जाता है, cudamatयह वास्तव में एक सहज तरीका है जिसके साथ यह काम कर रहा है python, और cudaसामान्य रूप से पुस्तकालय ने GPU त्वरण को पहले की तुलना में कहीं अधिक सुलभ बना दिया है।
समुदाय और लचीलेपन दोनों के लिए मैं जिन दो प्राथमिक मेट्रिक्स का उपयोग करता हूं, वे भाषा के पैकेज मैनेजर और एसओ जैसी साइट पर भाषा के प्रश्नों को देखते हैं। यदि बड़ी संख्या में उच्च गुणवत्ता वाले प्रश्न और उत्तर हैं, तो यह एक अच्छा संकेत है कि समुदाय सक्रिय है। पैकेज की संख्या और उन पैकेजों पर सामान्य गतिविधि भी इस मीट्रिक के लिए एक अच्छा प्रॉक्सी हो सकती है।
जहां तक उपयोग में आसानी होती है, मैं एक दृढ़ विश्वास हूं कि वास्तव में जानने का एकमात्र तरीका वास्तव में इसे खुद को स्थापित करना है। बहुत सारे डेटा साइंस टूल के आसपास बहुत अधिक अंधविश्वास है, विशेष रूप से डेटाबेस जैसी चीजें और वितरित कंप्यूटिंग आर्किटेक्चर, लेकिन वास्तव में यह जानने का कोई तरीका नहीं है कि क्या कुछ आसान या कठिन है और बिना इसे बनाए खुद को बनाए रखना है।