मुक्त स्रोत डेटा विज्ञान परियोजनाओं का योगदान करने के लिए


15

खुले स्रोत परियोजनाओं में योगदान आम तौर पर newbies के लिए कुछ अभ्यास प्राप्त करने और अनुभवी डेटा वैज्ञानिकों और विश्लेषकों के लिए एक नए क्षेत्र का प्रयास करने का एक अच्छा तरीका है।

आप किन परियोजनाओं में योगदान करते हैं? कृपया जीथब पर कुछ परिचय + लिंक प्रदान करें।


2
ELKI (गिथब, जावा पर; विकिपीडिया भी देखें) देखें। मैं इसे बहुत उपयोग करता हूं क्योंकि यह क्लस्टरिंग और विसंगति का पता लगाने के लिए सबसे पूर्ण परियोजना है; और आमतौर पर आर की तुलना में तेजी से रास्ता भी।
क्विट है - ऐनी-मूस

जवाबों:


15

जूलिया परियोजना है जो मैं सक्रिय रूप से उन्नत कंप्यूटिंग और XGBoost पुस्तकालयों सहित, के लिए योगदान है। इसलिए, मैं निश्चित रूप से इसके रखरखाव और समुदाय की गुणवत्ता के लिए प्रतिज्ञा कर सकता हूं।

कुछ वास्तव में अच्छे ओपन सोर्स डेटा विज्ञान परियोजनाएं, जहां शुरुआती भी योगदान दे सकते हैं:

  • स्केलेर : हमेशा तीव्र गति से विकसित हो रहा है, स्केलेर समुदाय हमेशा नए डेवलपर्स और योगदानकर्ताओं के लिए खुला है।
  • H2O : H2O एक और तेजी से बढ़ने वाली डेटा विज्ञान परियोजना है, जो स्केलेबल मशीन लर्निंग और डीप लर्निंग समाधान पर काम कर रही है।
  • जाओ : ओपन सोर्स डेटा साइंस रोड मैप एंड रिसोर्स। वास्तव में एक तकनीकी परियोजना नहीं है, लेकिन निरपेक्ष शुरुआती और आकांक्षी विश्लेषकों के लिए बहुत उपयोगी है।
  • Pylearn2 : एक और तेजी से बढ़ती मशीन लर्निंग और डीप लर्निंग प्रोजेक्ट।
  • Vowpal Wabbit : Vowpal Wabbit (VW) परियोजना Microsoft अनुसंधान और (पहले) Yahoo द्वारा प्रायोजित एक तेज आउट-ऑफ-कोर लर्निंग सिस्टम है! अनुसंधान।

यहाँ इस तरह की परियोजनाओं पर एक Quora चर्चा है और कुछ और जो इस उत्तर में उल्लिखित नहीं हैं।

यहाँ अजगर में खुले स्रोत डेटा विज्ञान और एमएल परियोजनाओं के बारे में एक और अच्छी चर्चा है


2
मैं पुष्टि करता हूं - स्केलेर के लिए प्रतिबद्ध करना बहुत आसान है, बस एक पुल अनुरोध खोलें और यही वह है।
एलेक्सी ग्रिगोरेव

Pylearn2 अब सक्रिय नहीं है। केरस, लेसेगैन और ब्लॉक योगदान के लिए बेहतर विकल्प हैं।
शशांक गुप्ता

6

उनमें से बहुत सारे उपलब्ध हैं। मुझे नहीं पता कि क्या मुझे ऐसा करने की अनुमति है (कृपया मुझे बताएं कि क्या यह गलत है), लेकिन मैं एक विकसित करता हूं और गिट हब पर यह पहले से ही 2 साल से अधिक है (यह वास्तव में जीथब से एक साल पहले शुरू हुआ था)। परियोजना को रैपैओ कहा जाता है, यहां गिट हब पर है और हाल ही में मैंने इसके लिए एक मैनुअल लिखना शुरू किया (मेरे कुछ दोस्तों ने मुझसे उस बारे में पूछा)। मैनुअल यहाँ पाया जा सकता है

यदि आप जावा 8 को विकसित करने के इच्छुक हैं, तो आप अपनी जरूरतों को पूरा करना चाहते हैं, यदि आप खुद को कोई उपकरण पसंद करते हैं और यदि आप प्रयोग करना पसंद करते हैं। केवल दो सिद्धांत हैं जो मैं लागू करता हूं। पहले एक को केवल तभी लिखा जाता है जब आपको इसकी आवश्यकता होती है । ऐसा इसलिए है क्योंकि मेरा दृढ़ता से मानना ​​है कि केवल जब आपको एक उपकरण की आवश्यकता होती है, तो आप यह भी जानते हैं कि आउटपुट, प्रदर्शन, जानकारी के मामले में आप वास्तव में इससे क्या चाहते हैं। दूसरा सिद्धांत यह है कि आप केवल jdk पर निर्भर हैं, अगर आपको कुछ चाहिए तो आप इसे लिखेंगे । मैं सहमत हो सकता हूं कि मैं पुराने जमाने का हूं, लेकिन आप अपने उद्देश्य के लिए किसी भी सुविधा को इस तरह से तैयार कर सकते हैं।

अगर मुझे ऐसा करने की अनुमति नहीं है, तो फिर से, कृपया मुझे बताएं। हालांकि, चूंकि यह एक खुला स्रोत पहल है, इसलिए लोगों को बिना किसी लाभ के परियोजना के साथ कुछ वापस दें , मुझे लगता है कि मैं ऐसा नहीं कर सका।


2
+1 मुझे लगता है कि किसी के योगदान के लिए यह एक बेहतरीन परियोजना है। साझा करने के लिए धन्यवाद। कम से कम, मुझे नहीं लगता कि यह अप्रासंगिक है :)
Dawny33

1
क्या आपने कई अन्य समान परियोजनाओं में से एक के साथ अपने प्रयासों में शामिल होने पर विचार किया है? कहो, ELKI, Weka, JSAT, Smile, Hubminer, ... क्या आपने बेंचमार्क किया है? एक त्वरित नज़र से, मैंने कुछ निर्माणों को देखा जो मुझे बहुत महंगे लगते हैं (हालांकि आर के रूप में शायद उतना बुरा नहीं है)।
है क्विट -

मेरा लक्ष्य एक अच्छा प्रोग्रामर अनुकूल उपकरण सेट करना था, प्रदर्शन एक लक्ष्य नहीं था। लेकिन मैंने उसका फिर से मूल्यांकन करना शुरू कर दिया। अन्य परियोजनाओं के बारे में: कानूनी मामले के कारण, मैं वितरित सामान के लिए प्रतिबद्ध नहीं हो सकता हूं और मैं केवल कुछ प्रकार के ओपन सोर्स लाइसेंस वाली परियोजनाओं में योगदान कर सकता हूं। वैसे भी, एक बार देखने के लिए धन्यवाद, मुझे बहुत खुशी होगी अगर आप मेरे द्वारा बताए गए निर्माणों के बारे में अधिक जानकारी दे सकते हैं। मुझे उम्मीद है कि आपका समय सीमित है, और मैं पूरी चर्चा करने की हिम्मत नहीं करता
रैपैयो

1
ELKI AGPL-3 है। इसे वितरित नहीं किया गया है, लेकिन उच्च "स्थानीय" प्रदर्शन (अभी तक जावा 8 नहीं) के लिए कुछ निम्न-स्तरीय अनुकूलन हैं। JSAT, स्माइल, हबमिनर - ये सभी ओपन-सोर्स हैं, शायद ज्यादातर एपाचे हैं, वितरित नहीं हैं, और अनुकूलित नहीं हैं यदि मुझे गलत नहीं किया गया है (मैं ज्यादातर ईएलकेआई का उपयोग करता हूं)।
QUIT - Anony-Mousse

4

इस प्रोजेक्ट को github पर देखें : https://github.com/josephmisiti/awesome-machine-learning । इसमें कुछ संक्षिप्त विवरणों के साथ भाषा द्वारा समूहीकृत खुले स्रोत परियोजनाओं की एक व्यापक सूची है। मुझे लगता है कि आप उनमें से कुछ को पा सकते हैं जो आपकी जरूरतों को पूरा करते हैं।


4

ELKI ( GitHub पर भी ) डेटा माइनिंग और डेटा साइंस ओपन-सोर्स प्रोजेक्ट है। यह अपने मॉड्यूलर आर्किटेक्चर के संबंध में अद्वितीय है: आप एल्गोरिदम, दूरी कार्यों और अनुक्रमण को बहुत कम सीमाओं के साथ संयोजन कर सकते हैं (निश्चित रूप से, एल्गोरिदम जो दूरी का उपयोग नहीं करते हैं उन्हें दूरी के साथ जोड़ा नहीं जा सकता है)। दक्षता के कारण यह सबसे आसान कोड नहीं है। डेटा माइनिंग के लिए, आपको मेमोरी के बारे में सावधानी बरतने की ज़रूरत है - ArrayList<Integer>यदि आप स्केलेबिलिटी चाहते हैं तो नो-गो का उपयोग करना है।

मॉड्यूलर आर्किटेक्चर के कारण, केवल छोटे मॉड्यूल का योगदान करना आसान है, जैसे एकल दूरी फ़ंक्शन या एल्गोरिथ्म।

हम मुश्किल से समूहीकृत डेटा खनन परियोजना विचारों की एक सूची रखते हैं । अधिकांश परियोजनाएं एक एल्गोरिथ्म के कुछ प्रकार के कार्यान्वयन हैं। एलकेआई का उद्देश्य एल्गोरिदम के तुलनात्मक अध्ययन की अनुमति देना है, इसलिए हम किसी भी संयोजन की अनुमति देने की कोशिश करते हैं, और एल्गोरिदम के वेरिएंट को भी कवर करते हैं। उदाहरण के लिए k- साधनों के साथ, हमारे पास न केवल लॉयड्स एल्गोरिथ्म है, बल्कि सामान्य k- साधन थीम के 10 संस्करण हैं। ईएलकेआई में 220 से अधिक लेख (कम से कम आंशिक रूप से) कार्यान्वित किए गए हैं।

एक ही उपकरण में सब कुछ लागू करने से, हमें बहुत अधिक तुलनीय परिणाम मिलते हैं। यदि आप बेंचमार्किंग के लिए आर का उपयोग करते हैं, तो आप आमतौर पर सेब और संतरे की तुलना कर रहे हैं। k- साधन आर में ही वास्तव में एक पुराना फोरट्रान कार्यक्रम है, और बहुत तेज़ है। आर में k- साधन, लेकिन "flexclust" पैकेज में 100x धीमी है, क्योंकि यह वास्तविक R कोड में लिखा गया है। इसलिए R ... में भी बेंचमार्क पर भरोसा न करें, R मॉड्यूल असंगत हैं, इसलिए आप अक्सर ELKI में मॉड्यूल B से एल्गोरिदम B के साथ मॉड्यूल A से दूरी A का उपयोग नहीं कर सकते हैं। ऐसी कलाकृतियों को कम करने के लिए कार्यान्वयन के पार संभव है (यह, निश्चित रूप से, 100% उचित बेंचमार्क होना कभी संभव नहीं होगा - अनुकूलन के लिए हमेशा जगह होती है), लेकिन संयोजन मॉड्यूल को आसानी से अनुमति देने के लिए।

आप कुछ छोटे से शुरू कर सकते हैं जैसे कि हार्टिगन और वोंग के-साधन संस्करण, और फिर गोलाकार कश्मीर-साधन (जो विरल डेटा के लिए होता है, जहां विभिन्न प्रदर्शन अनुकूलन आवश्यक हो सकते हैं) में जारी रहें और श्रेणीबद्ध डेटा के लिए बेहतर समर्थन जोड़ते रहें; या अनुक्रमण कार्यक्षमता को जोड़ना।

मैं ELKI के लिए एक बेहतर UI देखना पसंद करूंगा , लेकिन यह एक बड़ा प्रयास है।


4

यदि कोई क्रॉस-प्लेटफ़ॉर्म दृश्य प्रोग्रामिंग टूल पसंद करता है, तो ऑरेंज एक विकल्प है। हाल ही में पायथन 3 में चले जाने के बाद, उन्हें अभी तक सभी विजेट्स पोर्ट नहीं मिले हैं। यह PyDon 3, PyQt, PyQtGraph के PyData स्टैक (NumPy, SciPy, SciKit Learn, ...) को ला रहा है और यह GitHub पर GPL'd है

ऑरेंज स्क्रीनशो

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.