ELKI ( GitHub पर भी ) डेटा माइनिंग और डेटा साइंस ओपन-सोर्स प्रोजेक्ट है। यह अपने मॉड्यूलर आर्किटेक्चर के संबंध में अद्वितीय है: आप एल्गोरिदम, दूरी कार्यों और अनुक्रमण को बहुत कम सीमाओं के साथ संयोजन कर सकते हैं (निश्चित रूप से, एल्गोरिदम जो दूरी का उपयोग नहीं करते हैं उन्हें दूरी के साथ जोड़ा नहीं जा सकता है)। दक्षता के कारण यह सबसे आसान कोड नहीं है। डेटा माइनिंग के लिए, आपको मेमोरी के बारे में सावधानी बरतने की ज़रूरत है - ArrayList<Integer>
यदि आप स्केलेबिलिटी चाहते हैं तो नो-गो का उपयोग करना है।
मॉड्यूलर आर्किटेक्चर के कारण, केवल छोटे मॉड्यूल का योगदान करना आसान है, जैसे एकल दूरी फ़ंक्शन या एल्गोरिथ्म।
हम मुश्किल से समूहीकृत डेटा खनन परियोजना विचारों की एक सूची रखते हैं । अधिकांश परियोजनाएं एक एल्गोरिथ्म के कुछ प्रकार के कार्यान्वयन हैं। एलकेआई का उद्देश्य एल्गोरिदम के तुलनात्मक अध्ययन की अनुमति देना है, इसलिए हम किसी भी संयोजन की अनुमति देने की कोशिश करते हैं, और एल्गोरिदम के वेरिएंट को भी कवर करते हैं। उदाहरण के लिए k- साधनों के साथ, हमारे पास न केवल लॉयड्स एल्गोरिथ्म है, बल्कि सामान्य k- साधन थीम के 10 संस्करण हैं। ईएलकेआई में 220 से अधिक लेख (कम से कम आंशिक रूप से) कार्यान्वित किए गए हैं।
एक ही उपकरण में सब कुछ लागू करने से, हमें बहुत अधिक तुलनीय परिणाम मिलते हैं। यदि आप बेंचमार्किंग के लिए आर का उपयोग करते हैं, तो आप आमतौर पर सेब और संतरे की तुलना कर रहे हैं। k- साधन आर में ही वास्तव में एक पुराना फोरट्रान कार्यक्रम है, और बहुत तेज़ है। आर में k- साधन, लेकिन "flexclust" पैकेज में 100x धीमी है, क्योंकि यह वास्तविक R कोड में लिखा गया है। इसलिए R ... में भी बेंचमार्क पर भरोसा न करें, R मॉड्यूल असंगत हैं, इसलिए आप अक्सर ELKI में मॉड्यूल B से एल्गोरिदम B के साथ मॉड्यूल A से दूरी A का उपयोग नहीं कर सकते हैं। ऐसी कलाकृतियों को कम करने के लिए कार्यान्वयन के पार संभव है (यह, निश्चित रूप से, 100% उचित बेंचमार्क होना कभी संभव नहीं होगा - अनुकूलन के लिए हमेशा जगह होती है), लेकिन संयोजन मॉड्यूल को आसानी से अनुमति देने के लिए।
आप कुछ छोटे से शुरू कर सकते हैं जैसे कि हार्टिगन और वोंग के-साधन संस्करण, और फिर गोलाकार कश्मीर-साधन (जो विरल डेटा के लिए होता है, जहां विभिन्न प्रदर्शन अनुकूलन आवश्यक हो सकते हैं) में जारी रहें और श्रेणीबद्ध डेटा के लिए बेहतर समर्थन जोड़ते रहें; या अनुक्रमण कार्यक्षमता को जोड़ना।
मैं ELKI के लिए एक बेहतर UI देखना पसंद करूंगा , लेकिन यह एक बड़ा प्रयास है।