विशाल डेटासेट से सीखते समय दृष्टिकोण?


10

मूल रूप से, विशाल डेटासेट के खिलाफ सीखने के दो सामान्य तरीके हैं (जब आप समय / स्थान प्रतिबंधों का सामना करते हैं):

  1. धोखा :) - प्रशिक्षण के लिए सिर्फ एक "प्रबंधनीय" सबसेट का उपयोग करें। घटते रिटर्न के कानून की वजह से सटीकता की हानि नगण्य हो सकती है - सभी प्रशिक्षण डेटा को इसमें शामिल किए जाने से पहले मॉडल का भविष्य कहनेवाला प्रदर्शन अक्सर लंबा हो जाता है।
  2. समानांतर कंप्यूटिंग - समस्या को छोटे भागों में विभाजित करते हैं और प्रत्येक को एक अलग मशीन / प्रोसेसर पर हल करते हैं। आपको एल्गोरिथ्म के समानांतर संस्करण की आवश्यकता है, लेकिन अच्छी खबर यह है कि बहुत सारे सामान्य एल्गोरिदम स्वाभाविक रूप से समानांतर हैं: निकटतम-पड़ोसी, निर्णय पेड़, आदि।

क्या अन्य तरीके हैं? जब प्रत्येक का उपयोग करने के लिए अंगूठे का कोई नियम है? प्रत्येक दृष्टिकोण की कमियां क्या हैं?

जवाबों:


10

स्ट्रीम खनन एक उत्तर है। यह भी कहा जाता है:

  • डेटा स्ट्रीम खनन
  • ऑनलाइन सीखने
  • बड़े पैमाने पर ऑनलाइन सीखना

    इसके बजाय सभी डेटा को मेमोरी और ट्रेनिंग से सेट करें। वे इसे विखंडू में डालते हैं और इन खंडों की श्रेणी से क्लासिफायर / क्लस्टर्स को याद करते हैं। निम्नलिखित लिंक देखें।

  • विकिपीडिया से Data_stream_mining

  • एमओए: बड़े पैमाने पर ऑनलाइन विश्लेषण

    • लेख
    • टूल , जावा में लिखा, जो कि वेका एल्गोरिदम का उपयोग करने में सक्षम है
    • पुस्तक
  • स्टैनफोर्ड यूनिवर्सिटी से बड़े पैमाने पर डेटासेट बुक का खनन । यह MapReduce को एक उपकरण के रूप में उपयोग करता है।

  • Videolectures.net में वीडियो। इसे खोजें उसी तरह के वीडियो उस साइट में मौजूद हैं।


सहमति व्यक्त की, एमओए टूलबॉक्स शुरू करने के लिए एक अच्छी जगह होगी
tdc

7

केवल एक सबसेट का उपयोग करने के बजाय, आप कई बैचों का उपयोग कर सकते हैं जैसे कि मिनी-बैच लर्निंग (जैसे स्टॉचस्टिक ग्रेडिएंट डिसेंट)। इस तरह आप अभी भी अपने सभी डेटा का उपयोग करेंगे।


अहा यह एक अच्छा बिंदु है - मैंने प्रश्न को स्पष्ट किया। जब आप समय / अंतरिक्ष प्रतिबंधों से जूझ रहे होते हैं तो मैं एक परिदृश्य में दिलचस्पी लेता हूं और "मिनी-बैच लर्निंग" नहीं कर सकता।
andreister

1

बैगिंग या सम्मिश्रण की तरह - कोई डेटा व्यर्थ नहीं है, समस्या स्वचालित रूप से तुच्छ समानांतर हो जाती है और महत्वपूर्ण सटीकता / मजबूती हासिल हो सकती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.