मूल रूप से, विशाल डेटासेट के खिलाफ सीखने के दो सामान्य तरीके हैं (जब आप समय / स्थान प्रतिबंधों का सामना करते हैं):
- धोखा :) - प्रशिक्षण के लिए सिर्फ एक "प्रबंधनीय" सबसेट का उपयोग करें। घटते रिटर्न के कानून की वजह से सटीकता की हानि नगण्य हो सकती है - सभी प्रशिक्षण डेटा को इसमें शामिल किए जाने से पहले मॉडल का भविष्य कहनेवाला प्रदर्शन अक्सर लंबा हो जाता है।
- समानांतर कंप्यूटिंग - समस्या को छोटे भागों में विभाजित करते हैं और प्रत्येक को एक अलग मशीन / प्रोसेसर पर हल करते हैं। आपको एल्गोरिथ्म के समानांतर संस्करण की आवश्यकता है, लेकिन अच्छी खबर यह है कि बहुत सारे सामान्य एल्गोरिदम स्वाभाविक रूप से समानांतर हैं: निकटतम-पड़ोसी, निर्णय पेड़, आदि।
क्या अन्य तरीके हैं? जब प्रत्येक का उपयोग करने के लिए अंगूठे का कोई नियम है? प्रत्येक दृष्टिकोण की कमियां क्या हैं?