यह मेरा प्रशिक्षण डेटा है: 200,000 उदाहरण x 10,000 सुविधाएँ। तो मेरा प्रशिक्षण डेटा मैट्रिक्स है - 200,000 x 10,000।
मैंने प्रत्येक फ़िमेल को एक-एक करके (एक के बाद एक उदाहरण) सहेज कर मेमोरी मुद्दों के बिना एक सपाट फ़ाइल में इसे सहेजने में कामयाबी हासिल की, क्योंकि मैं प्रत्येक उदाहरण के लिए सुविधाएँ उत्पन्न करता हूँ।
लेकिन, अब जब मैं दूध , एसवीएम प्रकाश , या किसी अन्य मशीन लर्निंग एल्गोरिथम का उपयोग करता हूं , तो सब कुछ एक-एक करके प्रशिक्षण के बजाय पूरे प्रशिक्षण डेटा को मेमोरी में लोड करने की कोशिश करता है। हालाँकि मेरे पास सिर्फ 8 जीबी रैम है, इसलिए मैं इस तरह आगे नहीं बढ़ सकता।
क्या आप जानते हैं कि वैसे भी मैं एल्गोरिथ्म को एक डाटासेट द्वारा एक डाटासेट को प्रशिक्षित कर सकता था? Ie, ताकि किसी भी पल मैं प्रशिक्षण के दौरान सिर्फ एक डेटासेट मेमोरी में लोड हो।