5
क्या मुझे 'संतुलित' डेटासेट या 'प्रतिनिधि' डेटासेट के लिए जाना चाहिए?
मेरा 'मशीन लर्निंग' कार्य सौम्य इंटरनेट ट्रैफ़िक को दुर्भावनापूर्ण ट्रैफ़िक से अलग करना है। वास्तविक विश्व परिदृश्य में, इंटरनेट ट्रैफ़िक का अधिकांश (90% या अधिक) कहना सौम्य है। इस प्रकार मुझे लगा कि मुझे अपने मॉडलों के प्रशिक्षण के लिए भी इसी तरह का डेटा सेटअप चुनना चाहिए। लेकिन मुझे …