मेरा 'मशीन लर्निंग' कार्य सौम्य इंटरनेट ट्रैफ़िक को दुर्भावनापूर्ण ट्रैफ़िक से अलग करना है। वास्तविक विश्व परिदृश्य में, इंटरनेट ट्रैफ़िक का अधिकांश (90% या अधिक) कहना सौम्य है। इस प्रकार मुझे लगा कि मुझे अपने मॉडलों के प्रशिक्षण के लिए भी इसी तरह का डेटा सेटअप चुनना चाहिए। लेकिन मुझे एक शोध पत्र या दो (मेरे कार्य क्षेत्र में) आया, जिसमें मॉडल को प्रशिक्षित करने के लिए "क्लास बैलेंसिंग" डेटा दृष्टिकोण का उपयोग किया गया है, जिसमें सौम्य और दुर्भावनापूर्ण ट्रैफ़िक की समान संख्या शामिल है।
सामान्य तौर पर, अगर मैं मशीन लर्निंग मॉडल का निर्माण कर रहा हूं, तो क्या मुझे एक ऐसे डेटासेट के लिए जाना चाहिए जो वास्तविक दुनिया की समस्या का प्रतिनिधि है, या मॉडल के निर्माण के लिए बेहतर संतुलित डेटासेट है (क्योंकि कुछ निश्चित रूप से कक्षा के सदस्य कक्षा असंतुलन के साथ अच्छा व्यवहार नहीं करते हैं, या अन्य कारणों के कारण मुझे ज्ञात नहीं)?
क्या कोई दोनों विकल्पों के पेशेवरों और विपक्षों पर अधिक प्रकाश डाल सकता है और यह कैसे तय करना है कि किसे चुनना है?