मैंने कई बार एक डेटासेट का विश्लेषण किया है जिस पर मैं वास्तव में किसी भी प्रकार का वर्गीकरण नहीं कर सकता था। यह देखने के लिए कि क्या मुझे एक क्लासिफायर प्राप्त हो सकता है जिसे मैंने आमतौर पर निम्नलिखित चरणों का उपयोग किया है:
- संख्यात्मक मूल्यों के खिलाफ लेबल के बॉक्स प्लॉट बनाएं।
- वर्गों को अलग-थलग करने के लिए आयाम को 2 या 3 पर कम करें, कभी-कभी एलडीए की भी कोशिश की।
- एसवीएम और रैंडम फॉरेस्ट को फिट करने का प्रयास करें और फीचर-महत्व को देखें कि क्या विशेषताएं किसी भी अर्थ में हैं या नहीं।
- वर्ग असंतुलन एक मुद्दा हो सकता है, यह जांचने के लिए अंडर-सैंपलिंग और ओवर-सैंपलिंग जैसी कक्षाओं और तकनीकों के संतुलन को बदलने की कोशिश करें।
कई अन्य दृष्टिकोण हैं जिनके बारे में मैं सोच सकता हूं, लेकिन कोशिश नहीं की है। कभी-कभी मुझे पता चलता है कि ये विशेषताएं अच्छी नहीं हैं और उस लेबल से संबंधित नहीं हैं जिसके बारे में हम भविष्यवाणी करने की कोशिश कर रहे हैं। फिर मैं व्यायाम को समाप्त करने के लिए उस व्यावसायिक अंतर्ज्ञान का उपयोग करता हूं, यह निष्कर्ष निकालता हूं कि हमें बेहतर सुविधाओं या पूरी तरह से अलग-अलग लेबल की आवश्यकता है।
मेरा सवाल यह है कि डेटा साइंटिस्ट कैसे रिपोर्ट करता है कि इन सुविधाओं के साथ वर्गीकरण नहीं किया जा सकता है। क्या इसको रिपोर्ट करने या पहले अलग-अलग एल्गोरिदम में डेटा फिट करने का कोई सांख्यिकीय तरीका है और सत्यापन मीट्रिक देखना सबसे अच्छा विकल्प है?