मैं थोड़ी देर के लिए मशीन लर्निंग और बायोइनफॉरमैटिक्स पर काम कर रहा हूं, और आज मैंने एक सहकर्मी के साथ डेटा माइनिंग के मुख्य मुद्दों के बारे में बातचीत की।
मेरे सहकर्मी (जो एक मशीन लर्निंग विशेषज्ञ हैं) ने कहा कि, उनकी राय में, मशीन लर्निंग का सबसे महत्वपूर्ण व्यावहारिक पहलू यह समझना है कि आपने अपने मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए पर्याप्त डेटा एकत्र किया है या नहीं ।
इस कथन ने मुझे चौंका दिया, क्योंकि मैंने कभी इस पहलू को इतना महत्व नहीं दिया ...
मैंने तब इंटरनेट पर अधिक जानकारी की तलाश की, और मुझे यह पोस्ट FastML.com पर मिली जिसे अंगूठे के नियम के रूप में रिपोर्ट किया गया कि आपको लगभग 10 गुना अधिक डेटा इंस्टेंसेस की आवश्यकता है क्योंकि इसमें विशेषताएं हैं ।
दो सवाल:
1 - क्या यह मुद्दा मशीन सीखने में वास्तव में प्रासंगिक है?
2 - क्या 10 गुना नियम काम कर रहा है? क्या इस विषय के लिए कोई अन्य प्रासंगिक स्रोत हैं?