मेरे मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए कितना डेटा पर्याप्त है?


11

मैं थोड़ी देर के लिए मशीन लर्निंग और बायोइनफॉरमैटिक्स पर काम कर रहा हूं, और आज मैंने एक सहकर्मी के साथ डेटा माइनिंग के मुख्य मुद्दों के बारे में बातचीत की।

मेरे सहकर्मी (जो एक मशीन लर्निंग विशेषज्ञ हैं) ने कहा कि, उनकी राय में, मशीन लर्निंग का सबसे महत्वपूर्ण व्यावहारिक पहलू यह समझना है कि आपने अपने मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए पर्याप्त डेटा एकत्र किया है या नहीं

इस कथन ने मुझे चौंका दिया, क्योंकि मैंने कभी इस पहलू को इतना महत्व नहीं दिया ...

मैंने तब इंटरनेट पर अधिक जानकारी की तलाश की, और मुझे यह पोस्ट FastML.com पर मिली जिसे अंगूठे के नियम के रूप में रिपोर्ट किया गया कि आपको लगभग 10 गुना अधिक डेटा इंस्टेंसेस की आवश्यकता है क्योंकि इसमें विशेषताएं हैं

दो सवाल:

1 - क्या यह मुद्दा मशीन सीखने में वास्तव में प्रासंगिक है?

2 - क्या 10 गुना नियम काम कर रहा है? क्या इस विषय के लिए कोई अन्य प्रासंगिक स्रोत हैं?


1. हां। 2. यह एक अच्छी आधार रेखा है लेकिन आप इसे स्वतंत्रता की प्रभावी डिग्री को कम करने के लिए नियमितीकरण के साथ प्राप्त कर सकते हैं । यह विशेष रूप से गहन सीखने के साथ काम करता है। 3. आप त्रुटि या स्कोर के खिलाफ नमूना आकार के सीखने की अवस्था को प्लॉट करके अपनी समस्या पर स्थिति का निदान कर सकते हैं।
एमरे

@Emre धन्यवाद! क्या आप मुझे कुछ कागजात या पढ़ने के लिए कोई सामग्री भी सुझा सकते हैं?
DavideChicco.it

यह आमतौर पर आपकी पाठ्यपुस्तक में क्रॉस-मान्यता और अन्य मॉडल सत्यापन तकनीकों के साथ कवर किया जाएगा।
एमरे

10 बार का नियम बहुत अच्छा है अगर आप इसे हासिल कर सकते हैं, लेकिन यह कुछ व्यावसायिक सेटिंग्स में व्यावहारिक नहीं है। ऐसी कई स्थितियाँ हैं जहाँ डेटा इंस्टेंसेस (p >> n) की तुलना में सुविधाओं की संख्या बहुत अधिक है। इन परिस्थितियों से निपटने के लिए विशेष रूप से डिज़ाइन किए गए मशीन लर्निंग तकनीक हैं।
डेटा विज्ञान लड़का

यदि आपको एक विस्तृत विवरण की आवश्यकता है, जो आपको सीखने की अवस्था के ग्राफ को समझने में मदद कर सकता है: scikit-yb.org/en/latest/api/model_selection/learning_curve.html
shrikanthus

जवाबों:


6

दस बार का नियम मुझे अंगूठे के नियम जैसा लगता है, लेकिन यह सच है कि यदि आप इसे पर्याप्त प्रशिक्षण डेटा के साथ नहीं खिलाते हैं तो आपके मशीन लर्निंग एल्गोरिदम का प्रदर्शन कम हो सकता है।

यह सीखने का एक व्यावहारिक और डेटा-चालित तरीका है कि क्या आपके पास पर्याप्त प्रशिक्षण डेटा है, एक सीखने की अवस्था की साजिश रचकर, जैसे नीचे दिए गए उदाहरण में:

सीखने की अवस्था

लर्निंग कर्व प्रशिक्षण और परीक्षण त्रुटियों के विकास का प्रतिनिधित्व करता है क्योंकि आप अपने प्रशिक्षण सेट का आकार बढ़ाते हैं।

  • जैसे ही आप अपने डेटासेट का आकार बढ़ाते हैं, प्रशिक्षण त्रुटि बढ़ जाती है, क्योंकि एक मॉडल को फिट करना कठिन हो जाता है जो आपके प्रशिक्षण सेट की बढ़ती जटिलता / परिवर्तनशीलता के लिए जिम्मेदार है।
  • जैसे ही आप अपने डेटासेट का आकार बढ़ाते हैं, परीक्षण की त्रुटि कम हो जाती है, क्योंकि मॉडल अधिक मात्रा में जानकारी से बेहतर सामान्यीकरण करने में सक्षम होता है।

जैसा कि आप भूखंड के सबसे दाहिने भाग पर देख सकते हैं, भूखंड में दो पंक्तियाँ पहुँचती हैं और स्पर्श होती हैं। इसलिए, आप अंततः एक ऐसे बिंदु पर पहुंच जाएंगे जिसमें आपके डेटासेट के आकार को बढ़ाने से आपके प्रशिक्षित मॉडल पर कोई प्रभाव नहीं पड़ेगा।

परीक्षण त्रुटि और प्रशिक्षण त्रुटि asymptotes के बीच की दूरी आपके मॉडल के ओवरफिटिंग का प्रतिनिधित्व है। लेकिन इससे भी महत्वपूर्ण बात, यह कथानक कह रहा है कि क्या आपको अधिक डेटा की आवश्यकता है। मूल रूप से, यदि आप अपने प्रशिक्षण डेटा के बड़े उपसमुच्चय को बढ़ाने के लिए परीक्षण और प्रशिक्षण त्रुटि का प्रतिनिधित्व करते हैं, और लाइनें एक स्पर्शरेखा तक नहीं पहुंचती हैं, तो आपको अधिक डेटा एकत्र करना चाहिए।


X_train, y_train: Only train subsetX, y: the entire dataset
Learning_curve

इस वक्र को क्रॉस सत्यापन लागू करने के परिणामस्वरूप बनाया गया है क्योंकि आप नमूनों की संख्या बढ़ाते हैं। इसलिए, आपको संपूर्ण डेटासेट की आवश्यकता है।
पाब्लो सू की

4
  1. हां, मुद्दा निश्चित रूप से प्रासंगिक है, क्योंकि मॉडल को फिट करने की आपकी क्षमता आपके पास मौजूद डेटा की मात्रा पर निर्भर करेगी, लेकिन इससे भी महत्वपूर्ण बात यह है कि यह भविष्यवाणियों की गुणवत्ता पर निर्भर करता है।
  2. 10-बार नियम अंगूठे का एक नियम हो सकता है (और कई अन्य हैं), लेकिन यह वास्तव में आपकी सुविधाओं की भविष्यवाणी की उपयोगिता पर निर्भर करता है। उदाहरण के लिए, आईरिस डेटासेट काफी छोटा है लेकिन आसानी से हल हो जाता है, क्योंकि सुविधाओं से लक्ष्यों का अच्छा पृथक्करण होता है। इसके विपरीत, आपके पास 10 मिलियन उदाहरण हो सकते हैं और यदि फीचर्स कमजोर हैं तो फिट होने में विफल हो सकते हैं।

धन्यवाद! क्या आप मुझे कुछ कागजात या पढ़ने के लिए कोई सामग्री भी सुझा सकते हैं?
DavideChicco.it
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.