समग्र प्रणाली सटीकता पर प्रशिक्षण डेटा बढ़ने से क्या प्रभाव पड़ता है?


16

क्या कोई मेरे लिए संभावित उदाहरणों के साथ संक्षेप में बता सकता है कि प्रशिक्षण के आंकड़ों को बढ़ाने से किन स्थितियों में समग्र प्रणाली में सुधार होता है? जब हम यह पता लगाते हैं कि अधिक प्रशिक्षण डेटा जोड़ना संभवतः डेटा को अधिक फिट कर सकता है और परीक्षण डेटा पर अच्छी सटीकता नहीं दे सकता है?

यह एक बहुत ही गैर-विशिष्ट प्रश्न है, लेकिन यदि आप किसी विशेष स्थिति के लिए इसका जवाब देना चाहते हैं, तो कृपया ऐसा करें।


बस सोच रहा था - क्या यह इस बारे में है कि क्या 50-50 ट्रेन / टेस्ट में विभाजित होना 75-25 कहना बेहतर है?
probabilityislogic

जवाबों:


22

n=4

उन्होंने कहा, एक स्थिति जहां अधिक डेटा मदद नहीं करता है --- और यहां तक ​​कि चोट भी लग सकती है --- यदि आपका अतिरिक्त प्रशिक्षण डेटा शोर है या जो भी आप भविष्यवाणी करने की कोशिश कर रहे हैं, उससे मेल नहीं खाता है। मैंने एक बार एक प्रयोग किया था जहां मैंने विभिन्न भाषा मॉडल [*] को एक आवाज-सक्रिय रेस्तरां आरक्षण प्रणाली में प्लग किया। मैं प्रशिक्षण की मात्रा के साथ-साथ इसकी प्रासंगिकता को भी भिन्न करता हूं: एक चरम पर, मेरे पास टेबल बुक करने वाले लोगों का एक छोटा, ध्यान से संग्रहित संग्रह था जो मेरे आवेदन के लिए एक आदर्श मैच था। दूसरे पर, मेरे पास क्लासिक साहित्य के विशाल संग्रह से अनुमानित मॉडल था , जो एक अधिक सटीक भाषा मॉडल था, लेकिन आवेदन के लिए बहुत खराब मैच था। मेरे आश्चर्य के लिए, छोटे-लेकिन-प्रासंगिक मॉडल ने बड़े-बड़े-लेकिन-कम-प्रासंगिक मॉडल को बहुत बेहतर बना दिया।


एक आश्चर्यजनक स्थिति, जिसे डबल-वंश कहा जाता है, तब भी होता है जब प्रशिक्षण सेट का आकार मॉडल मापदंडों की संख्या के करीब होता है। इन मामलों में, परीक्षण जोखिम पहले कम हो जाता है क्योंकि प्रशिक्षण सेट का आकार बढ़ जाता है, जब थोड़ा और प्रशिक्षण डेटा जोड़ा जाता है, तो क्षणिक रूप से बढ़ता है और अंत में फिर से कम होने लगता है क्योंकि प्रशिक्षण सेट बढ़ता रहता है। इस घटना को तंत्रिका नेटवर्क साहित्य में 25 साल (ओपर, 1995 देखें) बताया गया था, लेकिन आधुनिक नेटवर्क में भी होता है ( आडवाणी और सक्से, 2017 )। दिलचस्प बात यह है कि यह एक रेखीय प्रतिगमन के लिए भी होता है, भले ही यह एक अनुकूल परिस्थिति ( एनडीकिरण, 2019) द्वारा फिट होता है)। यह घटना अभी तक पूरी तरह से समझ में नहीं आई है और काफी हद तक सैद्धांतिक रुचि है: मैं निश्चित रूप से इसका उपयोग अधिक डेटा एकत्र नहीं करने के लिए एक कारण के रूप में नहीं करूंगा (हालांकि मैं प्रशिक्षण सेट आकार के साथ फीका कर सकता हूं यदि n == पी और प्रदर्शन अप्रत्याशित रूप से खराब थे )।


[*] एक भाषा मॉडल केवल दिए गए अनुक्रमों जैसे को देखने की संभावना हैपी(wn='शीघ्र', wn+1='ब्राउन', wn+2='लोमड़ी') । वे आधे रास्ते सभ्य भाषण / चरित्र पहचानकर्ताओं के निर्माण के लिए महत्वपूर्ण हैं।



12

एक नोट: अधिक डेटा (पंक्तियाँ या उदाहरण, कॉलम या सुविधाएँ नहीं) जोड़कर आपके ओवरफिटिंग की संभावना बढ़ने के बजाय कम हो जाती है।

दो पैराग्राफ सारांश इस प्रकार हैं:

  • अधिक उदाहरण जोड़ना, विविधता जोड़ता है। यह सामान्यीकरण त्रुटि को कम करता है क्योंकि आपका मॉडल अधिक उदाहरणों पर प्रशिक्षित होने के कारण सामान्य हो जाता है।
  • अधिक इनपुट सुविधाएँ, या कॉलम (उदाहरणों की एक निश्चित संख्या में) जोड़ने से ओवरफ़िटिंग बढ़ सकती है क्योंकि अधिक सुविधाएँ या तो अप्रासंगिक या निरर्थक हो सकती हैं और हाथ में उदाहरणों को फिट करने के लिए मॉडल को जटिल करने का अधिक अवसर होता है।

मॉडल की गुणवत्ता की तुलना करने के लिए कुछ सरलीकृत मानदंड हैं। उदाहरण के लिए AIC या पर एक नज़र डालें BIC

वे दोनों दिखाते हैं कि अधिक डेटा जोड़ना हमेशा मॉडल को बेहतर बनाता है, जबकि इष्टतम से परे पैरामीटर जटिलता को जोड़ने से मॉडल की गुणवत्ता कम हो जाती है।


1

प्रशिक्षण डेटा में वृद्धि हमेशा जानकारी जोड़ती है और फिट में सुधार करना चाहिए। कठिनाई तब आती है जब आप केवल उस प्रशिक्षण डेटा पर क्लासिफायर के प्रदर्शन का मूल्यांकन करते हैं जो कि फिट के लिए इस्तेमाल किया गया था। यह आशावादी पक्षपाती आकलन पैदा करता है और यही कारण है कि इसके बजाय लीव-वन-आउट क्रॉस सत्यापन या बूटस्ट्रैप का उपयोग किया जाता है।


1

आदर्श रूप से, एक बार जब आपके पास अधिक प्रशिक्षण उदाहरण हैं, तो आपके पास कम परीक्षण-त्रुटि (मॉडल की कमी का विचरण, जिसका अर्थ है कि हम कम ओवरफिटिंग हैं), लेकिन सैद्धांतिक रूप से, अधिक डेटा का मतलब यह नहीं है कि उच्च पूर्वाग्रह मॉडल के बाद आपके पास अधिक सटीक मॉडल होगा। अधिक प्रशिक्षण उदाहरणों से लाभ नहीं होगा

यहाँ देखें: मशीन लर्निंग में, क्या बेहतर है: अधिक डेटा या बेहतर एल्गोरिदम

उच्च-विचरण - एक मॉडल जो प्रशिक्षण को अच्छी तरह से निर्धारित करता है, लेकिन शोर या अप्रमाणिक प्रशिक्षण डेटा पर ओवरफिटिंग का खतरा होता है।

उच्च पूर्वाग्रह - एक सरल मॉडल जो ओवरफिट नहीं करता है, लेकिन प्रशिक्षण डेटा को कम कर सकता है, महत्वपूर्ण नियमितताओं को कैप्चर करने में विफल हो सकता है।


-1

स्पेक्ट्रम विश्लेषण से नमूने की विविधता के विश्लेषण में मदद मिलेगी, वास्तव में, मॉडलिंग में गलत जानकारी सीखी जाएगी यदि "वास्तविक-नमूने" नहीं जोड़े गए, जिसे आमतौर पर ओवर-फिटिंग कहा जाता है। आमतौर पर, यदि नमूना द्वारा प्रदान की गई जानकारी कम है, तो परीक्षण में उपयोग की जा सकने वाली उपयोगी जानकारी को सुनिश्चित करने के लिए अधिक वास्तविक नमूना प्रदान करने के लिए प्रोत्साहित किया जाता है। सौभाग्य!


3
इस जवाब का कोई मतलब निकालना मुश्किल है। क्या यह संभवत: किसी अन्य भाषा से मशीन-अनुवादित था? क्या कोई ऐसा तरीका होगा जिससे आप इसकी समीक्षा कर सकें और इसे संपादित कर सकें ताकि यह उन विचारों को बता सके जो आप हमारे साथ साझा करना चाहते हैं?
whuber

मुझे समझ नहीं आ रहा है कि आपकी प्रतिक्रिया क्या है।
user162580

3
ऐसा लगता है कि हमारे पास भाषा की समस्या है: आपके द्वारा पोस्ट किए गए शब्द अंग्रेजी में अर्थ नहीं रखते हैं। क्या आप उन्हें बदल सकते हैं ताकि वे समझ सकें?
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.