n = 4
उन्होंने कहा, एक स्थिति जहां अधिक डेटा मदद नहीं करता है --- और यहां तक कि चोट भी लग सकती है --- यदि आपका अतिरिक्त प्रशिक्षण डेटा शोर है या जो भी आप भविष्यवाणी करने की कोशिश कर रहे हैं, उससे मेल नहीं खाता है। मैंने एक बार एक प्रयोग किया था जहां मैंने विभिन्न भाषा मॉडल [*] को एक आवाज-सक्रिय रेस्तरां आरक्षण प्रणाली में प्लग किया। मैं प्रशिक्षण की मात्रा के साथ-साथ इसकी प्रासंगिकता को भी भिन्न करता हूं: एक चरम पर, मेरे पास टेबल बुक करने वाले लोगों का एक छोटा, ध्यान से संग्रहित संग्रह था जो मेरे आवेदन के लिए एक आदर्श मैच था। दूसरे पर, मेरे पास क्लासिक साहित्य के विशाल संग्रह से अनुमानित मॉडल था , जो एक अधिक सटीक भाषा मॉडल था, लेकिन आवेदन के लिए बहुत खराब मैच था। मेरे आश्चर्य के लिए, छोटे-लेकिन-प्रासंगिक मॉडल ने बड़े-बड़े-लेकिन-कम-प्रासंगिक मॉडल को बहुत बेहतर बना दिया।
एक आश्चर्यजनक स्थिति, जिसे
डबल-वंश कहा जाता है, तब भी होता है जब प्रशिक्षण सेट का आकार मॉडल मापदंडों की संख्या के करीब होता है। इन मामलों में, परीक्षण जोखिम पहले कम हो जाता है क्योंकि प्रशिक्षण सेट का आकार बढ़ जाता है, जब थोड़ा और प्रशिक्षण डेटा जोड़ा जाता है, तो क्षणिक रूप से
बढ़ता है और अंत में फिर से कम होने लगता है क्योंकि प्रशिक्षण सेट बढ़ता रहता है। इस घटना को तंत्रिका नेटवर्क साहित्य में 25 साल (ओपर, 1995 देखें) बताया गया था, लेकिन आधुनिक नेटवर्क में भी होता है (
आडवाणी और सक्से, 2017 )। दिलचस्प बात यह है कि यह एक रेखीय प्रतिगमन के लिए भी होता है, भले ही यह एक अनुकूल
परिस्थिति (
एनडीकिरण, 2019) द्वारा फिट होता है
)। यह घटना अभी तक पूरी तरह से समझ में नहीं आई है और काफी हद तक सैद्धांतिक रुचि है: मैं निश्चित रूप से इसका उपयोग अधिक डेटा एकत्र नहीं करने के लिए एक कारण के रूप में नहीं करूंगा (हालांकि मैं प्रशिक्षण सेट आकार के साथ फीका कर सकता हूं यदि n == पी और प्रदर्शन अप्रत्याशित रूप से खराब थे )।
[*] एक भाषा मॉडल केवल दिए गए अनुक्रमों जैसे को देखने की संभावना है
पी( w)n= 'क्विक', डब्ल्यूn + 1= 'ब्राउन', डब्ल्यूn + 2= 'लोमड़ी' ) । वे आधे रास्ते सभ्य भाषण / चरित्र पहचानकर्ताओं के निर्माण के लिए महत्वपूर्ण हैं।