यह सच है कि आपके क्रमिक प्रसार को 30 समय के चरणों तक सीमित करना आपके डेटासेट में संभव हर चीज को सीखने से रोकेगा । हालाँकि, यह आपके डेटासेट पर बहुत अधिक निर्भर करता है कि क्या यह आपके मॉडल की विशेषताओं के बारे में महत्वपूर्ण बातें सीखने से रोकेगा!
प्रशिक्षण के दौरान ग्रेडिएंट को सीमित करना अधिक खिड़की को सीमित करने जैसा है, जिस पर आपका मॉडल इनपुट सुविधाओं और छिपे हुए राज्य को उच्च आत्मविश्वास के साथ आत्मसात कर सकता है। क्योंकि परीक्षण के समय आप अपने मॉडल को संपूर्ण इनपुट अनुक्रम पर लागू करते हैं, फिर भी यह सभी इनपुट विशेषताओं के बारे में जानकारी को आपके छिपे हुए राज्य में शामिल करने में सक्षम होगा। यह ठीक से पता नहीं है कि उस जानकारी को कैसे संरक्षित किया जाए जब तक कि यह वाक्य के लिए अपनी अंतिम भविष्यवाणी नहीं करता है, लेकिन कुछ (संयुक्त रूप से कमजोर) कनेक्शन हो सकते हैं जो अभी भी बनाने में सक्षम होंगे।
पहले एक आकस्मिक उदाहरण के बारे में सोचें। मान लीजिए कि आपके नेटवर्क को 1 उत्पन्न करना है यदि उसके इनपुट में कहीं भी 1 है, और 0 अन्यथा। कहते हैं कि आप नेटवर्क को लंबाई 20 के अनुक्रम पर प्रशिक्षित करते हैं और फिर 10 चरणों के लिए ढाल करते हैं। यदि प्रशिक्षण डेटासेट में इनपुट के अंतिम 10 चरणों में कभी भी 1 नहीं होता है, तो नेटवर्क को किसी भी कॉन्फ़िगरेशन के परीक्षण इनपुट के साथ समस्या होने वाली है। हालांकि, यदि प्रशिक्षण सेट में कुछ उदाहरण हैं जैसे कि [1 0 0 ... 0 0 0] और अन्य जैसे [0 0 0 ... 1 0 0], तो नेटवर्क "उपस्थिति" पर उठा सकेगा इसके इनपुट में कहीं भी एक 1 "सुविधा।
वापस भावना विश्लेषण के लिए। मान लीजिए कि प्रशिक्षण के दौरान आपका मॉडल लंबे समय तक नकारात्मक वाक्य का सामना करता है, जैसे "मुझे इससे नफरत है क्योंकि ... चारों ओर और आसपास", कहते हैं, दीर्घवृत्त में 50 शब्द हैं। क्रमिक प्रसार को 30 समय के चरणों तक सीमित करके, मॉडल आउटपुट लेबल के लिए "मुझे इससे नफरत है क्योंकि" कनेक्ट नहीं होगा, इसलिए यह इस प्रशिक्षण से "I", "घृणा", या "यह" नहीं उठाएगा। उदाहरण। लेकिन यह उन शब्दों पर उठाएगा जो वाक्य के अंत से 30 समय के कदम के भीतर हैं। यदि आपके प्रशिक्षण सेट में अन्य उदाहरण हैं, जिनमें समान शब्द हैं, संभवतः "घृणा" के साथ तो यह "घृणा" और नकारात्मक भावना लेबल के बीच लिंक पर लेने का मौका है। इसके अलावा, यदि आपके पास प्रशिक्षण के छोटे उदाहरण हैं, तो कहें, "हम इसे नफरत करते हैं क्योंकि यह भयानक है!" तब आपका मॉडल "नफरत" और "यह" सुविधाओं को लक्ष्य लेबल से कनेक्ट करने में सक्षम होगा। यदि आपके पास इन प्रशिक्षण उदाहरणों के लिए पर्याप्त है, तो मॉडल को कनेक्शन को प्रभावी ढंग से सीखने में सक्षम होना चाहिए।
परीक्षण के समय में, मान लें कि आप मॉडल को एक और लंबे वाक्य के साथ प्रस्तुत करते हैं, जैसे "मुझे यह नफरत है क्योंकि ... गेको पर!" मॉडल का इनपुट "आई हेट दिस" के साथ शुरू होगा, जिसे किसी न किसी रूप में मॉडल के छिपे हुए राज्य में पारित किया जाएगा। इस छिपे हुए राज्य का उपयोग मॉडल के भविष्य के छिपे हुए राज्यों को प्रभावित करने के लिए किया जाता है, इसलिए सजा के अंत से पहले 50 शब्द होने के बावजूद, उन प्रारंभिक शब्दों से छिपे हुए राज्य में आउटपुट को प्रभावित करने का एक सैद्धांतिक मौका होता है, भले ही यह कभी नहीं था नमूने पर प्रशिक्षित किया गया जिसमें "आई हेट दिस" और वाक्य के अंत के बीच इतनी बड़ी दूरी थी।