शब्द-आधारित और चार-आधारित पाठ पीढ़ी RNN के बीच क्या अंतर है?


15

आवर्तक तंत्रिका नेटवर्क के साथ पाठ पीढ़ी के बारे में पढ़ते हुए मैंने देखा कि कुछ उदाहरणों को शब्द और दूसरों के चरित्र द्वारा पाठ शब्द उत्पन्न करने के लिए कार्यान्वित किया गया था, वास्तव में ऐसा क्यों किए बिना।

तो, RNN मॉडल के बीच अंतर क्या है जो पाठ प्रति शब्द आधार का अनुमान लगाता है और जो पाठ प्रति चार आधार का अनुमान लगाता है ? क्या शब्द-आधारित RNN को एक बड़े कॉर्पस आकार की आवश्यकता है? क्या चार्ट आधारित RNN बेहतर सामान्य करता है? हो सकता है कि केवल अंतर इनपुट प्रतिनिधित्व (एक-हॉट एन्कोडिंग, शब्द एम्बेडिंग) हो? टेक्स्ट जनरेशन के लिए कौन सा चुनना है?

जवाबों:


15

यहाँ वही है जो मैंने हाल ही में सीखा है।

जाहिर है, जब पाठ्य पीढ़ी RNN के बारे में बात कर रहे हैं, हम RNN भाषा मॉडल के बारे में बात कर रहे हैं। जब के बारे में पूछ शब्द / चार आधारित पाठ पीढ़ी RNNs, हम बारे में पूछ रहे शब्द / चार आधारित RNN भाषा मॉडल (एल एम)।

वर्ड-आधारित एलएम , चार-आधारित एलएम की तुलना में उच्च सटीकता और कम कम्प्यूटेशनल लागत प्रदर्शित करते हैं।

चरित्र स्तर मॉडल के लिए लंबी अवधि की स्मृति पर कब्जा करने की कठिनाई के कारण प्रदर्शन की यह गिरावट संभव नहीं है , क्योंकि लॉन्ग टर्म टर्म मेमोरी (एलएसटीएम) आवर्तक नेटवर्क शब्द-आधारित इनपुट के साथ बेहतर काम करते हैं।

इसका कारण यह है कि चार-आधारित RNN LMs को लंबे समय तक निर्भरता का मॉडल बनाने के लिए बहुत बड़ी छिपी हुई परत की आवश्यकता होती है जिसका अर्थ है उच्चतर कम्प्यूटेशनल लागत।

इसलिए, हम कह सकते हैं कि

में से एक मूलभूत अंतर के बीच शब्द स्तर और चरित्र स्तर मॉडल में है पैरामीटर की संख्या RNN प्रशिक्षण और परीक्षण के दौरान उपयोग करने के लिए है। छोटा आरएनएन की इनपुट और आउटपुट परत है, बड़ी को पूरी तरह से जुड़ी हुई छिपी हुई परत की जरूरत है, जो मॉडल के प्रशिक्षण को महंगा बनाता है।

हालांकि, एक आधारित आकारिकी जैसे फिनिश, तुर्की, रूसी आदि के साथ आरएनएन एलएम बेहतर मॉडल भाषाओं को आधारित करते हैं, ऐसी भाषाओं को मॉडल करने के लिए शब्द-आधारित आरएनएन एलएम का उपयोग करना मुश्किल है यदि संभव हो तो और सलाह नहीं दी जाती है।

उपरोक्त विश्लेषण विशेष रूप से समझ में आता है जब आप आउटपुट टेक्स्ट को देखते हैं, जो चार-आधारित आरएनएन द्वारा उत्पन्न होता है :

निवेशकों में आश्चर्य पैसे जुटाने के लिए नहीं थे। मैं उस समय के साथ कंपनी नहीं हूँ जब सभी जल्दी से दिलचस्प होते हैं, एक ही प्रोग्रामर से उतरना नहीं पड़ता।

जबकि साधारण वर्ण-आधारित अधिकतम संभावना एलएम एक 13-वर्ण विंडो के साथ इसे वितरित करता है:

और जब उसने कई ठोस ईंटें बनाईं। उसने उन्हें ढेर में ढेर कर दिया और उसके पैरों को सहलाया। डॉक्टर ने उसका बल्ला लगाकर निदान किया। लड़की और उसके प्रेमी ने उससे पूछा।

बेशक मैंने उदाहरण के लिए चेरी-पिक किया (वास्तव में अधिकांश एमएल एलएम उदाहरण मैंने अब तक पढ़े गए किसी भी आरएनएन उत्पन्न पाठ से बेहतर लग रहे थे) और इस छोटे एमएल एलएम को एक सरल कॉर्पस पर प्रशिक्षित किया गया था, लेकिन आपको यह विचार मिलता है: सीधी सशर्त संभावनाएं बेहतर साबित होती हैं कहीं अधिक जटिल चार-आधारित आरएनएन के ग्रंथ ।

चार-आधारित आरएनएन एलएम भाषा की एक विस्तृत श्रृंखला के लिए व्याकरणिक रूप से सही दृश्यों की नकल कर सकते हैं, बड़ी छिपी परत की आवश्यकता होती है और कम्प्यूटेशनल रूप से अधिक महंगी होती है, जबकि शब्द-आधारित आरएनएन एलएम तेजी से प्रशिक्षित करते हैं और अधिक सुसंगत ग्रंथों को उत्पन्न करते हैं और फिर भी ये उत्पन्न ग्रंथ वास्तविक अर्थ बनाने से बहुत दूर हैं। ।


1
बहुत बढ़िया टिप्पणी। यह जोड़ा जाना चाहिए कि कुछ समस्याओं के लिए एक या दूसरे को कम्प्यूटेशनल चिंताओं की परवाह किए बिना अधिक समझदारी हो सकती है। उदाहरण के लिए, यदि आपका लक्ष्य शब्दों के बीच संबंधों को खोजने के लिए शब्द वैक्टर का अध्ययन करना है या यदि आप किसी शब्द-विषय पर आधारित पाठ उत्पन्न करना चाहते हैं, तो आपको शब्द-आधारित आरएनएन के साथ जाना होगा। और, इसके विपरीत, शायद ऐसी समस्याएं हैं जहां चार-आधारित आरएनएन जाने का रास्ता है। यह इस पर भी निर्भर करता है कि उपयोगकर्ता क्या करने की कोशिश कर रहा है।
रिकार्डो क्रूज़

मुझे आपकी पिछली टिप्पणी समझ में नहीं आई: "चार-आधारित आरएनएन एलएम (...) कम हो जाता है जब यह वास्तविक समझ में आता है।" मैं एक शब्द आधारित RNN समझदारी भी नहीं देखा है। आपने यहां चार-आधारित मॉडलों को अलग क्यों किया?
रिकार्डो क्रूज़

मैंने अस्पष्ट अंत को अद्यतन किया है।
खनिज

बहुत बढ़िया जवाब! वास्तव में कोई यह आसानी से जोड़ सकता है कि इसमें शामिल कार्य, आपके डेटासेट का आकार, भाषाएँ और पूर्व-प्रसंस्करण का स्तर जो आप करने को तैयार हैं, पर बहुत कुछ निर्भर करता है। उदाहरण के लिए, समृद्ध आकारिकी भाषाओं को संसाधित करने के लिए और शब्दावली (OOV) शब्द से बाहर का प्रबंधन करने के लिए, आप लेमेटेटाइजेशन, पॉज़ टैगिंग और उपसर्गों, प्रत्ययों आदि के साथ वर्ड-मॉडल का उपयोग भी कर सकते हैं
COULOMO

5

एक अरब शब्दों के भाषा मॉडलिंग के बारे में एक अच्छा लेखन है । नीचे कुछ अंश दिए गए हैं:

शब्द-स्तरीय मॉडल का चरित्र-स्तर के मॉडल पर एक महत्वपूर्ण लाभ है।
एक उदाहरण के रूप में निम्नलिखित अनुक्रम लें (रॉबर्ट ए हेनलिन का एक उद्धरण):

प्रगति जल्दी राइजर द्वारा नहीं की गई है। यह आलसी पुरुषों द्वारा किया जाता है जो कुछ करने के आसान तरीके खोजने की कोशिश कर रहे हैं।

टोकेनाइजेशन के बाद, शब्द-स्तरीय मॉडल इस क्रम को 22 टोकन के रूप में देख सकता है। दूसरी ओर, चरित्र-स्तर इस क्रम को 102 टोकन के रूप में देखेगा। यह लंबा अनुक्रम वर्ण मॉडल के कार्य को शब्द मॉडल की तुलना में कठिन बनाता है, क्योंकि इसे अधिक समय-चरणों में टोकन के बीच निर्भरता को ध्यान में रखना चाहिए। चरित्र भाषा मॉडल के साथ एक और मुद्दा यह है कि उन्हें वाक्यविन्यास, शब्दार्थ आदि के अलावा वर्तनी सीखने की जरूरत है। किसी भी मामले में, शब्द भाषा मॉडल में आमतौर पर चरित्र मॉडल की तुलना में कम त्रुटि होगी।

शब्द भाषा के मॉडल पर चरित्र का मुख्य लाभ यह है कि उनके पास वास्तव में छोटी शब्दावली है। उदाहरण के लिए, GBW डेटासेट में 800,000 शब्दों की तुलना में लगभग 800 अक्षर होंगे (कम-आवृत्ति वाले टोकन की छंटाई के बाद)। व्यवहार में इसका मतलब है कि चरित्र मॉडल को कम स्मृति की आवश्यकता होगी और उनके शब्द समकक्षों की तुलना में तेजी से प्रवेश होगा। एक और लाभ यह है कि उन्हें प्रीप्रोसेसिंग कदम के रूप में टोकन की आवश्यकता नहीं होती है।


1

मेरी राय में, चरित्र आधारित RNN भी बेहतर प्रदर्शन करेंगे, लेकिन उन्हें शब्द आधारित मॉडल की तुलना में बहुत अधिक डेटा की आवश्यकता होती है और चरित्र आधारित मॉडल को अधिक लंबी अवधि के लिए प्रशिक्षित करने की आवश्यकता होती है। मैं कहूंगा कि यह परीक्षण और त्रुटि के साथ-साथ उपलब्ध डेटा और गणना शक्ति के बीच एक व्यापार-बंद का अधिक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.