LSTM पर GRU का उपयोग कब करें?


95

एक GRU और एक LSTM के बीच मुख्य अंतर यह है कि एक GRU में दो गेट ( रीसेट और अपडेट गेट्स) होते हैं जबकि एक LSTM में तीन गेट होते हैं (जैसे इनपुट , आउटपुट और गेट्स भूल जाते हैं)।

जब हम स्पष्ट रूप से LSTM मॉडल के माध्यम से नेटवर्क पर अधिक नियंत्रण रखते हैं (जैसा कि हमारे पास तीन द्वार हैं) तो हम GRU का उपयोग क्यों करते हैं? किस परिदृश्य में LSTM पर GRU को प्राथमिकता दी जाती है?


1
एक GRU थोड़ा कम जटिल है, लेकिन लगभग एक LSTM प्रदर्शन-वार जितना अच्छा है। TensorFlow में एक कार्यान्वयन यहां पाया गया है: data-blogger.com/2017/08/27/gru-implementation-tensorflow
www.data-blogger.com

जवाबों:


64

GRU, LSTM से संबंधित है क्योंकि दोनों अलग-अलग तरह से उपयोग कर रहे हैं यदि जानकारी को गायब करने वाली ग्रेडिएंट समस्या को रोकने के लिए। यहां जीआरयू बनाम एलएसटीएम के बारे में कुछ पिन-पॉइंट दिए गए हैं-

  • GRU LSTM इकाई की तरह सूचना के प्रवाह को नियंत्रित करता है, लेकिन मेमोरी यूनिट का उपयोग किए बिना । यह बिना किसी नियंत्रण के पूर्ण छिपी हुई सामग्री को उजागर करता है।
  • GRU अपेक्षाकृत नया है, और मेरे दृष्टिकोण से, प्रदर्शन LSTM के बराबर है, लेकिन कम्प्यूटेशनल रूप से अधिक कुशल ( कम जटिल संरचना जैसा बताया गया है )। इसलिए हम इसे अधिक से अधिक इस्तेमाल करते हुए देख रहे हैं।

विस्तृत विवरण के लिए, आप इस शोध पत्र - Arxiv.org को देख सकते हैं । कागज यह सब शानदार ढंग से समझाता है।

इसके अलावा, आप एक बेहतर विचार के लिए इन ब्लॉगों को भी देख सकते हैं-

आशा है ये मदद करेगा!


1
आपके उत्तर के अलावा जीआरयू और एलएसटीएम और उनके विभिन्न क्रमपरिवर्तन "आवर्तक नेटवर्क आर्किटेक्चर का एक अनुभवजन्य अन्वेषण" Google
खनिजों

38

* ऊपर पहले से ही महान जवाब के पूरक हैं।

  • मेरे अनुभव से, GRUs तेजी से प्रशिक्षण देते हैं और कम प्रशिक्षण डेटा पर LSTM से बेहतर प्रदर्शन करते हैं यदि आप भाषा मॉडलिंग कर रहे हैं (अन्य कार्यों के बारे में निश्चित नहीं)।

  • GRUs सरल होते हैं और इस प्रकार संशोधित करना आसान होता है, उदाहरण के लिए नेटवर्क में अतिरिक्त इनपुट के मामले में नए द्वार जोड़ना। यह सामान्य रूप से कम कोड है।

  • LSTM को सिद्धांत रूप में GRUs की तुलना में लंबे दृश्यों को याद रखना चाहिए और मॉडलिंग में लंबी दूरी के संबंधों की आवश्यकता होती है।

* कुछ अतिरिक्त कागजात जो GRU और LSTM का विश्लेषण करते हैं।

  • "न्यूरल जीपीयू जानें एल्गोरिदम" (Kaukasz Kaiser, Ilya Sutskever, 2015) https://arxiv.org/abs/1511.08228

  • "प्राकृतिक भाषा प्रसंस्करण के लिए सीएनएन और आरएनएन का तुलनात्मक अध्ययन" (वेनपेंग यिन एट अल। 2017) https://arxiv.org/abs/1702.01923


9

यह जवाब वास्तव में डेटासेट और उपयोग के मामले पर निहित है। यह निश्चित रूप से बताना कठिन है जो बेहतर है।

  • GRU, LSTM के विपरीत पूर्ण मेमोरी को उजागर करता है, इसलिए ऐसे अनुप्रयोग जो लाभ के रूप में कार्य करते हैं, सहायक हो सकते हैं। इसके अलावा, जीआरयू का उपयोग करने के लिए क्यों जोड़ना - यह LSTM की तुलना में कम्प्यूटेशनल रूप से आसान है क्योंकि इसमें केवल 2 गेट हैं और अगर यह प्रदर्शन LSTM के बराबर है, तो क्यों नहीं?
  • यह पत्र एक सरल RNN पर gated नेटवर्क की श्रेष्ठता के ग्राफ के साथ उत्कृष्ट प्रदर्शन करता है लेकिन स्पष्ट रूप से उल्लेख करता है कि यह निष्कर्ष नहीं निकाल सकता है कि दोनों में से कौन बेहतर है। इसलिए, यदि आप अपने मॉडल के रूप में उपयोग करने के लिए उलझन में हैं, तो मैं आपको दोनों को प्रशिक्षित करने और फिर उनमें से बेहतर होने का सुझाव दूंगा।

8

पूर्ण GRU इकाई

c~t=tanh(Wc[Grct1,xt]+bc)

Gu=σ(Wu[ct1,xt]+bu)

Gr=σ(Wr[ct1,xt]+br)

ct=Guc~t+(1Gu)ct1

at=ct

LSTM इकाई

c~t=tanh(Wc[at1,xt]+bc)

Gu=σ(Wu[at1,xt]+bu)

Gf=σ(Wf[at1,xt]+bf)

Go=σ(Wo[at1,xt]+bo)

ct=Guc~t+Gfct1

at=Gotanh(ct)

जैसा कि समीकरणों से देखा जा सकता है कि LSTM में एक अलग अपडेट गेट और गेट भूल गया है। यह स्पष्ट रूप से LSTM को अधिक परिष्कृत बनाता है लेकिन साथ ही साथ अधिक जटिल भी है। यह तय करने का कोई सरल तरीका नहीं है कि आपके विशेष उपयोग के मामले में किसका उपयोग किया जाए। प्रदर्शन का परीक्षण करने के लिए आपको हमेशा परीक्षण और त्रुटि करनी होती है। हालाँकि, क्योंकि GRU, LSTM की तुलना में सरल है, GRUs को प्रशिक्षित होने में बहुत कम समय लगेगा और अधिक कुशल हैं।

क्रेडिट: एंड्रयू एनजी


हाथ से लिखे जाने के बाद अगली स्लाइड पर, अंतिम समीकरण अलग है: । इस सूत्र की पुष्टि यहीं की गई हैa<t>=Γotanh(c~<t>)
टॉम हेल

1

GRU LSTM से बेहतर है क्योंकि इसे संशोधित करना आसान है और इसके लिए मेमोरी इकाइयों की आवश्यकता नहीं है, इसलिए, LSTM की तुलना में प्रशिक्षित करने और प्रदर्शन के अनुसार देने के लिए तेज़ है।


12
कृपया निष्पक्ष संदर्भ के साथ प्रदर्शन के दावे का समर्थन करें
कारी

1

दरअसल, मुख्य अंतर इससे कहीं अधिक है: दीर्घावधि अवधि (LSTM) परसेप्ट्रान संवेग और ढाल वंशीय एल्गोरिदम का उपयोग करके बनाए जाते हैं। जब आप LSTM परसेप्ट्रोन को उनके पुनरावर्ती समकक्ष RNN के साथ समेटते हैं, तो आप GRU के साथ आते हैं जो वास्तव में सिर्फ एक सामान्यीकृत आवर्तक इकाई या ग्रेडिएंट रिक्रंट यूनिट (संदर्भ के आधार पर) है जो अधिक निकटता और ढाल वंश एल्गोरिदम को एकीकृत करता है। क्या मैं आप थे, मैं एडमऑप्टिमाइज़र पर अधिक शोध करूँगा।

GRU एक पुरानी अवधारणा है। हालाँकि, मैं समझ सकता हूँ कि आप इसे शोध कर सकते हैं यदि आप टीएफ के मध्यम-उन्नत गहराई से ज्ञान चाहते हैं।


8
मैं उत्सुक हूँ। क्या आप समझा सकते हैं कि जीआरयू एक पुरानी अवधारणा क्यों है?
random_user
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.