एक सीएनएन अंतरिक्ष में पैटर्न को पहचानना सीखेगा। इसलिए, जैसा कि आप कहते हैं, एक सीएनएन एक छवि के घटकों (जैसे, लाइनें, घटता, आदि) को पहचानना सीख जाएगा और फिर इन घटकों को संयोजित करके बड़ी संरचनाओं (जैसे, चेहरे, ऑब्जेक्ट्स, आदि) को पहचानना सीखेगा।
आप बहुत सामान्य तरीके से कह सकते हैं, कि एक RNN इसी तरह समय के साथ पैटर्न को पहचानना सीखेगा। इसलिए एक आरएनएन जिसे पाठ का अनुवाद करने के लिए प्रशिक्षित किया गया है, वह सीख सकता है कि "हॉट" शब्द से पहले "कुत्ते" का अनुवाद अलग तरीके से किया जाना चाहिए।
तंत्र, जिसके द्वारा दो प्रकार के एनएन इन पैटर्न का प्रतिनिधित्व करते हैं, हालांकि, अलग है। सीएनएन के मामले में, आप छवि के सभी अलग-अलग उपक्षेत्रों पर समान पैटर्न की तलाश कर रहे हैं । एक आरएनएन के मामले में आप (सरलतम मामले में) पिछले चरण से छिपी हुई परतों को अगले चरण में एक अतिरिक्त इनपुट के रूप में खिलाते हैं। जबकि RNN इस प्रक्रिया में मेमोरी बनाता है, यह समय के विभिन्न स्लाइस पर समान पैटर्न की तलाश नहीं करता है, जिस तरह से CNN अंतरिक्ष के विभिन्न क्षेत्रों में समान पैटर्न की तलाश कर रहा है।
मुझे यह भी ध्यान देना चाहिए कि जब मैं यहां "समय" और "स्पेस" कहता हूं, तो इसे बहुत शाब्दिक रूप से नहीं लिया जाना चाहिए। आप उदाहरण के लिए, छवि कैप्शनिंग के लिए एक एकल छवि पर एक आरएनएन चला सकते हैं, और "समय" का अर्थ बस वह क्रम होगा जिसमें छवि के विभिन्न भागों को संसाधित किया जाता है। प्रारंभ में संसाधित की गई वस्तुएं बाद में संसाधित वस्तुओं के कैप्शनिंग को सूचित करेंगी।