तंत्रिका नेटवर्क का उपयोग करते हुए क्यू-लर्निंग के बारे में प्रश्न


14

मैंने क्यू-लर्निंग को इस रूप में वर्णित किया है,

http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf

लगभग करने के लिए। क्यू (एस, ए) मैं निम्नलिखित की तरह एक तंत्रिका नेटवर्क संरचना का उपयोग करता हूं,

  • एक्टिवेशन सिग्मॉइड
  • एक्शन न्यूरॉन्स के लिए इनपुट्स, इनपुट्स + 1 की संख्या (सभी इनपुट्स स्केल २. number)
  • आउटपुट, एकल आउटपुट। क्यू मूल्य
  • N हिडन एम लेयर्स की संख्या।
  • अन्वेषण विधि यादृच्छिक 0 <रैंड () <PropExplore

निम्नलिखित सूत्र का उपयोग करते हुए प्रत्येक सीखने के पुनरावृत्ति में,

यहाँ छवि विवरण दर्ज करें

मैं Q- लक्ष्य मान की गणना करता हूं, फिर एक त्रुटि का उपयोग करके गणना करता हूं,

error = QTarget - LastQValueReturnedFromNN

और तंत्रिका नेटवर्क के माध्यम से त्रुटि को वापस फैलाना।

Q1, क्या मैं सही रास्ते पर हूँ? मैंने कुछ कागजात देखे हैं जो प्रत्येक क्रिया के लिए एक आउटपुट न्यूरॉन के साथ एक एनएन लागू करते हैं।

Q2, मेरा इनाम फ़ंक्शन -1 और 1 के बीच एक संख्या देता है। क्या सक्रियण फ़ंक्शन सिग्मॉइड (0 1) के बीच -1 और 1 के बीच की संख्या वापस करना ठीक है

Q3, इस पद्धति के बारे में मेरी समझ से पर्याप्त प्रशिक्षण के उदाहरण दिए गए हैं, जिन्हें एक इष्टतम नीतिगत दृष्टि खोजने के लिए इसे छोड़ दिया जाना चाहिए? जब XOR के लिए प्रशिक्षण कभी-कभी इसे 2k पुनरावृत्तियों के बाद सीखता है तो कभी-कभी यह 40k 50k पुनरावृत्तियों के बाद भी नहीं सीखेगा।


जिज्ञासा से बाहर, आपने स्टेट इनपुट को एक्शन इनपुट के साथ कैसे जोड़ा, ताकि दोनों को एक ही समय में नेटवर्क में फीड किया जा सके? क्या आपके पास सार्वजनिक रूप से उपलब्ध कोड का यह हिस्सा है? धन्यवाद!
पेड्रो लोप्स

जवाबों:


9

Q1। आप निश्चित रूप से सही रास्ते पर हैं, लेकिन कुछ बदलाव बेहद मदद कर सकते हैं। कुछ लोग प्रति एक्शन के लिए एक आउटपुट यूनिट का उपयोग करते हैं ताकि उन्हें केवल एक्शन सिलेक्शन के लिए एक बार अपना नेटवर्क चलाना पड़े (आपको प्रत्येक संभावित एक्शन के लिए एक बार अपना नेट चलाना होगा)। लेकिन इससे सीखने के संबंध में कोई फर्क नहीं पड़ना चाहिए , और यह तभी लागू हो सकता है जब आप अपने मॉडल को महत्वपूर्ण रूप से बढ़ाने की योजना बना रहे हों।

Q2। आम तौर पर, लोग अपने तंत्रिका नेटवर्क की अंतिम परत के लिए एक रैखिक सक्रियण फ़ंक्शन का उपयोग करते हैं , खासकर सुदृढीकरण सीखने के लिए। इसके कई कारण हैं, लेकिन सबसे महत्वपूर्ण यह है कि एक रैखिक सक्रियण फ़ंक्शन आपको अपने आउटपुट के रूप में वास्तविक संख्याओं की पूरी श्रृंखला का प्रतिनिधित्व करने की अनुमति देता है। इस प्रकार, भले ही आप अपने कार्य के लिए पुरस्कारों पर सीमा नहीं जानते हों, फिर भी आपको उस सीमा का प्रतिनिधित्व करने में सक्षम होने की गारंटी है।

Q3। दुर्भाग्य से, सुदृढीकरण सीखने के साथ तंत्रिका नेटवर्क (और आमतौर पर गैर-रेखीय फ़ंक्शन सन्निकटन) के संयोजन के लिए सैद्धांतिक गारंटी बहुत अधिक गैर-मौजूद है। सुदृढीकरण सीखने के कुछ कट्टरपंथी संस्करण हैं (मुख्य रूप से सटन लैब से बाहर) जो आपके द्वारा उल्लिखित अभिसरण के दावों का प्रकार बना सकते हैं, लेकिन मैंने कभी भी उन एल्गोरिदम को 'वाइल्ड' में नहीं देखा है। इसका कारण यह है कि जहां शानदार प्रदर्शन का वादा नहीं किया जा सकता है, यह आमतौर पर अभ्यास में प्राप्त किया जाता है, हाइपर-मापदंडों और प्रारंभिक स्थितियों पर उचित ध्यान देने के साथ।

एक अंतिम बिंदु जो सामान्य रूप से तंत्रिका नेटवर्क के लिए उल्लेख करता है: बहुत सी छिपी परतों के साथ नेटवर्क के लिए सिग्मॉइड सक्रियण कार्यों का उपयोग न करें! वे 'लुप्त ग्रेडियों' की समस्या से ग्रस्त हैं; त्रुटि संकेत शायद ही पहले की परतों तक पहुँचता है (फ़ंक्शन के व्युत्पन्न को देखते हुए यह स्पष्ट करना चाहिए कि यह मामला क्यों है)। इसके बजाय, रेक्टिफाइड रैखिक इकाइयों (RELU) या 'सॉफ्ट प्लस' इकाइयों का उपयोग करने की कोशिश करें, क्योंकि वे आम तौर पर गहरे नेटवर्क में बेहतर प्रदर्शन करते हैं।

सुदृढीकरण सीखने के साथ प्रशिक्षित तंत्रिका नेटवर्क के एक महान कार्यान्वयन के लिए यह पेपर देखें:

मिन्ह, वोलोडिमिर, एट अल। "गहरी सुदृढीकरण सीखने के साथ अटारी बजाना।" arXiv प्रीप्रिंट arXiv: 1312.5602 (2013)।


0

सक्रियण फ़ंक्शन के लिए, मैक्सआउट भी अच्छी तरह से काम करता है। गहरे नेटवर्क के लिए उचित ट्रेनर का उपयोग करना महत्वपूर्ण है, मैंने विभिन्न प्रशिक्षकों की कोशिश की थी, लेकिन आरएमएसप्रॉप के साथ रहने का फैसला किया और यह बहुत अच्छा लग रहा है!


1
साइट में आपका स्वागत है, @ user3355911 यह शायद यहाँ एक जवाब होने के लिए भी विरल है। क्या आप इसका विस्तार कर सकते हैं और इसे और बढ़ा सकते हैं?
गुंग - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.