गहन सुदृढीकरण अस्थिर क्यों है?


13

गहन सुदृढीकरण सीखने पर दीपमिन्द के 2015 के पेपर में, यह कहा गया है कि "तंत्रिका नेटवर्क के साथ आरएल को संयोजित करने का पिछला प्रयास अस्थिर सीखने के कारण काफी हद तक विफल रहा था"। इस पत्र में इसके कुछ कारणों को सूचीबद्ध किया गया है, जो अवलोकनों में सहसंबंधों के आधार पर हैं।

कृपया कोई समझा सकता है कि इसका क्या मतलब है? क्या यह ओवरफिटिंग का एक रूप है, जहां तंत्रिका नेटवर्क कुछ संरचना सीखता है जो प्रशिक्षण में मौजूद है, लेकिन परीक्षण में मौजूद नहीं हो सकता है? या इसका मतलब कुछ और है?


पेपर पाया जा सकता है: http://www.nature.com/nature/journal/v518/n7540/full/nature18236.html

और जिस खंड को मैं समझने की कोशिश कर रहा हूं वह है:

सुदृढीकरण सीखने को अस्थिर या तब भी विचलित करने के लिए जाना जाता है जब क्रिया-मूल्य (जिसे Q के रूप में भी जाना जाता है) का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क जैसे गैर-रेखीय फ़ंक्शन सन्निकटन का उपयोग किया जाता है। इस अस्थिरता के कई कारण हैं: अवलोकनों के अनुक्रम में मौजूद सहसंबंध, तथ्य यह है कि क्यू के लिए छोटे अपडेट नीति को महत्वपूर्ण रूप से बदल सकते हैं और इसलिए डेटा वितरण और क्रिया-मूल्यों और लक्ष्य मानों के बीच सहसंबंधों को बदल सकते हैं।

हम इन अस्थिरताओं को क्यू-लर्निंग के एक उपन्यास संस्करण के साथ संबोधित करते हैं, जो दो प्रमुख विचारों का उपयोग करता है। सबसे पहले, हमने एक जैविक रूप से प्रेरित तंत्र कहा जाता है, जो कि डेटा पर यादृच्छिकता प्रदान करने वाले अनुभव रिप्ले का उपयोग करता है, जिससे अवलोकन अनुक्रम में सहसंबंधों को दूर किया जाता है और डेटा वितरण में परिवर्तन पर चौरसाई होती है। दूसरा, हमने एक पुनरावृत्त अद्यतन का उपयोग किया, जो केवल समय-समय पर अद्यतन किए जाने वाले लक्ष्य मानों के प्रति क्रिया-मूल्यों (Q) को समायोजित करता है, जिससे लक्ष्य के साथ सहसंबंध कम हो जाते हैं।


यह सुनिश्चित करने के लिए कि आप अपने एजेंट को असंबद्ध डेटा पर प्रशिक्षित कर रहे हैं, आपको प्रत्येक चरण में एजेंट मेमोरी को अपडेट नहीं करना चाहिए, डेटा में एक सजावट बनाने के लिए एक स्टोरिंग चरण को ठीक करें।
नरजनी कर्म

जवाबों:


11

मुख्य समस्या यह है कि, कई अन्य क्षेत्रों की तरह, DNN को प्रशिक्षित करना कठिन हो सकता है। यहां, एक समस्या इनपुट डेटा का सहसंबंध है: यदि आप एक वीडियो गेम के बारे में सोचते हैं (वे वास्तव में अपने एल्गोरिदम का परीक्षण करने के लिए उन का उपयोग करते हैं), तो आप कल्पना कर सकते हैं कि स्क्रीनशॉट एक के बाद एक कदम सहसंबद्ध हैं: खेल "लगातार" विकसित होता है। कि, NN के लिए, एक समस्या हो सकती है: समान और सहसंबद्ध इनपुट पर ढाल वंश के कई पुनरावृत्तियों को करने से उन्हें ओवरफिट हो सकता है और / या स्थानीय न्यूनतम में गिर सकता है। यही कारण है कि वे अनुभव पुनरावृत्ति का उपयोग करते हैं: वे खेल के "स्नैपशॉट्स" की एक श्रृंखला को संग्रहीत करते हैं, फिर उन्हें फेरबदल करते हैं, और बाद में प्रशिक्षण करने के लिए उन्हें कुछ कदम उठाते हैं। इस तरह, डेटा अब सहसंबद्ध नहीं है। फिर, वे नोटिस करते हैं कि प्रशिक्षण के दौरान क्यू मान (एनएन द्वारा भविष्यवाणी की गई) चालू नीति को कैसे बदल सकते हैं,


"फेरबदल" डेटा से, क्या आपको मिनी-बैच में यादृच्छिक, आउट-ऑफ-सीक्वेंस के अनुभवों का मतलब है? यह "रियायती भविष्य के इनाम" के अनुरूप कैसे है, जो कि अनुक्रमों के अनुभवों को नापसंद करता है?
isobretatel
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.