गहन सुदृढीकरण सीखने पर दीपमिन्द के 2015 के पेपर में, यह कहा गया है कि "तंत्रिका नेटवर्क के साथ आरएल को संयोजित करने का पिछला प्रयास अस्थिर सीखने के कारण काफी हद तक विफल रहा था"। इस पत्र में इसके कुछ कारणों को सूचीबद्ध किया गया है, जो अवलोकनों में सहसंबंधों के आधार पर हैं।
कृपया कोई समझा सकता है कि इसका क्या मतलब है? क्या यह ओवरफिटिंग का एक रूप है, जहां तंत्रिका नेटवर्क कुछ संरचना सीखता है जो प्रशिक्षण में मौजूद है, लेकिन परीक्षण में मौजूद नहीं हो सकता है? या इसका मतलब कुछ और है?
पेपर पाया जा सकता है: http://www.nature.com/nature/journal/v518/n7540/full/nature18236.html
और जिस खंड को मैं समझने की कोशिश कर रहा हूं वह है:
सुदृढीकरण सीखने को अस्थिर या तब भी विचलित करने के लिए जाना जाता है जब क्रिया-मूल्य (जिसे Q के रूप में भी जाना जाता है) का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क जैसे गैर-रेखीय फ़ंक्शन सन्निकटन का उपयोग किया जाता है। इस अस्थिरता के कई कारण हैं: अवलोकनों के अनुक्रम में मौजूद सहसंबंध, तथ्य यह है कि क्यू के लिए छोटे अपडेट नीति को महत्वपूर्ण रूप से बदल सकते हैं और इसलिए डेटा वितरण और क्रिया-मूल्यों और लक्ष्य मानों के बीच सहसंबंधों को बदल सकते हैं।
हम इन अस्थिरताओं को क्यू-लर्निंग के एक उपन्यास संस्करण के साथ संबोधित करते हैं, जो दो प्रमुख विचारों का उपयोग करता है। सबसे पहले, हमने एक जैविक रूप से प्रेरित तंत्र कहा जाता है, जो कि डेटा पर यादृच्छिकता प्रदान करने वाले अनुभव रिप्ले का उपयोग करता है, जिससे अवलोकन अनुक्रम में सहसंबंधों को दूर किया जाता है और डेटा वितरण में परिवर्तन पर चौरसाई होती है। दूसरा, हमने एक पुनरावृत्त अद्यतन का उपयोग किया, जो केवल समय-समय पर अद्यतन किए जाने वाले लक्ष्य मानों के प्रति क्रिया-मूल्यों (Q) को समायोजित करता है, जिससे लक्ष्य के साथ सहसंबंध कम हो जाते हैं।