एक पदानुक्रमित सुदृढीकरण कार्य की संरचना सीखना


9

मैं पदानुक्रम सुदृढीकरण सीखने की समस्याओं का अध्ययन कर रहा हूं, और जब बहुत सारे कागजात एक नीति सीखने के लिए एल्गोरिदम का प्रस्ताव करते हैं, तो वे सभी को लगता है कि वे अग्रिम रूप से जानते हैं कि वे डोमेन में क्रियाओं के पदानुक्रम का वर्णन करते हुए एक ग्राफ संरचना को जानते हैं। उदाहरण के लिए, डिटेरिच द्वारा पदानुक्रमित सुदृढीकरण सीखने के लिए MAXQ विधि एक साधारण टैक्सी डोमेन के लिए कार्यों और उप-कार्यों के एक ग्राफ का वर्णन करती है, लेकिन यह नहीं कि यह ग्राफ़ कैसे खोजा गया था। आप इस ग्राफ के पदानुक्रम को कैसे सीखेंगे, न कि केवल नीति को?

दूसरे शब्दों में, कागज़ के उदाहरण का उपयोग करते हुए, यदि कोई टैक्सी दुनिया भर के पूर्व ज्ञान के साथ, और केवल आदिम चाल-बाएँ / चाल-दाएँ / आदि कार्यों के लिए, बिना किसी उद्देश्य के चारों ओर चला रहा था, तो यह उच्च स्तर की क्रियाएं कैसे सीखेगा जैसे जाने-पिकअप-यात्री? यदि मैं कागज को सही ढंग से समझ रहा हूं (और मैं नहीं हो सकता), तो यह प्रस्ताव करता है कि इन उच्च-स्तरीय कार्यों के लिए नीति को कैसे अपडेट किया जाए, लेकिन यह नहीं कि वे कैसे शुरू करने के लिए बने हैं।

जवाबों:


8

इस कागज के अनुसार

वर्तमान अत्याधुनिक कला में, आरएल प्रणाली के डिजाइनर आमतौर पर एजेंट के लिए उपलब्ध आदिम क्रियाओं के सेट में विकल्पों के एक विशिष्ट सेट को जोड़ने के लिए कार्य के बारे में पूर्व ज्ञान का उपयोग करते हैं।

एक ही पेपर में सेक्शन 6.2 लर्निंग टास्क पदानुक्रम भी देखें।

पहला विचार जो मेरे दिमाग में आता है वह यह है कि यदि आप कार्य पदानुक्रम को नहीं जानते हैं, तो आपको गैर-श्रेणीबद्ध सुदृढीकरण सीखने के साथ शुरू करना चाहिए और बाद में या सीखते समय संरचना की खोज करने की कोशिश करनी चाहिए, अर्थात आप अपने मॉडल को सामान्य बनाने की कोशिश कर रहे हैं। मेरे लिए यह कार्य एचएसएम (उदाहरण के लिए यह थीसिस देखें ) के लिए बायेसियन मॉडल विलय तकनीक के समान दिखता है

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.