एक पदानुक्रमित सुदृढीकरण कार्य की संरचना सीखना

मैं पदानुक्रम सुदृढीकरण सीखने की समस्याओं का अध्ययन कर रहा हूं, और जब बहुत सारे कागजात एक नीति सीखने के लिए एल्गोरिदम का प्रस्ताव करते हैं, तो वे सभी को लगता है कि वे अग्रिम रूप से जानते हैं कि वे डोमेन में क्रियाओं के पदानुक्रम का वर्णन करते हुए एक ग्राफ संरचना को जानते हैं। उदाहरण के लिए, डिटेरिच द्वारा पदानुक्रमित सुदृढीकरण सीखने के लिए MAXQ विधि एक साधारण टैक्सी डोमेन के लिए कार्यों और उप-कार्यों के एक ग्राफ का वर्णन करती है, लेकिन यह नहीं कि यह ग्राफ़ कैसे खोजा गया था। आप इस ग्राफ के पदानुक्रम को कैसे सीखेंगे, न कि केवल नीति को?

दूसरे शब्दों में, कागज़ के उदाहरण का उपयोग करते हुए, यदि कोई टैक्सी दुनिया भर के पूर्व ज्ञान के साथ, और केवल आदिम चाल-बाएँ / चाल-दाएँ / आदि कार्यों के लिए, बिना किसी उद्देश्य के चारों ओर चला रहा था, तो यह उच्च स्तर की क्रियाएं कैसे सीखेगा जैसे जाने-पिकअप-यात्री? यदि मैं कागज को सही ढंग से समझ रहा हूं (और मैं नहीं हो सकता), तो यह प्रस्ताव करता है कि इन उच्च-स्तरीय कार्यों के लिए नीति को कैसे अपडेट किया जाए, लेकिन यह नहीं कि वे कैसे शुरू करने के लिए बने हैं।

machine-learning

— Cerin
स्रोत

इस कागज के अनुसार

वर्तमान अत्याधुनिक कला में, आरएल प्रणाली के डिजाइनर आमतौर पर एजेंट के लिए उपलब्ध आदिम क्रियाओं के सेट में विकल्पों के एक विशिष्ट सेट को जोड़ने के लिए कार्य के बारे में पूर्व ज्ञान का उपयोग करते हैं।

एक ही पेपर में सेक्शन 6.2 लर्निंग टास्क पदानुक्रम भी देखें।

पहला विचार जो मेरे दिमाग में आता है वह यह है कि यदि आप कार्य पदानुक्रम को नहीं जानते हैं, तो आपको गैर-श्रेणीबद्ध सुदृढीकरण सीखने के साथ शुरू करना चाहिए और बाद में या सीखते समय संरचना की खोज करने की कोशिश करनी चाहिए, अर्थात आप अपने मॉडल को सामान्य बनाने की कोशिश कर रहे हैं। मेरे लिए यह कार्य एचएसएम (उदाहरण के लिए यह थीसिस देखें ) के लिए बायेसियन मॉडल विलय तकनीक के समान दिखता है

— एलेक्सी कलमीकोव
स्रोत