मैं पदानुक्रम सुदृढीकरण सीखने की समस्याओं का अध्ययन कर रहा हूं, और जब बहुत सारे कागजात एक नीति सीखने के लिए एल्गोरिदम का प्रस्ताव करते हैं, तो वे सभी को लगता है कि वे अग्रिम रूप से जानते हैं कि वे डोमेन में क्रियाओं के पदानुक्रम का वर्णन करते हुए एक ग्राफ संरचना को जानते हैं। उदाहरण के लिए, डिटेरिच द्वारा पदानुक्रमित सुदृढीकरण सीखने के लिए MAXQ विधि एक साधारण टैक्सी डोमेन के लिए कार्यों और उप-कार्यों के एक ग्राफ का वर्णन करती है, लेकिन यह नहीं कि यह ग्राफ़ कैसे खोजा गया था। आप इस ग्राफ के पदानुक्रम को कैसे सीखेंगे, न कि केवल नीति को?
दूसरे शब्दों में, कागज़ के उदाहरण का उपयोग करते हुए, यदि कोई टैक्सी दुनिया भर के पूर्व ज्ञान के साथ, और केवल आदिम चाल-बाएँ / चाल-दाएँ / आदि कार्यों के लिए, बिना किसी उद्देश्य के चारों ओर चला रहा था, तो यह उच्च स्तर की क्रियाएं कैसे सीखेगा जैसे जाने-पिकअप-यात्री? यदि मैं कागज को सही ढंग से समझ रहा हूं (और मैं नहीं हो सकता), तो यह प्रस्ताव करता है कि इन उच्च-स्तरीय कार्यों के लिए नीति को कैसे अपडेट किया जाए, लेकिन यह नहीं कि वे कैसे शुरू करने के लिए बने हैं।