मैं सुदृढीकरण लर्निंग एल्गोरिदम का उपयोग करते हुए रोबोट के बाद एक लाइन प्रोग्रामिंग करने पर विचार कर रहा हूं। मैं जिस सवाल पर विचार कर रहा हूं, वह यह है कि मैं किसी भी मनमाने रास्ते से नेविगेट करने के लिए एल्गोरिथ्म कैसे प्राप्त कर सकता हूं?
सुदृढीकरण सीखने के लिए सटन और बार्टो बुक का अनुसरण करने के बाद , मैंने एक रेसट्रैक को शामिल करने वाली एक व्यायाम समस्या को हल किया, जहां कार एजेंट ने ट्रैक से दूर नहीं जाना और इसकी गति को विनियमित करना सीखा। हालांकि, उस व्यायाम समस्या से एजेंट को यह जानने का मौका मिला कि इसे किस तरह से ट्रैक किया जाए।
क्या यह सुदृढीकरण सीखने के दायरे में है कि एक रोबोट को मनमाना पथ नेविगेट करने के लिए मिल सके? एजेंट है बिल्कुल दौड़ सर्किट या पथ का एक नक्शा है करने के लिए है? मैं अपने राज्य स्थान के लिए संभवतः किन मापदंडों का उपयोग कर सकता हूं?