सुदृढीकरण सीखने के साथ रोबोट के बाद एक लाइन प्रोग्रामिंग

मैं सुदृढीकरण लर्निंग एल्गोरिदम का उपयोग करते हुए रोबोट के बाद एक लाइन प्रोग्रामिंग करने पर विचार कर रहा हूं। मैं जिस सवाल पर विचार कर रहा हूं, वह यह है कि मैं किसी भी मनमाने रास्ते से नेविगेट करने के लिए एल्गोरिथ्म कैसे प्राप्त कर सकता हूं?

सुदृढीकरण सीखने के लिए सटन और बार्टो बुक का अनुसरण करने के बाद , मैंने एक रेसट्रैक को शामिल करने वाली एक व्यायाम समस्या को हल किया, जहां कार एजेंट ने ट्रैक से दूर नहीं जाना और इसकी गति को विनियमित करना सीखा। हालांकि, उस व्यायाम समस्या से एजेंट को यह जानने का मौका मिला कि इसे किस तरह से ट्रैक किया जाए।

क्या यह सुदृढीकरण सीखने के दायरे में है कि एक रोबोट को मनमाना पथ नेविगेट करने के लिए मिल सके? एजेंट है बिल्कुल दौड़ सर्किट या पथ का एक नक्शा है करने के लिए है? मैं अपने राज्य स्थान के लिए संभवतः किन मापदंडों का उपयोग कर सकता हूं?

— भगवान लोह।
स्रोत

मैं नहीं जानता कि कैसे, लेकिन मुझे यकीन है कि यह अपने आप को एक पथ के भीतर रखने के लिए सिखाना संभव है, इसके आकार की परवाह किए बिना। इस मामले में पढ़ाने का लक्ष्य यह होना चाहिए कि रोबोट अपने तात्कालिक इनपुट्स (या शायद कुछ इतिहास) के आधार पर क्या स्थानीय निर्णय लेता है। इस तरह, यह कोई फर्क नहीं पड़ता कि पथ का आकार क्या है, क्योंकि सभी निर्णय स्थानीय हैं।

— शाहबाज

@ शहबाज - आप क्या सुझाव देंगे कि मैं राज्य के लिए उपयोग करूं?

— भगवान लोह।

मुझे वास्तव में यकीन नहीं है। भले ही मैंने विश्वविद्यालय में एआई की पढ़ाई की हो, लेकिन यह मेरा कार्यक्षेत्र / शोध कभी नहीं था। आपके द्वारा स्वीकार किया गया उत्तर उचित लगता है!

— शाहबाज

क्या आप मार्कडाउन का परीक्षण करने के लिए एक उत्तर का उपयोग कर रहे हैं? आप बस यह लिख सकते हैं कि आप क्या चाहते हैं और इसके नीचे तत्काल प्रतिपादन देखें, और फिर इसे पोस्ट न करें ।

— शहबाज

जवाबों:

किसी भी मशीन लर्निंग एल्गोरिदम के प्रमुख उपायों में से एक यह सामान्यीकरण करने की क्षमता है (यानी जो पहले के परिदृश्य को सीखा है उसे लागू करें)। सुदृढीकरण सीखने वाले (आरएल) अच्छी तरह से सामान्यीकरण कर सकते हैं लेकिन यह क्षमता मेरे अनुभव में राज्य-अंतरिक्ष निर्माण के एक भाग के रूप में है। इसका मतलब है कि यदि आप सही सेटअप पा सकते हैं तो आरएल शिक्षार्थी को रेस सर्किट के नक्शे की आवश्यकता नहीं होगी।

यह प्रश्न छोड़ देता है कि किन मापदंडों का उपयोग करना है। आपके रोबोट पर उपलब्ध सेंसर के बारे में अधिक जानकारी के बिना मैं केवल अनुमान लगा सकता हूं। मेरा पहला झुकाव लाइन और रोबोट के सापेक्ष अभिविन्यास को एन्कोड करने का प्रयास करना है (यानी रोबोट दाईं ओर, बाईं ओर या बस लाइन के साथ समानांतर चलती है)। ऐसा करने से राज्य की स्थिति अच्छी हो जाएगी। हालांकि कड़ाई से आवश्यक नहीं है कि यह एक त्वरित और सरल कार्यान्वयन के लिए बने। इसके अलावा, अगर रोबोट लगातार गति से आगे बढ़ने वाला नहीं है, तो यह रोबोट के वेग को एन्कोड करने में मदद कर सकता है क्योंकि उच्च गति पर चलते समय रोबोट को अधिक तेज़ी से प्रतिक्रिया करने की आवश्यकता होगी।

— DaemonMaker
स्रोत

नक्शे के बिना, राज्य स्थान सिर्फ रोबोट है जो अपनी तत्काल स्थिति से समझ सकता है। तो कुछ हद तक, नक्शा "आगे देखने" का एक तरीका है। मैप-कम परिदृश्य में सीखा व्यवहार अनिवार्य रूप से "पहले जैसा ही काम करेगा, लेकिन धीमी गति से करें क्योंकि हम नहीं जानते कि इस समय मोड़ कहां हैं"। (संभवत:, आप बता पाएंगे कि ट्रैक के किनारे कहाँ हैं।)

— इयान

एक नीति हमें बताती है कि किसी राज्य को लागू करने के लिए क्या नियंत्रण है। यदि RL एजेंट के लिए राज्य-स्थान को अच्छी तरह से तैयार किया गया है, तो अलग-अलग परिदृश्य राज्य-स्थान में समान दिख सकते हैं और समान व्यवहार प्राप्त कर सकते हैं। इसे सामान्यीकरण कहा जाता है और सही ढंग से किए जाने पर यह वांछनीय है। यह नियंत्रण लूप की गति के आधार पर रोबोट की अधिकतम गति होगी। सीखा हुआ व्यवहार आवश्यक रूप से धीमा नहीं होगा। यदि इनाम रन के समय की लंबाई से संबंधित है, तो एजेंट इसे नियंत्रण लूप की गति के संबंध में अधिकतम गति के लिए इच्छुक होगा।

— DaemonMaker

मुझे यकीन नहीं है कि आपके पास किस प्रकार का रोबोट है लेकिन मैं अब कुछ सालों से रॉबॉकअप रेस्क्यू लाइन कर रहा हूं। मुझे पता चला है कि यदि आप पीआईडी का उपयोग करके अच्छी तरह से एक लाइन का पालन करना चाहते हैं तो एक अच्छा विकल्प है। मुझे इस पर विस्तार करने दें। यदि आप लाइन के दोनों ओर दो प्रकाश संवेदकों की कल्पना करते हैं, तो आप उन्हें समान मूल्य का बनाना चाहेंगे ताकि लाइन मध्य में हो। फिर आप रोबोट के टर्निंग प्रतिशत को बदलने के लिए दो सेंसर के मूल्य के बीच के अंतर का उपयोग कर सकते हैं। इस तकनीक से असाधारण गति पर एक लाइन का पालन करने के लिए रोबोट प्राप्त करना संभव है। मुझे पसंद है कि आप अपनी लाइन ट्रैकिंग क्षमताओं में सुधार करने के लिए रोबोट बनाना सीख रहे हैं। जैसा कि मैं आया था कि आपके प्रारंभिक पीआईडी मूल्यों के साथ शुरू हुआ है जितना आप चाहते हैं कि वे रोबोट के दोलन की आवृत्ति को मापने के लिए एक जाइरोस्कोपिक सेंसर का उपयोग करें क्योंकि यह लाइन को ट्रैक करता है। एक स्थिर प्रणाली प्राप्त करने के लिए आप अपने मूल्यों को कितना कम कर सकते हैं, यह निर्धारित करने के लिए आप अपना खुद का फ़ंक्शन बना सकते हैं, यह बिल्कुल कृत्रिम बुद्धिमत्ता नहीं है जैसे एक स्वचालित ऑप्टिमाइज़ेशन एल्गोरिथ्म, लेकिन हेम 18 और मैंने सीखा कि कैसे कोड से कोड बनाया जाए। इंटरनेट। आशा है कि ये आपकी मदद करेगा। यदि आपके कोई प्रश्न हैं, तो यह मेरा मुख्य ईमेल पता नहीं है, इसलिए मैं इसे नियमित रूप से नहीं देखता। 69darkeagle@sigaint.org

— उमर क्वे
स्रोत