रेनफोर्समेंट लर्निंग को पाथफाइंडिंग में शायद ही कभी क्यों इस्तेमाल किया जाता है?


12

आदरणीय लघु-पथ ग्राफ प्रमेय एल्गोरिथ्म ए * और बाद के सुधार (जैसे, पदानुक्रमित एनोटेट ए *) स्पष्ट रूप से खेल के विकास में पाथफाइंडिंग के लिए पसंद की तकनीक है।

इसके बजाय, यह सिर्फ मुझे लगता है कि आरएल एक खेल स्थान के चारों ओर एक चरित्र को स्थानांतरित करने के लिए एक अधिक प्राकृतिक प्रतिमान है।

और फिर भी मैं एक एकल गेम डेवलपर के बारे में नहीं जानता जिसने एक सुदृढीकरण सीखना-आधारित पाथफाइंडिंग इंजन को लागू किया है। (मुझे इस बात का अनुमान नहीं है कि pathfinding में आरएल का आवेदन 0 है, बस यह ए * और दोस्तों के सापेक्ष बहुत छोटा है।)

जो भी कारण है, यह नहीं है क्योंकि ये डेवलपर्स आरएल से अनजान हैं, जैसा कि इस तथ्य से स्पष्ट है कि आरएल को अक्सर गेम इंजन में कहीं और इस्तेमाल किया जाता है।

यह सवाल पथप्रदर्शक में आरएल पर एक राय देने के लिए एक बहाना नहीं है; वास्तव में, मैं मान रहा हूं कि ए * एट अल के लिए मौन वरीयता। आरएल से अधिक सही है - लेकिन यह वरीयता स्पष्ट रूप से मेरे लिए नहीं है और मैं इसके कारण के बारे में बहुत उत्सुक हूं, विशेष रूप से किसी ऐसे व्यक्ति से जिसने पथप्रदर्शन के लिए आरएल का उपयोग करने की कोशिश की है।


1
"यह नहीं है क्योंकि ये डेवलपर्स आरएल से अनजान हैं" क्या आप सुनिश्चित हैं? जो एक बड़ी धारणा लगती है।
तेतराड 24:11

Pathfinding में आरएल पर कुछ लिंक या कागजात साझा करने के लिए देखभाल?
फाल्स्त्रो

3
ए * (और संबंधित एल्गोरिदम) के लिए विभिन्न इष्टतमता / सीमा प्रमाणों को देखते हुए, आपको क्या लगता है कि आरएल पथफाइंडिंग के लिए तालिका में लाता है?

1
संबंधित (एक अलग प्रश्न में यह पाया जाता है): ai-blog.net/archives/000178.html
Tetrad

जवाबों:


14

मैं इसकी कल्पना करता हूँ, क्योंकि आपको किसी भी चीज़ से खिलौना समस्या के बारे में कोई उपयोगी सामान्यीकरण नहीं मिलेगा, और इनाम समारोह संदिग्ध रूप से A * heuristic जैसा लगने वाला है, RL का उपयोग करने की संभावना वास्तव में एक जैसी दिखती है। ओवरबिल्ट, परिणाम प्राप्त करने का अयोग्य तरीका जो कि ए * के सबसे अच्छे रूप में समान हैं, लेकिन संभवतः लगभग उतना अच्छा नहीं है।

यह आरएल के लिए अनुचित हो सकता है, और यदि ऐसा है तो मुझे सुनने में दिलचस्पी होगी कि क्यों, लेकिन मैं वास्तव में ऐसा कुछ नहीं देख रहा हूं जो इंगित करता है।

हम में से कई लोग यह भी याद रखते हैं कि ए * के व्यापक रूप से गोद लेने से पहले खेलों में क्या पैथफाइंडिंग की गई थी, और खिलाड़ियों पर उन दिनों के समान कुछ भी उकसाने के लिए उत्सुक नहीं हैं, या ऐसा करने के बाजार के परिणामों को भुगतना पड़ता है।


1
इनाम समारोह पर अपने बयान के लिए +1। और, नहीं, मेरा मानना ​​है कि यह एक उचित लक्षण वर्णन है। आरएल यह क्या करता है पर महान हो सकता है, लेकिन मुझे उस सेट में सख्त पाथफाइंडिंग की उम्मीद नहीं होगी। (ध्यान दें कि मैं जानबूझकर इस चर्चा से गति योजना को बाहर कर रहा हूं । आरएल को उस तरह की समस्या पर सफलतापूर्वक लागू किया गया है)।
थ्रोबैक 1986

5

आरएल के बारे में अधिक जानकारी के बिना, मैं अन्य प्रश्नों के साथ आपके प्रश्न का उत्तर देने का प्रयास करूंगा:

RL का उपयोग करके, क्या आप यह निर्धारित कर सकते हैं कि बिंदु B से बिंदु A तक पहुंचना संभव है?

आरएल प्रजनन योग्य / सुसंगत / परीक्षण योग्य नेविगेशन व्यवहार की गारंटी दे सकता है?

मेमोरी और सीपीयू रन समय की आवश्यकताओं की तुलना बनाम ए * से कैसे करता है? इसी तरह, आप क्या कर सकते हैं, कहना, की तुलना में, नौसेना जाल?

गतिशील टकराव वाले वातावरण में आरएल निष्पक्ष कैसे होता है?

आरएल को सही ढंग से कहना, कहना, स्टीयरिंग बिहेवियर को समझना और लागू करना कितना मुश्किल है?

क्या आरएल के लिए कोई अच्छा मिडिलवेयर प्रदाता हैं?

हो सकता है कि वे प्रश्न आपके उत्तर में आपकी सहायता कर सकें।


त्वरित नज़र से, ए * को आरएलएल की तुलना में लागू करने के लिए सस्ता लगता है, तेजी से संसाधित करने के लिए, कम स्मृति लेता है, अधिक अनुमानित है, आदि। हालांकि, आरएल अधिक यथार्थवादी परिणाम दे सकता है।
जरी कोमप्पा

4
इसके विपरीत, आरएल एजेंट अपने प्रारंभिक शिक्षण चरण के दौरान उल्लसित अवास्तविक परिणाम उत्पन्न करते हैं। कुछ छोटे स्टीयरिंग व्यवहारों के साथ ए * बहुत अधिक प्राकृतिक लगता है।

ठीक है, अधिक यथार्थवादी परिणाम अंततः =)
जरी कोम्पा

आरएल अनिवार्य रूप से सही पथप्रदर्शक व्यवहार को पूर्वनिर्धारित करता है। यह ए * की तुलना में तेज़ और सरल है, लेकिन बहुत अधिक स्मृति लेता है। यह तब होता है जब आप स्मृति आवश्यकताओं को नीचे लाने की कोशिश करते हैं कि यह जटिल और / या असंगत हो जाता है।
डॉन रेबा

5

मैं सुझाव से भ्रमित हूं कि आरएल "एक अधिक प्राकृतिक प्रतिमान" है। मैं यह नहीं देखता कि सुदृढीकरण कैसे समस्या क्षेत्र के लिए मैप के रूप में या सटीक रूप से ग्राफ़ खोज करता है। आमतौर पर आप एक एजेंट को सीखना नहीं चाहते हैं - आपने मान लिया है कि वे पहले से ही मार्ग जानते हैं। इसके बजाय, आप चाहते हैं कि वे उपलब्ध सबसे प्रत्यक्ष मार्ग का चयन करें और उसका उपयोग करें, और ग्राफ़ खोज एक इष्टतम तरीके से सुविधा प्रदान करती है। यदि आप किसी भी गंतव्य के लिए किसी भी नोड पर लेने के लिए सबसे अच्छी दिशा की गणना करने के लिए आरएल ऑफ़लाइन का उपयोग करने के लिए थे, तो यह काफी अधिक मेमोरी की आवश्यकता को छोड़कर * ए के बराबर मोटे तौर पर लाएगा, और यह भी आवश्यक है कि डेवलपर्स बहुत सावधान थे। सुनिश्चित करें कि सभी नोड्स को प्रशिक्षण के दौरान पर्याप्त रूप से पता लगाया गया था। और वह प्रशिक्षण केवल एक मूल्य प्राप्त करेगा कि हम पहले से ही पाइथागोरस समीकरण के साथ बहुत अच्छी तरह से अनुमान लगा सकते हैं, अग्रिम में यह जानने के कारण कि ग्राफ दूरी के यूक्लिडियन नियमों का पालन करता है। (यह, निश्चित रूप से, उन सभी स्थितियों के लिए नहीं है जहाँ ग्राफ़ खोज और / या सुदृढीकरण सीखने को नियोजित किया जा सकता है।)

(मेमोरी इश्यू के बारे में: यदि आपके पास किसी मानचित्र पर 1000 संभावित मात्राएँ हैं, तो वह 1000 नोड्स प्लस 1000 * M किनारे है (जहाँ M किसी भी अन्य नोड से पहुंच योग्य नोड्स की औसत संख्या है।) वह, प्लस हेयुरिस्टिक, पर्याप्त है। A * संचालित करने के लिए। सुदृढीकरण कार्य करने के लिए, कम से कम जिस तरह से मैं इसकी परिकल्पना करता हूं, आपको उन 1000 * M किनारों में से प्रत्येक के लिए 1000 प्रविष्टियों की आवश्यकता होगी, ताकि किसी भी 1000 के लिए उस किनारे का अनुसरण करने का इनाम मूल्य प्राप्त हो सके संभव डेस्टिनेशंस। यह बहुत अधिक डेटा है - और इसके हर एक बिट को छोरों, डिटॉर्स या डेड-एंड से बचने के लिए उचित रूप से सटीक होना चाहिए।


3

Pathfinding एक अपेक्षाकृत "हल" समस्या है, आरएल नहीं है।

ए * के साथ, डेवलपर्स जल्दी से उत्तराधिकार बना सकते हैं और समय के साथ उन्हें सुधार सकते हैं। आरएल (मैं क्यू-लर्निंग के बारे में बात कर रहा हूं, जब यहां आरएल का जिक्र किया गया है), सर्वोत्तम सीखने की दरों और छूट कारकों (खेल के अन्य पहलुओं पर खर्च करने का समय) की गणना करने के लिए समय लगता है।


1

यह वास्तव में खेल के प्रकारों पर निर्भर करता है। यदि खेल में सब कुछ स्थिर है, तो ए * खोज का उपयोग करना अधिक कुशल है। हालाँकि, यदि अन्य मानव खिलाड़ी उसी क्षेत्र में घूम रहे हैं, तो A * खोज विफलता की गारंटी है। A * खोज का कोई पता नहीं है कि अन्य खिलाड़ी कहाँ जा रहे हैं। दूसरी ओर, आरएल अन्य खिलाड़ियों के व्यवहार को मॉडल कर सकता है और एक बेहतर रास्ता खोज सकता है जो अन्य खिलाड़ियों के आंदोलन को ध्यान में रखता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.