जब SARSA बनाम Q Learning को चुनना है


19

SARSA और Q लर्निंग दोनों ही सुदृढीकरण सीखने वाले एल्गोरिदम हैं जो समान तरीके से काम करते हैं। सबसे महत्वपूर्ण अंतर यह है कि एसएआरएसए पॉलिसी पर है जबकि क्यू लर्निंग ऑफ पॉलिसी है। अद्यतन नियम इस प्रकार हैं:

क्यू लर्निंग:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]

सार्सा:

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]

जहां st,at और rt राज्य हैं, कार्रवाई और इनाम समय पर कदम t और γ एक छूट कारक है।

वे ज्यादातर उसी को देखते हैं सिवाय इसके कि SARSA में हम वास्तविक कार्रवाई करते हैं और Q Learning में हम उच्चतम इनाम के साथ कार्रवाई करते हैं।

क्या कोई सैद्धांतिक या व्यावहारिक सेटिंग है जिसमें एक को दूसरे पर पसंद करना चाहिए? मैं देख सकता हूं कि क्यू लर्निंग में अधिकतम लेना लगातार एक्शन स्पेस में महंगा और इससे भी अधिक हो सकता है। लेकिन क्या कुछ और है?


निरंतर एक्शन स्पेस में, विभिन्न पॉलिसी-ग्रेडिएंट विधियों के रूप में प्रत्यक्ष नीति खोज विधियों का आमतौर पर उपयोग किया जाता है - जैसा कि आपने पता लगाया है - एक निरंतर एक्शन स्पेस के लिए असतत मान फ़ंक्शन का मूल्यांकन करना और मूल्यांकन करना अव्यावहारिक है, खासकर जब एक्शन स्पेस कई आयाम हैं ( आयाम के अभिशाप के कारण )।
हैलोगूडीबाई

जवाबों:


27

वे ज्यादातर उसी को देखते हैं सिवाय इसके कि SARSA में हम वास्तविक कार्रवाई करते हैं और Q Learning में हम उच्चतम इनाम के साथ कार्रवाई करते हैं।

वास्तव में आप दोनों "वास्तविक" जनरेट एक्शन अगले "ले" । क्यू लर्निंग में, आप संभावित अगली क्रियाओं के अधिकतम अनुमान से अनुमान को अपडेट करते हैं, भले ही आपने कोई कार्रवाई की हो। SARSA में जब भी आप अनुमान लगाते हैं, उसी आधार पर अपडेट करते हैं।at+1

यह शायद आप "ले" सवाल में, द्वारा लेकिन साहित्य में क्या मतलब, एक कार्रवाई साधन लेने कि यह जैसे का मूल्य हो जाता है , और प्रभावों , ।atrt+1st+1

क्या कोई सैद्धांतिक या व्यावहारिक सेटिंग है जिसमें एक को दूसरे पर पसंद करना चाहिए?

एसएआरएसए की तुलना में क्यू-लर्निंग के निम्नलिखित फायदे और नुकसान हैं:

  • क्यू-लर्निंग सीधे इष्टतम नीति सीखता है, जबकि SARSA एक निकट-इष्टतम नीति सीखता है जबकि खोज करता है। आप सार्सा का उपयोग कर एक इष्टतम नीति सीखना चाहते हैं, तो आप एक रणनीति पर फैसला करने की आवश्यकता होगी क्षय में -greedy कार्रवाई विकल्प है, जो धुन पर एक बारीकियों hyperparameter बन सकते हैं।ϵϵ

  • क्यू-लर्निंग (और सामान्य रूप से ऑफ-पॉलिसी लर्निंग) में SARSA की तुलना में प्रति-नमूना भिन्नता है, और परिणामस्वरूप होने वाली समस्याओं से पीड़ित हो सकते हैं। क्यू-लर्निंग के माध्यम से तंत्रिका नेटवर्क को प्रशिक्षित करते समय यह एक समस्या के रूप में बदल जाता है।

  • सार्सा अभिसरण से संपर्क करेगा इजाजत दी खोजपूर्ण चाल से संभव दंड के लिए है, जबकि क्यू सीखने उन्हें ध्यान नहीं देगा। यह SARSA को अधिक रूढ़िवादी बनाता है - अगर इष्टतम मार्ग के करीब एक बड़े नकारात्मक इनाम का जोखिम है, तो Q-Learning उस इनाम को ट्रिगर करना शुरू कर देगा, जबकि SARSA एक खतरनाक इष्टतम पथ से बचने के लिए और केवल धीरे-धीरे इसका उपयोग करना सीखेगा। जब अन्वेषण पैरामीटर कम हो जाते हैं। इस प्रभाव को प्रदर्शित करने वाली क्लासिक टॉय समस्या को क्लिफ वॉकिंग कहा जाता है ।

व्यवहार में अंतिम बिंदु एक बड़ा अंतर ला सकता है यदि गलतियां महंगी हैं - जैसे कि आप एक रोबोट को सिमुलेशन में नहीं, बल्कि वास्तविक दुनिया में प्रशिक्षित कर रहे हैं। आप अधिक रूढ़िवादी अधिगम एल्गोरिथ्म को पसंद कर सकते हैं जो उच्च जोखिम से बचता है, अगर रोबोट क्षतिग्रस्त हो गया था तो दांव पर वास्तविक समय और पैसा था।

यदि आपका लक्ष्य सिमुलेशन में एक इष्टतम एजेंट को प्रशिक्षित करना है, या कम लागत और तेजी से चलने वाले वातावरण में है, तो पहले बिंदु (सीधे इष्टतम नीति सीखना) के कारण क्यू-लर्निंग एक अच्छा विकल्प है। यदि आपका एजेंट ऑनलाइन सीखता है, और आप सीखने के दौरान प्राप्त पुरस्कारों की परवाह करते हैं , तो SARSA एक बेहतर विकल्प हो सकता है।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.