SARSA और Q लर्निंग दोनों ही सुदृढीकरण सीखने वाले एल्गोरिदम हैं जो समान तरीके से काम करते हैं। सबसे महत्वपूर्ण अंतर यह है कि एसएआरएसए पॉलिसी पर है जबकि क्यू लर्निंग ऑफ पॉलिसी है। अद्यतन नियम इस प्रकार हैं:
क्यू लर्निंग:
सार्सा:
जहां और राज्य हैं, कार्रवाई और इनाम समय पर कदम और एक छूट कारक है।
वे ज्यादातर उसी को देखते हैं सिवाय इसके कि SARSA में हम वास्तविक कार्रवाई करते हैं और Q Learning में हम उच्चतम इनाम के साथ कार्रवाई करते हैं।
क्या कोई सैद्धांतिक या व्यावहारिक सेटिंग है जिसमें एक को दूसरे पर पसंद करना चाहिए? मैं देख सकता हूं कि क्यू लर्निंग में अधिकतम लेना लगातार एक्शन स्पेस में महंगा और इससे भी अधिक हो सकता है। लेकिन क्या कुछ और है?