यूसीबी वास्तव में स्टोकेस्टिक मामले में (टी राउंड गेम के लिए लॉग टी फैक्टर तक) और पिंसकर की असमानता में एक अंतर के लिए एक अधिक समस्या पर निर्भर भाव में इष्टतम के निकट है। Audibert और Bubeck के हालिया पेपर ने सबसे खराब स्थिति में इस लॉग निर्भरता को हटा दिया है, लेकिन अनुकूल मामले में एक खराब बाध्यता है जब विभिन्न हथियारों में अच्छी तरह से अलग-अलग पुरस्कार हैं।
सामान्य तौर पर, यूसीबी एल्गोरिदम के एक बड़े परिवार से एक उम्मीदवार है। खेल के किसी भी बिंदु पर, आप उन सभी हथियारों को देख सकते हैं जो "अयोग्य" नहीं हैं, अर्थात, जिनका ऊपरी आत्मविश्वास बाध्य कुछ बांह के निचले आत्मविश्वास से छोटा नहीं है। इस तरह के योग्य हथियारों के किसी भी वितरण के आधार पर चयन करने से एक वैध रणनीति बनती है और स्थिरांक को एक समान अफसोस मिलता है।
जाहिर है, मुझे नहीं लगता कि कई अलग-अलग रणनीतियों का महत्वपूर्ण मूल्यांकन किया गया है, लेकिन मुझे लगता है कि यूसीबी अक्सर काफी अच्छा होता है।
हाल ही के अधिकांश शोध स्टोकेस्टिक पुरस्कारों के साथ सरल के-सशस्त्र सेटिंग से परे, बहुत बड़े (या अनंत) एक्शन स्पेस के साथ या बिना पक्ष की जानकारी के, और स्टोकेस्टिक या प्रतिकूल प्रतिक्रिया के तहत विस्तारित दस्यु समस्याओं पर केंद्रित हैं। ऐसे परिदृश्यों में भी काम किया गया है जहां प्रदर्शन मानदंड अलग हैं (जैसे कि केवल सर्वश्रेष्ठ हाथ की पहचान)।