सर्वश्रेष्ठ डाकू एल्गोरिथ्म?


27

सबसे प्रसिद्ध दस्यु एल्गोरिथ्म ऊपरी विश्वास बाध्य (यूसीबी) है जिसने एल्गोरिदम के इस वर्ग को लोकप्रिय बनाया। तब से मुझे लगता है कि अब बेहतर एल्गोरिदम हैं। वर्तमान सर्वश्रेष्ठ एल्गोरिथ्म (अनुभवजन्य प्रदर्शन या सैद्धांतिक सीमा के संदर्भ में) क्या है? क्या यह एल्गोरिथ्म कुछ अर्थों में इष्टतम है?

जवाबों:


25

एनआईपीएस 2011 का एक पेपर ("थॉम्पसन सैंपलिंग का एक अनुभवजन्य मूल्यांकन"), प्रयोगों में दिखाता है, कि थॉम्पसन सैंपलिंग यूसीबी को हराता है। यूसीबी लीवर चुनने पर आधारित है जो आशावादी धारणाओं के तहत सबसे अधिक इनाम का वादा करता है (यानी अपेक्षित इनाम के आपके अनुमान का प्रसरण अधिक है, इसलिए आप लीवर को खींचते हैं जो आप उस अच्छी तरह से नहीं जानते हैं)। इसके बजाय, थॉम्पसन सैम्पलिंग पूरी तरह से बायेसियन है: यह एक पश्चगामी वितरण से एक दस्यु विन्यास (यानी अपेक्षित पुरस्कारों का एक वेक्टर) उत्पन्न करता है, और फिर यह कार्य करता है जैसे कि यह वास्तविक विन्यास था (यानी यह उच्चतम अपेक्षित इनाम के साथ लीवर को खींचता है)।

बेज़ियन कंट्रोल रूल (" लर्निंग एंड एक्टिंग के लिए एक न्यूनतम सापेक्ष एन्ट्रापी सिद्धांत ", JAIR), थॉम्पसन सैम्पलिंग का एक सामान्यीकरण, थॉम्पसन नमूनाकरण को सूचना-सिद्धांत संबंधी सिद्धांतों और कारण से प्राप्त करता है। विशेष रूप से, यह दिखाया गया है कि जब आप अपनी रणनीति और (अज्ञात) इष्टतम रणनीति के बीच केएल को कम से कम करना चाहते हैं, तो बायेसियन कंट्रोल रूल सबसे बेहतर रणनीति है और यदि आप कारण को ध्यान में रखते हैं। यह महत्वपूर्ण क्यों है, इसका कारण यह है कि इसे क्रियाओं के लिए बायेसियन निष्कर्षों के विस्तार के रूप में देखा जा सकता है: बायेसियन इनवेंशन को इष्टतम भविष्यवाणी की रणनीति के रूप में दिखाया जा सकता है जब आपका प्रदर्शन मानदंड आपके अनुमानक और अज्ञात (अज्ञात) सही वितरण के बीच केएल है।


16

यूसीबी वास्तव में स्टोकेस्टिक मामले में (टी राउंड गेम के लिए लॉग टी फैक्टर तक) और पिंसकर की असमानता में एक अंतर के लिए एक अधिक समस्या पर निर्भर भाव में इष्टतम के निकट है। Audibert और Bubeck के हालिया पेपर ने सबसे खराब स्थिति में इस लॉग निर्भरता को हटा दिया है, लेकिन अनुकूल मामले में एक खराब बाध्यता है जब विभिन्न हथियारों में अच्छी तरह से अलग-अलग पुरस्कार हैं।

सामान्य तौर पर, यूसीबी एल्गोरिदम के एक बड़े परिवार से एक उम्मीदवार है। खेल के किसी भी बिंदु पर, आप उन सभी हथियारों को देख सकते हैं जो "अयोग्य" नहीं हैं, अर्थात, जिनका ऊपरी आत्मविश्वास बाध्य कुछ बांह के निचले आत्मविश्वास से छोटा नहीं है। इस तरह के योग्य हथियारों के किसी भी वितरण के आधार पर चयन करने से एक वैध रणनीति बनती है और स्थिरांक को एक समान अफसोस मिलता है।

जाहिर है, मुझे नहीं लगता कि कई अलग-अलग रणनीतियों का महत्वपूर्ण मूल्यांकन किया गया है, लेकिन मुझे लगता है कि यूसीबी अक्सर काफी अच्छा होता है।

हाल ही के अधिकांश शोध स्टोकेस्टिक पुरस्कारों के साथ सरल के-सशस्त्र सेटिंग से परे, बहुत बड़े (या अनंत) एक्शन स्पेस के साथ या बिना पक्ष की जानकारी के, और स्टोकेस्टिक या प्रतिकूल प्रतिक्रिया के तहत विस्तारित दस्यु समस्याओं पर केंद्रित हैं। ऐसे परिदृश्यों में भी काम किया गया है जहां प्रदर्शन मानदंड अलग हैं (जैसे कि केवल सर्वश्रेष्ठ हाथ की पहचान)।


4

कला की वर्तमान स्थिति को इस तरह अभिव्यक्त किया जा सकता है:

  • स्टोकेस्टिक: UCB और वेरिएंट ( में पछतावा )RT=O(KlogTΔ)
  • प्रतिकूल: EXP3 और वैरिएंट्स ( में अफसोस )R~T=O(TKlogK)
  • प्रासंगिक: यह जटिल है

साथ राउंड की संख्या, की भुजाओं की संख्या, सबसे अच्छे और दूसरे सबसे अच्छे आर्म (गैप) के बीच का अंतर है।TKΔ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.