एन-सशस्त्र डाकू समस्याओं को हल करने के लिए इष्टतम एल्गोरिदम?


13

मैंने एन-सशस्त्र दस्यु समस्याओं जैसे -greedy, softmax, और UCB1 को हल करने के लिए कई एल्गोरिदम के बारे में पढ़ा है , लेकिन मुझे खेद कम करने के लिए सबसे अच्छा तरीका क्या है के माध्यम से छंटनी करने में थोड़ी परेशानी हो रही है।ϵ

क्या एन-सशस्त्र डाकू समस्या को हल करने के लिए एक ज्ञात इष्टतम एल्गोरिदम है? क्या एल्गोरिथ्म का एक विकल्प है जो व्यवहार में सबसे अच्छा प्रदर्शन करता है?


संभवत: एक मान्यता प्राप्त इष्टतम समाधान नहीं है, क्योंकि अन्यथा विकिपीडिया पृष्ठ ऐसा कहेगा और प्रयोगात्मक स्रोत पृष्ठ
हेनरी

यह सैद्धांतिक कंप्यूटर विज्ञान एसई पर नहीं होना चाहिए?

1
@ चूँकि सुदृढीकरण सीखना मशीन सीखने की एक शाखा है, मुझे ऐसा नहीं लगता;)
स्टीफन

@steffen ज़रूर, नाम "tcsy" लग रहा था।

@mbq मुझे नहीं मिला। "Tscy" का क्या अर्थ है?
8:11 बजे स्टीफन

जवाबों:


9

हाल ही में दो सर्वेक्षण पत्र मिले हैं। मैंने उन्हें अभी तक नहीं पढ़ा है, लेकिन अमूर्त ध्वनि आशाजनक है।

जोआन के वर्मोरेल और मेहरीर मोहरी: मल्टी-आर्म्ड बैंडिट अल्गोरिद्म और एम्पिरिकल इवैल्यूएशन (2005)

अमूर्त से:

एक जुआरी के लिए बहु-सशस्त्र दस्यु समस्या यह तय करना है कि के-स्लॉट मशीन के किस हाथ को परीक्षण की श्रृंखला में अपने कुल इनाम को अधिकतम करने के लिए खींचना है। कई वास्तविक दुनिया सीखने और अनुकूलन समस्याओं को इस तरह से मॉडलिंग की जा सकती है। पिछले दो दशकों में इस समस्या के समाधान के रूप में कई रणनीतियों या एल्गोरिदम का प्रस्ताव किया गया है, लेकिन, हमारे ज्ञान के लिए, इन एल्गोरिदम का कोई सामान्य मूल्यांकन नहीं किया गया है।

वलोडिमिर कुलेशोव और डोना प्रीची: बहु-सशस्त्र दस्यु समस्या के लिए एल्गोरिदम (2000) गर्भपात से:

दूसरे, अधिकांश एल्गोरिदम का प्रदर्शन बैंडिट समस्या के मापदंडों के साथ नाटकीय रूप से भिन्न होता है। हमारे अध्ययन की पहचान प्रत्येक एल्गोरिथ्म के लिए for तों जहां यह अच्छा प्रदर्शन करता है, और वह सेटिंग जहां यह खराब प्रदर्शन करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.