हाल ही में दो सर्वेक्षण पत्र मिले हैं। मैंने उन्हें अभी तक नहीं पढ़ा है, लेकिन अमूर्त ध्वनि आशाजनक है।
जोआन के वर्मोरेल और मेहरीर मोहरी: मल्टी-आर्म्ड बैंडिट अल्गोरिद्म और एम्पिरिकल इवैल्यूएशन (2005)
अमूर्त से:
एक जुआरी के लिए बहु-सशस्त्र दस्यु समस्या यह तय करना है कि के-स्लॉट मशीन के किस हाथ को परीक्षण की श्रृंखला में अपने कुल इनाम को अधिकतम करने के लिए खींचना है। कई वास्तविक दुनिया सीखने और अनुकूलन समस्याओं को इस तरह से मॉडलिंग की जा सकती है। पिछले दो दशकों में इस समस्या के समाधान के रूप में कई रणनीतियों या एल्गोरिदम का प्रस्ताव किया गया है, लेकिन, हमारे ज्ञान के लिए, इन एल्गोरिदम का कोई सामान्य मूल्यांकन नहीं किया गया है।
वलोडिमिर कुलेशोव और डोना प्रीची: बहु-सशस्त्र दस्यु समस्या के लिए एल्गोरिदम (2000) गर्भपात से:
दूसरे, अधिकांश एल्गोरिदम का प्रदर्शन बैंडिट समस्या के मापदंडों के साथ नाटकीय रूप से भिन्न होता है। हमारे अध्ययन की पहचान प्रत्येक एल्गोरिथ्म के लिए for तों जहां यह अच्छा प्रदर्शन करता है, और वह सेटिंग जहां यह खराब प्रदर्शन करता है।