यहाँ एक ऑनलाइन सीखने / दस्यु समस्या है जो मैं गर्मियों में काम कर रहा हूँ। मैंने इस तरह की समस्या पहले नहीं देखी है, और यह काफी दिलचस्प लग रहा है। यदि आप किसी भी संबंधित कार्य के बारे में जानते हैं, तो मैं संदर्भ की सराहना करूंगा।
समस्या बहु-सशस्त्र डाकुओं की है। आपके पास N हथियार हैं। प्रत्येक हाथ में पुरस्कारों पर एक अज्ञात लेकिन निश्चित संभावना वितरण है जिसे इसे खेलकर कमाया जा सकता है। संक्षिप्तता के लिए, मान लें कि प्रत्येक हाथ मैं संभावना के साथ $ 10 का भुगतान करता है p [i] और प्रो के साथ $ 0 का इनाम देता है। 1-पी [i] ।
हर दौर में टी आप एक सेट का चयन एस [टी] हथियारों खेलने के लिए की। आपके द्वारा चुने गए प्रत्येक हाथ के लिए, आप सामने $ 1 का शुल्क देते हैं । प्रत्येक चयनित हाथ के लिए, आप एक इनाम इकट्ठा करते हैं जो उस बांह की (अज्ञात) इनाम संभावना वितरण से लिया जाता है। सभी पुरस्कार आपके बैंक खाते में जमा किए जाते हैं, और सभी शुल्क उस खाते से काट लिए जाते हैं। इसके अलावा, आपको प्रत्येक पुनरावृत्ति की शुरुआत में $ 1 का क्रेडिट मिलता है ।
समस्या यह है कि प्रत्येक पुनरावृत्ति में खेलने के लिए हथियारों के एक सबसेट का चयन करने के लिए एक नीति विकसित करने के लिए एक अधिकतम पर्याप्त क्षितिज पर लाभ (यानी खेलने के लिए माइनस फीस का पुरस्कार), बाधा के अधीन है कि इसे एक गैर-नकारात्मक खाता संतुलन बनाए रखना चाहिए सभी समय।
मैंने यह निर्दिष्ट नहीं किया कि प्रति-हाथ इनाम वितरण एक पूर्व वितरण से चुना जाता है या एक विरोधी द्वारा चुना जाता है। दोनों विकल्प समझ में आते हैं। प्रतिकूल निर्माण मेरे लिए अधिक आकर्षक है, लेकिन संभवतः प्रगति करना कठिन है। यहां, विरोधी वितरण के एक वेक्टर (डी 1, डी 2, .., डीएन) का चयन करता है। वितरणों को देखते हुए, इष्टतम बजट संतुलित नीति सभी हथियारों को चलाने की है जिनकी अपेक्षित इनाम $ 1 से अधिक है। बता दें कि P इस इष्टतम सर्वज्ञ नीति का प्रति-चरण लाभ है। मैं चाहता हूं कि मेरी ऑनलाइन पॉलिसी पछतावा कम करे (यानी एक समय विंडो टी पर लाभ का नुकसान) इस सर्वज्ञ नीति को।