वॉरेन बफेट समस्या


19

यहाँ एक ऑनलाइन सीखने / दस्यु समस्या है जो मैं गर्मियों में काम कर रहा हूँ। मैंने इस तरह की समस्या पहले नहीं देखी है, और यह काफी दिलचस्प लग रहा है। यदि आप किसी भी संबंधित कार्य के बारे में जानते हैं, तो मैं संदर्भ की सराहना करूंगा।

समस्या बहु-सशस्त्र डाकुओं की है। आपके पास N हथियार हैं। प्रत्येक हाथ में पुरस्कारों पर एक अज्ञात लेकिन निश्चित संभावना वितरण है जिसे इसे खेलकर कमाया जा सकता है। संक्षिप्तता के लिए, मान लें कि प्रत्येक हाथ मैं संभावना के साथ $ 10 का भुगतान करता है p [i] और प्रो के साथ $ 0 का इनाम देता है। 1-पी [i]

हर दौर में टी आप एक सेट का चयन एस [टी] हथियारों खेलने के लिए की। आपके द्वारा चुने गए प्रत्येक हाथ के लिए, आप सामने $ 1 का शुल्क देते हैं । प्रत्येक चयनित हाथ के लिए, आप एक इनाम इकट्ठा करते हैं जो उस बांह की (अज्ञात) इनाम संभावना वितरण से लिया जाता है। सभी पुरस्कार आपके बैंक खाते में जमा किए जाते हैं, और सभी शुल्क उस खाते से काट लिए जाते हैं। इसके अलावा, आपको प्रत्येक पुनरावृत्ति की शुरुआत में $ 1 का क्रेडिट मिलता है ।

समस्या यह है कि प्रत्येक पुनरावृत्ति में खेलने के लिए हथियारों के एक सबसेट का चयन करने के लिए एक नीति विकसित करने के लिए एक अधिकतम पर्याप्त क्षितिज पर लाभ (यानी खेलने के लिए माइनस फीस का पुरस्कार), बाधा के अधीन है कि इसे एक गैर-नकारात्मक खाता संतुलन बनाए रखना चाहिए सभी समय।

मैंने यह निर्दिष्ट नहीं किया कि प्रति-हाथ इनाम वितरण एक पूर्व वितरण से चुना जाता है या एक विरोधी द्वारा चुना जाता है। दोनों विकल्प समझ में आते हैं। प्रतिकूल निर्माण मेरे लिए अधिक आकर्षक है, लेकिन संभवतः प्रगति करना कठिन है। यहां, विरोधी वितरण के एक वेक्टर (डी 1, डी 2, .., डीएन) का चयन करता है। वितरणों को देखते हुए, इष्टतम बजट संतुलित नीति सभी हथियारों को चलाने की है जिनकी अपेक्षित इनाम $ 1 से अधिक है। बता दें कि P इस इष्टतम सर्वज्ञ नीति का प्रति-चरण लाभ है। मैं चाहता हूं कि मेरी ऑनलाइन पॉलिसी पछतावा कम करे (यानी एक समय विंडो टी पर लाभ का नुकसान) इस सर्वज्ञ नीति को।


क्या आप सुनिश्चित हैं कि सबसे अच्छी नीति सभी हथियारों को खेलना है जिनकी अपेक्षित इनाम हर दौर में $ 1 से अधिक है? यदि आपके पास सख्त बाधा है कि आपको हर समय एक गैर-नकारात्मक खाता संतुलन बनाए रखना है, तो ऐसे दौर हो सकते हैं जिनमें आपको खेलने की अनुमति भी नहीं है।
मथियास

तो आप इनाम की संभावनाओं को नहीं जानते हैं, लेकिन आप प्रत्येक व्यक्तिगत हाथ से भुगतान बता सकते हैं?
डेविड थॉर्नले

आप संभावनाओं को नहीं जानते हैं और आप अपेक्षित पुरस्कार नहीं जानते हैं। एक सर्वज्ञ "इष्टतम" नीति जिसे मैं खुद के खिलाफ तुलना करना चाहता हूं, हालांकि सभी हथियारों को 1 से अधिक इनाम के साथ खेल सकते हैं क्योंकि यह सर्वज्ञ है।
मार्टिन पाल

1
मैं एक जंगली अनुमान कि राउंड के बाद आप अपनी अपेक्षित आय को इष्टतम के एक स्थिर कारक के भीतर प्राप्त कर सकते हैं, जिसके बाद यह समस्या अपने असामान्य चरित्र को खो चुकी है। एक निचले-बाउंड ऑफ एक उदाहरण से अनुसरण करता है जहां केवल एक हाथ में एक गैर-शून्य भुगतान होता है। मैं तुरंत एक ऊपरी-सीमा नहीं देखता। Ω ( एन )Θ(N)Ω(N)
वारेन शूडी

सुधार: दौर के बाद आप शायद इष्टतम आय के एक निरंतर कारक के भीतर प्राप्त करने की गारंटी नहीं दे सकते। हालाँकि, आप संभवतः हथियारों से उपलब्ध आय के सापेक्ष गारंटी ले सकते हैं जिन्होंने कम से कम 2 डॉलर की वापसी की उम्मीद की है। Θ(N)
वारेन शूडी

जवाबों:


13

मुझे लगता है कि इस समस्या के लिए बहुत सारे संभावित दृष्टिकोण हैं (जिनमें से मुझे यकीन है कि आप पर विचार किया गया है) - यहां कुछ विचार / संदर्भ दिए गए हैं।

  • आप स्वतंत्र रूप से प्रत्येक हाथ को खींचने या न खींचने का फैसला करते हुए, इसे स्वतंत्र समानांतर सिंगल-आर्म बैंडिट गेम के रूप में खेल सकते हैं । यह विशेष रूप से अच्छी तरह से काम करना चाहिए अगर पुरस्कार स्वतंत्र रूप से वितरित किए जाते हैं।N
  • हथियारों के प्रत्येक सेट को एक नया हाथ होने दें और एक एक्स-टाइप एल्गोरिथ्म चलाएं। यह एक अफसोस देता है - इतना महान नहीं।O(2N/2T1/2)
  • आगामी एनआईपीएस 2010 के पेपर में, साटन काले, रॉब शेपायर, और मैं उस मामले पर विचार करता हूं, जहां एक ही बार में एक स्लेट की भूमिका निभाता है। हमारे काम में, हालांकि, स्लेट का आकार तय किया गया है। यह पेपर भी इसी तरह की समस्या पर विचार करता है। एएलटी 2010 में एक और समान कार्य दिखाई दिया। शायद कुछ विचारों का स्थानांतरण।
  • यदि आप इसे एक विशेषज्ञ समस्या के रूप में मानते हैं (प्रत्येक विशेषज्ञ एक अलग सबसेट की सिफारिश करता है ), तो एक विशेषज्ञ का अनुसरण करके, आप अन्य विशेषज्ञों के प्रदर्शन का अनुमान लगा सकते हैं, जिनके पास खींचने के लिए उनकी पसंद के गैर-खाली चौराहे हैं। महत्व भार का उपयोग करना । एक एक्सप 4 प्रकार के विश्लेषण से आपको पछतावा हो सकता है लेकिन चलने का समय।( एन √)2N(2एनटी)O(NT)O(2NT)

नीचे संपादित करें:

मुझे ऐसा लगता है कि बजट की कमी ( नीचे नहीं जाना ) समस्या को अचूक बनाती है। कल्पना कीजिए कि आपके पास बजट है । विरोधी हथियारों में से एक को हमेशा भुगतान कर सकते हैं और बाकी कभी भी भुगतान नहीं करते हैं। WP तो आप बस्ट पहले दौर में जाना इष्टतम रणनीति हो जाता है, जबकि के बाद डॉलर दौर। तो आपका अपेक्षित पछतावा कम से कम और आप किसी उच्च संभावना के लिए बाध्य नहीं हो सकते।1 ( एन - 1 ) / एन टी टी ( एन - 1 ) टी / एन01(n1)/nTT(n1)T/n

ऐसा भी लगता है कि यह किसी भी शुरुआती बजट के लिए काम कर सकता है। कहते हैं कि आप डॉलर से शुरू करते हैं । फिर विरोधी सभी को सेट कर सकता है लेकिन एक भुजा को और एक भुजा में wp का भुगतान कर सकता है । मुझे लगता है कि यदि आपके पास संभावित भुगतान राशि और उच्च प्रारंभिक बजट की सीमा है, तो यह एक दिलचस्प समस्या के लिए जगह छोड़ सकता है।0 2 बी 1 / बीB02B1/B


हाय लेव, संकेत के लिए धन्यवाद। मैं सहमत हूं कि अगर मेरे पास एक असीमित प्रारंभिक बजट होता है जो एन समानांतर सिंगल आर्म बैंडिट्स खेल रहा है तो समस्या का समाधान होगा। हालांकि बजट बाधा हथियारों के बीच युग्मन का परिचय देती है और चीजों को दिलचस्प बनाती है। विशेष रूप से, पहले चरण में आपके पास केवल एक हाथ बजाने के लिए बजट है। दूसरे चरण में आप 11 हथियार या सिर्फ 1 हाथ खेल सकते हैं, जो इस बात पर निर्भर करता है कि आप पहले चरण में भाग्यशाली हैं या नहीं। तो यह लाभदायक हथियारों का एक गुच्छा खोजने के लिए महत्वपूर्ण है कि आप जल्दी से टोफंड आगे अन्वेषण का उपयोग करें।
मार्टिन पॉल

2
मुझे महसूस नहीं हुआ कि एक प्रारंभिक बजट था (मैं अब "गैर-नकारात्मक संतुलन" भाग को समझता हूं, लेकिन शायद आप इसे प्रश्न में स्पष्ट कर सकते हैं?) - जो समस्या को और अधिक रोचक बनाता है। इसके अलावा "प्रासंगिक" या विशेषज्ञों का संस्करण विचार करने के लिए मजेदार हो सकता है। दुर्भाग्य से, मैं इस समस्या के लिए कोई और अधिक प्रासंगिक संदर्भ नहीं जानता हूं।
लेव Reyzin

अगर मुझे समस्या सूत्रीकरण सही लगा, तो आपको प्रत्येक दौर में $ 1 अतिरिक्त मिलेगा। मार्टिन, क्या आप शायद सवाल को स्पष्ट कर सकते हैं?
जुका सुओमेला

मुझे लगता है कि अगर आप इसे खेलते हैं और जीतते हैं और जब भी आप खेलने का फैसला करते हैं तो $ 1 खो देते हैं।
लेव Reyzin
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.