मैं बिना किसी गणित के स्पष्टीकरण देने की कोशिश करने जा रहा हूं। इस उत्तर का एक हिस्सा कुछ बिंदुओं से दोहराया जाता है जो मैंने एमएबी समस्याओं पर एक अन्य प्रश्न के उत्तर में किए थे ।
सामरिक व्यापार बंद बहु हाथ दस्यु समस्याओं में: में बहु हाथ दस्यु समस्याओं जुआरी एक "डाकू" हर दौर और प्रयास निभाता दौर की दी गई संख्या पर अपने कुल की उम्मीद वापसी को अधिकतम करने के लिए। डाकुओं में से प्रत्येक की अपेक्षित वापसी समस्या में कुछ अज्ञात मापदंडों द्वारा वर्णित है, और इसलिए जब हम प्रत्येक दौर में अधिक परिणामों का निरीक्षण करते हैं, तो हम इन अज्ञात मापदंडों के बारे में अधिक जानकारी प्राप्त करते हैं, और इसलिए, प्रत्येक डाकुओं की अपेक्षित वापसी के बारे में। । खेल के प्रत्येक दौर में (अंतिम को छोड़कर), एमएबी समस्या में दो उद्देश्यों के बीच जुआरी द्वारा एक रणनीतिक व्यापार बंद करना शामिल है:
तत्काल पुरस्कार: प्रत्येक दौर में वह एक ऐसा वितरण चुनना चाहता है जो उसे इस दौर में एक उच्च प्रत्याशित प्रतिफल देता है, जो उसके (वर्तमान में) वितरण के लिए वरीयता को बढ़ाता है, जिसका अर्थ उच्च प्रतिफल होता है;
भविष्य के पुरस्कार (सूचना लाभ से प्रभावित): दूसरी ओर, वह वितरणों पर अधिक जानकारी प्राप्त करके (विशेष रूप से वे जो दूसरों के रूप में नहीं खेला है), अधिक जानकारी प्राप्त करके अपने वास्तविक अपेक्षित पुरस्कारों के अपने ज्ञान को परिष्कृत करना चाहते हैं, ताकि वह कर सकें भविष्य के दौर में उनकी पसंद में सुधार होगा।
इन दोनों चीजों के सापेक्ष महत्व से व्यापार का निर्धारण होगा, और यह सापेक्ष महत्व कई कारकों से प्रभावित होता है। उदाहरण के लिए, यदि समस्या में केवल कुछ ही शेष राउंड होते हैं, तो भविष्य के परीक्षणों के लिए अनुमान अपेक्षाकृत कम मूल्यवान होते हैं, जबकि यदि शेष राउंड की एक बड़ी संख्या है, तो भविष्य के रिवार्ड के लिए निष्कर्ष अपेक्षाकृत अधिक मूल्यवान है। तो जुआरी को इस बात पर विचार करने की आवश्यकता है कि वह मौजूदा दौर में तत्काल पुरस्कारों को अधिकतम करने पर कितना ध्यान केंद्रित करना चाहता है, और वह कितना इस से विचलित करना चाहता है, ताकि अज्ञात मापदंडों के बारे में अधिक जानें जो प्रत्येक डाकुओं के अपेक्षित इनाम का निर्धारण करते हैं।
थॉम्पसन नमूनाकरण: थॉम्पसन नमूने का मूल विचार यह है कि प्रत्येक दौर में, हम मशीनों के अपने मौजूदा ज्ञान को लेते हैं, जो कि अज्ञात मापदंडों के बारे में एक विपरीत विश्वास के रूप में है, और हम इस पोस्टीरियर वितरण से मापदंडों को "नमूना" करते हैं। यह नमूना पैरामीटर प्रत्येक मशीन के लिए अपेक्षित पुरस्कारों का एक सेट देता है, और अब हम उस नमूना पैरामीटर के तहत उच्चतम अपेक्षित रिटर्न के साथ दांव लगाते हैं।
प्राइमा फेसलिफ्ट , थॉम्पसन सैंपलिंग स्कीम में प्रत्येक राउंड में तत्काल अपेक्षित रिटर्न को अधिकतम करने का प्रयास शामिल है (क्योंकि यह पैरामीटर को नमूना करने के बाद इस अधिकतमकरण कदम को शामिल करता है)। हालाँकि, क्योंकि इसमें पोस्टऑर्डर से पैरामीटर का यादृच्छिक नमूना शामिल है, योजना में एक निहित हैवर्तमान इनाम को बढ़ाने की भिन्नता, बनाम अधिक जानकारी की खोज। ज्यादातर समय हम एक पैरामीटर "नमूना" प्राप्त करेंगे जो कहीं न कहीं पोस्टीरियर के मुख्य भाग में है, और मशीन का विकल्प मोटे तौर पर तत्काल इनाम के लगभग अधिकतमकरण होगा। हालांकि, कभी-कभी हम यादृच्छिक रूप से एक पैरामीटर मान का नमूना लेंगे जो कि पश्च वितरण की पूंछ में दूर है, और उस स्थिति में हम एक मशीन का चयन करेंगे जो तत्काल इनाम को अधिकतम नहीं करता है - यानी, यह एक "खोज का अधिक गठन करेगा" "भविष्य के पुरस्कार के साथ सहायता करने के लिए।
थॉम्पसन योजना में अच्छी संपत्ति भी है जो हम अपनी "खोज" को कम करने के लिए करते हैं क्योंकि हम अधिक जानकारी प्राप्त करते हैं, और यह समस्या में वांछनीय रणनीतिक व्यापार-बंद की नकल करता है, जहां हम खोज पर कम ध्यान केंद्रित करना चाहते हैं क्योंकि हम अधिक जानकारी प्राप्त करते हैं। जब हम अधिक से अधिक राउंड खेलते हैं और अधिक से अधिक डेटा प्राप्त करते हैं, तो पीछे का भाग वास्तविक पैरामीटर मानों के करीब पहुंच जाता है और इसलिए थॉम्पसन योजना में यादृच्छिक "नमूनाकरण" पैरामीटर मानों के चारों ओर अधिक कसकर पैक हो जाता है जिससे अधिकतम वृद्धि होगी। तत्काल इनाम। इसलिए, इस योजना की एक अंतर्निहित प्रवृत्ति है कि कम जानकारी के साथ अधिक "खोज-उन्मुख" जल्दी, और बाद में "खोज-उन्मुख" होने पर बहुत अधिक डेटा होने पर।
अब, यह कहते हुए, थॉम्पसन सैंपलिंग योजना का एक स्पष्ट दोष यह है कि यह एमएबी समस्या में शेष राउंड की संख्या को ध्यान में नहीं रखता है। यह योजना कभी-कभी एक खेल के आधार पर बनाई जाती है जिसमें अनंत दौर होते हैं, और इस मामले में यह एक मुद्दा नहीं है। हालांकि, परिमित दौरों के साथ एमएबी समस्याओं में, "खोज" को कम करने के लिए शेष राउंड की संख्या को ध्यान में रखना बेहतर होता है क्योंकि भविष्य के राउंड की संख्या कम हो जाती है। (और विशेष रूप से, अंतिम राउंड में इष्टतम खेल खोजों को पूरी तरह से अनदेखा करना है और सबसे अधिक उम्मीद की गई वापसी के साथ दस्यु पर दांव लगाना है।) थॉम्पसन योजना ऐसा नहीं करती है, इसलिए यह एक तरह से परिमित-गोल गेम खेलेंगे। यह स्पष्ट रूप से कुछ मामलों में उप-इष्टतम है।