सामान्य इनाम वितरण के लिए बहु सशस्त्र डाकू

मैं एक बहु-सशस्त्र दस्यु समस्या पर काम कर रहा हूँ जहाँ हमें पुरस्कार वितरण के बारे में कोई जानकारी नहीं है।

मुझे कई कागजात मिले हैं, जो ज्ञात बाउंड के साथ वितरण के लिए पछतावा सीमा की गारंटी देते हैं, और [0,1] में समर्थन के साथ सामान्य वितरण के लिए।

मैं यह पता लगाना चाहूंगा कि क्या ऐसे माहौल में अच्छा प्रदर्शन करने का कोई तरीका है जहां इनाम वितरण के पास इसके समर्थन के बारे में कोई गारंटी नहीं है। मैं एक nonparametric सहिष्णुता सीमा की गणना करने और उस संख्या का उपयोग करके पुरस्कार वितरण को स्केल करने की कोशिश कर रहा हूं, इसलिए मैं इस पेपर पर निर्दिष्ट एल्गोरिथ्म 2 ( http://jmlr.org/proceedings/papers/v23/agrawal12/agalal12.pdf) का उपयोग कर सकता हूं )। किसी को भी लगता है कि यह दृष्टिकोण काम करेगा?

यदि नहीं, तो क्या कोई मुझे सही स्थान पर इंगित कर सकता है?

बहुत बहुत धन्यवाद!

references multiarmed-bandit

— अतिथि
स्रोत

एमएबी एल्गोरिदम में अनुसंधान बारीकी से सैद्धांतिक प्रदर्शन की गारंटी से बंधा है। वास्तव में, इन एल्गोरिदम में रुचि का पुनरुत्थान (याद करें कि थॉम्पसन का नमूना 30 के दशक में प्रस्तावित किया गया था) केवल वास्तव में हुआ जब से Auer के 2002 का पेपर साबित हुआ करने पर विभिन्न यूसीबी और लालची के लिए पछतावा सीमा एल्गोरिदम। इस प्रकार, उन समस्याओं में बहुत कम रुचि है जहां इनाम वितरण का कोई ज्ञात बंधन नहीं है क्योंकि लगभग कुछ भी नहीं है जो सैद्धांतिक रूप से कहा जा सकता है। $\mathcal{O}(\log(T))$ $\epsilon$

यहां तक कि सरल थॉम्पसन नमूनाकरण एल्गोरिदम का उल्लेख है कि आपको बर्नौली को पुरस्कार वितरित करने की आवश्यकता है, और यहां तक कि एक लघुगणक अफसोस की सीमा को साबित करने के लिए 80 साल लग गए!

व्यवहार में, हालांकि, ऐसे मामलों में जहां आप कुछ के लिए इनाम वितरण नहीं जानते हैं, आप बस इसे बड़े पैमाने पर द्वारा विभाजित करके तक ले जा सकते हैं , और यदि आप ऊपर इनाम का निरीक्षण करते हैं, तो मूल्य दोगुना हो जाता है, । हालांकि इस दृष्टिकोण का उपयोग करके कोई अफसोस की गारंटी नहीं है, लेकिन यह आमतौर पर काफी अच्छी तरह से काम करता है। $[0,1]$ $S$ $S$ $S:=2S$

इसके अलावा, आपके द्वारा उल्लेखित थॉम्पसन सैंपलिंग एल्गोरिथ्म में बर्नौली परीक्षणों की आवश्यकता है, ताकि आप मनमाने ढंग से निरंतर पुरस्कारों का उपयोग न कर सकें। आप बीटा के बजाय एक गाऊसी पश्च वितरण को फिट कर सकते हैं, लेकिन यह आपकी पसंद के लिए थोड़ा संवेदनशील है, इसलिए आप इसे बहुत सपाट होना चाहते हैं। यदि आप अपने कार्यान्वयन के बारे में कुछ भी साबित नहीं करना चाहते हैं तो यह संभवतः काफी अच्छा काम करेगा।

— fairidox
स्रोत

प्रतिक्रिया के लिए बहुत बहुत धन्यवाद! मैं वास्तव में इसकी प्रशंसा करता हूँ! हालांकि मेरा एक सवाल था। मुझे लगता है कि कागज पर एल्गोरिथम 2 (पृष्ठ 39.4 के शीर्ष पर) मैंने उल्लेख किया कि पुरस्कार वितरण के बारे में कुछ भी करने की आवश्यकता नहीं है लेकिन यह तथ्य है कि यह समर्थन [0,1] में है। शायद आप एल्गोरिथ्म 1 देख रहे थे?

— अतिथि

हाँ, कूल, बर्नौली के नमूनों के वास्तविक मूल्यों को बदलने के लिए काफी दिलचस्प चाल है, यह इंगित करने के लिए धन्यवाद कि विस्तार से मुझे बचा लिया गया था। किसी भी घटना में, जैसा कि आप कहते हैं, आपको अभी भी बंधे हुए चर की आवश्यकता है, आप ऐसा कर सकते हैं कि मैंने जिस सस्ते डबल ट्रिक का उल्लेख किया है और जो थॉम्पसन के नमूने के इस संस्करण का उपयोग करता है। लेकिन आप एक ऐसी विधि तैयार करने से बेहतर हो सकते हैं जो गॉसियन पोस्टीरियर का उपयोग करता है।

— फेयरिडॉक्स

मैं गौसियन पोस्टीरियर विधि में और अधिक देखूंगा, लेकिन गॉसियन के संदर्भ में "फ्लैट" से आपका क्या मतलब है? मुझे लगता है कि एक बीटा (1,1) (वर्दी) की तरह कुछ पहले, सही के अनुरूप होगा?

— अतिथि

सही है, लेकिन आप स्पष्ट रूप से एक अनबाउंड डोमेन से पहले एक समान नहीं हो सकते। इसलिए, यदि आपके पास एक गाऊसी पोस्टीरियर मॉडल है, तो आपके पास संभवतः एक गाऊसी पूर्व होगा, इसलिए आप आमतौर पर इसे "सपाट" या असंक्रामक रूप में संभव बनाना चाहते हैं। इसका आम तौर पर मतलब है कि आप जितने बड़े रूप में खड़े हो सकते हैं। मैं कोई विशेषज्ञ नहीं हूं, लेकिन अध्ययन के एक पूरे क्षेत्र में है कि कैसे असंगत, और संभावित रूप से अनुचित निर्माण के लिए, याजकों को आप देखना चाहते हैं। इसके अलावा, यदि आपके पास सख्ती से सकारात्मक पुरस्कार हैं, तो आप एक अलग मॉडल पर विचार करना चाह सकते हैं।

— फेयरिडॉक्स