मैं एक बहु-सशस्त्र दस्यु समस्या पर काम कर रहा हूँ जहाँ हमें पुरस्कार वितरण के बारे में कोई जानकारी नहीं है।
मुझे कई कागजात मिले हैं, जो ज्ञात बाउंड के साथ वितरण के लिए पछतावा सीमा की गारंटी देते हैं, और [0,1] में समर्थन के साथ सामान्य वितरण के लिए।
मैं यह पता लगाना चाहूंगा कि क्या ऐसे माहौल में अच्छा प्रदर्शन करने का कोई तरीका है जहां इनाम वितरण के पास इसके समर्थन के बारे में कोई गारंटी नहीं है। मैं एक nonparametric सहिष्णुता सीमा की गणना करने और उस संख्या का उपयोग करके पुरस्कार वितरण को स्केल करने की कोशिश कर रहा हूं, इसलिए मैं इस पेपर पर निर्दिष्ट एल्गोरिथ्म 2 ( http://jmlr.org/proceedings/papers/v23/agrawal12/agalal12.pdf) का उपयोग कर सकता हूं )। किसी को भी लगता है कि यह दृष्टिकोण काम करेगा?
यदि नहीं, तो क्या कोई मुझे सही स्थान पर इंगित कर सकता है?
बहुत बहुत धन्यवाद!