आम आदमी की शर्तों में थॉम्पसन नमूनाकरण क्या है?


14

मैं थॉम्पसन सैंपलिंग को समझने में असमर्थ हूं और यह कैसे काम करता है। मैं मल्टी आर्म बैंडिट के बारे में पढ़ रहा था और अपर कॉन्फिडेंस बाउंड अल्गोरिद्म पढ़ने के बाद, कई टेक्स्ट ने सुझाव दिया कि थॉम्पसन सैंपलिंग यूसीबी से बेहतर प्रदर्शन करता है। थोमसन सैंपलिंग, आम आदमी की या साधारण शब्दों में क्या है?

आगे की समझ के लिए संदर्भ लेख प्रदान करने के लिए स्वतंत्र महसूस करें।

जवाबों:


9

मैं बिना किसी गणित के स्पष्टीकरण देने की कोशिश करने जा रहा हूं। इस उत्तर का एक हिस्सा कुछ बिंदुओं से दोहराया जाता है जो मैंने एमएबी समस्याओं पर एक अन्य प्रश्न के उत्तर में किए थे ।


सामरिक व्यापार बंद बहु हाथ दस्यु समस्याओं में: में बहु हाथ दस्यु समस्याओं जुआरी एक "डाकू" हर दौर और प्रयास निभाता दौर की दी गई संख्या पर अपने कुल की उम्मीद वापसी को अधिकतम करने के लिए। डाकुओं में से प्रत्येक की अपेक्षित वापसी समस्या में कुछ अज्ञात मापदंडों द्वारा वर्णित है, और इसलिए जब हम प्रत्येक दौर में अधिक परिणामों का निरीक्षण करते हैं, तो हम इन अज्ञात मापदंडों के बारे में अधिक जानकारी प्राप्त करते हैं, और इसलिए, प्रत्येक डाकुओं की अपेक्षित वापसी के बारे में। । खेल के प्रत्येक दौर में (अंतिम को छोड़कर), एमएबी समस्या में दो उद्देश्यों के बीच जुआरी द्वारा एक रणनीतिक व्यापार बंद करना शामिल है:

  • तत्काल पुरस्कार: प्रत्येक दौर में वह एक ऐसा वितरण चुनना चाहता है जो उसे इस दौर में एक उच्च प्रत्याशित प्रतिफल देता है, जो उसके (वर्तमान में) वितरण के लिए वरीयता को बढ़ाता है, जिसका अर्थ उच्च प्रतिफल होता है;

  • भविष्य के पुरस्कार (सूचना लाभ से प्रभावित): दूसरी ओर, वह वितरणों पर अधिक जानकारी प्राप्त करके (विशेष रूप से वे जो दूसरों के रूप में नहीं खेला है), अधिक जानकारी प्राप्त करके अपने वास्तविक अपेक्षित पुरस्कारों के अपने ज्ञान को परिष्कृत करना चाहते हैं, ताकि वह कर सकें भविष्य के दौर में उनकी पसंद में सुधार होगा।

इन दोनों चीजों के सापेक्ष महत्व से व्यापार का निर्धारण होगा, और यह सापेक्ष महत्व कई कारकों से प्रभावित होता है। उदाहरण के लिए, यदि समस्या में केवल कुछ ही शेष राउंड होते हैं, तो भविष्य के परीक्षणों के लिए अनुमान अपेक्षाकृत कम मूल्यवान होते हैं, जबकि यदि शेष राउंड की एक बड़ी संख्या है, तो भविष्य के रिवार्ड के लिए निष्कर्ष अपेक्षाकृत अधिक मूल्यवान है। तो जुआरी को इस बात पर विचार करने की आवश्यकता है कि वह मौजूदा दौर में तत्काल पुरस्कारों को अधिकतम करने पर कितना ध्यान केंद्रित करना चाहता है, और वह कितना इस से विचलित करना चाहता है, ताकि अज्ञात मापदंडों के बारे में अधिक जानें जो प्रत्येक डाकुओं के अपेक्षित इनाम का निर्धारण करते हैं।


थॉम्पसन नमूनाकरण: थॉम्पसन नमूने का मूल विचार यह है कि प्रत्येक दौर में, हम मशीनों के अपने मौजूदा ज्ञान को लेते हैं, जो कि अज्ञात मापदंडों के बारे में एक विपरीत विश्वास के रूप में है, और हम इस पोस्टीरियर वितरण से मापदंडों को "नमूना" करते हैं। यह नमूना पैरामीटर प्रत्येक मशीन के लिए अपेक्षित पुरस्कारों का एक सेट देता है, और अब हम उस नमूना पैरामीटर के तहत उच्चतम अपेक्षित रिटर्न के साथ दांव लगाते हैं।

प्राइमा फेसलिफ्ट , थॉम्पसन सैंपलिंग स्कीम में प्रत्येक राउंड में तत्काल अपेक्षित रिटर्न को अधिकतम करने का प्रयास शामिल है (क्योंकि यह पैरामीटर को नमूना करने के बाद इस अधिकतमकरण कदम को शामिल करता है)। हालाँकि, क्योंकि इसमें पोस्टऑर्डर से पैरामीटर का यादृच्छिक नमूना शामिल है, योजना में एक निहित हैवर्तमान इनाम को बढ़ाने की भिन्नता, बनाम अधिक जानकारी की खोज। ज्यादातर समय हम एक पैरामीटर "नमूना" प्राप्त करेंगे जो कहीं न कहीं पोस्टीरियर के मुख्य भाग में है, और मशीन का विकल्प मोटे तौर पर तत्काल इनाम के लगभग अधिकतमकरण होगा। हालांकि, कभी-कभी हम यादृच्छिक रूप से एक पैरामीटर मान का नमूना लेंगे जो कि पश्च वितरण की पूंछ में दूर है, और उस स्थिति में हम एक मशीन का चयन करेंगे जो तत्काल इनाम को अधिकतम नहीं करता है - यानी, यह एक "खोज का अधिक गठन करेगा" "भविष्य के पुरस्कार के साथ सहायता करने के लिए।

थॉम्पसन योजना में अच्छी संपत्ति भी है जो हम अपनी "खोज" को कम करने के लिए करते हैं क्योंकि हम अधिक जानकारी प्राप्त करते हैं, और यह समस्या में वांछनीय रणनीतिक व्यापार-बंद की नकल करता है, जहां हम खोज पर कम ध्यान केंद्रित करना चाहते हैं क्योंकि हम अधिक जानकारी प्राप्त करते हैं। जब हम अधिक से अधिक राउंड खेलते हैं और अधिक से अधिक डेटा प्राप्त करते हैं, तो पीछे का भाग वास्तविक पैरामीटर मानों के करीब पहुंच जाता है और इसलिए थॉम्पसन योजना में यादृच्छिक "नमूनाकरण" पैरामीटर मानों के चारों ओर अधिक कसकर पैक हो जाता है जिससे अधिकतम वृद्धि होगी। तत्काल इनाम। इसलिए, इस योजना की एक अंतर्निहित प्रवृत्ति है कि कम जानकारी के साथ अधिक "खोज-उन्मुख" जल्दी, और बाद में "खोज-उन्मुख" होने पर बहुत अधिक डेटा होने पर।

अब, यह कहते हुए, थॉम्पसन सैंपलिंग योजना का एक स्पष्ट दोष यह है कि यह एमएबी समस्या में शेष राउंड की संख्या को ध्यान में नहीं रखता है। यह योजना कभी-कभी एक खेल के आधार पर बनाई जाती है जिसमें अनंत दौर होते हैं, और इस मामले में यह एक मुद्दा नहीं है। हालांकि, परिमित दौरों के साथ एमएबी समस्याओं में, "खोज" को कम करने के लिए शेष राउंड की संख्या को ध्यान में रखना बेहतर होता है क्योंकि भविष्य के राउंड की संख्या कम हो जाती है। (और विशेष रूप से, अंतिम राउंड में इष्टतम खेल खोजों को पूरी तरह से अनदेखा करना है और सबसे अधिक उम्मीद की गई वापसी के साथ दस्यु पर दांव लगाना है।) थॉम्पसन योजना ऐसा नहीं करती है, इसलिए यह एक तरह से परिमित-गोल गेम खेलेंगे। यह स्पष्ट रूप से कुछ मामलों में उप-इष्टतम है।


1
काश मैं इस प्रतिक्रिया को कई अंगूठे दे पाता। मैं संभवतः जोड़ूंगा कि मैं डाकियों को कैसे अपडेट करूंगा - उदाहरण के लिए यदि डाकिया को सामान्य वितरण के रूप में दर्शाया गया है - गणना के पोस्टरों के औसत और मानक विचलन के लिए अपडेट कैसे हैं। मैं यह कहना है क्योंकि मैं अपने आप को पता नहीं है
मधुर

5

मैं इसे एक शॉट दूंगा और मुझे आशा है कि आप इसे पसंद करेंगे! नीचे कुछ सूत्र दिए गए हैं जिनसे आप डर सकते हैं। मुझे आशा नहीं है, क्योंकि मैं उन्हें सबसे सरल तरीके से समझाने की पूरी कोशिश करूंगा।

ये दो सूत्र हैं:

  • P(r|θ,a,x)
  • P(θ|D)

टी एल; डॉ

थॉम्पसन नमूना आपको देता है

  1. उन सभी मॉडल मापदंडों में से एक यादृच्छिक मॉडल पैरामीटर चुनें जो आपको लगता है कि संभव है।
  2. उस विशेष मॉडल पैरामीटर के अनुसार एक बार कार्य करें।
  3. उस विशेष मॉडल पैरामीटर के साथ मिलने वाले इनाम को ध्यान से देखें।
  4. इस नए अनुभव से सीखें और संभावित मॉडल मापदंडों के बारे में अपनी धारणा को अपडेट करें।

संभावना ??

rax

उस अजीब चक्र के बारे में क्या ??

θθθ, आप जानते हैं कि संदर्भ + क्रियाएं कैसे इनाम से संबंधित हैं और इष्टतम कार्य करना आसान है।

तो हम इन मॉडल मापदंडों को कैसे जानें कि मुझे अधिकतम इनाम मिल सकता है ??

θθ

आपने इस पोस्ट के बारे में कुछ नहीं कहा है

θθ

अब थॉमसन सैंपलिंग इन सभी अनिश्चितताओं के साथ क्या करने का सुझाव देता है ??

थॉमसन सैंपलिंग कुछ बहुत ही सरल सुझाव देता है: बस अपने पीछे से एक यादृच्छिक मॉडल पैरामीटर चुनें, एक कार्रवाई करें और देखें कि क्या होता है। उदाहरण के लिए, जब आप पहले कभी बाहर नहीं रहे हैं, तो नाखुशी-जब-बारिश-ऑन-हेड पैरामीटर कुछ भी हो सकता है। इसलिए हम सिर्फ एक को चुनते हैं, हम मानते हैं कि जब हमारे सिर पर बारिश होती है तो हम वास्तव में दुखी हो जाते हैं। हम देखते हैं कि बारिश हो रही है (संदर्भ) इसलिए हम एक छाता (कार्रवाई) लेते हैं क्योंकि हमारा मॉडल पैरामीटर हमें बताता है कि इस तरह से हम अधिकतम इनाम प्राप्त कर सकते हैं। और वास्तव में, आप मानते हैं कि आप छाता के साथ बारिश में चलने से थोड़ा गदगद हो जाते हैं लेकिन वास्तव में दुखी नहीं होते। हम इस से सीखते हैं कि बारिश + छतरी गदगद है। अगली बार जब बारिश होती है तो आप फिर से एक यादृच्छिक धारणा चुन लेते हैं कि जब बारिश आपके सिर पर आती है तो क्या होता है। इस बार हो सकता है कि यह आपको परेशान न करे। तथापि, एक बार जब आप अपने गंतव्य के लिए आधे-अधूरे होते हैं तो आप गीले हो जाते हैं और आप सीखते हैं कि छाता के बिना बारिश वास्तव में बहुत खराब है। यह आपकी अनिश्चितता के बारे में अनिश्चितता को कम करता है, जब बारिश-पर-सिर, क्योंकि अब आप जानते हैं कि यह संभवतः उच्च है।

यह बहुत सरल लगता है !!

हां, यह उतना जटिल नहीं है। कठिन हिस्सा एक मॉडल पैरामीटर से पीछे नमूना है। अपने सभी मॉडल मापदंडों पर वितरण प्राप्त करना और बनाए रखना, जो आपकी विशिष्ट समस्या के लिए भी उपयुक्त है, कठिन है। लेकिन ... यह निश्चित रूप से उल्लेखनीय है :)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.