किस तरह की वास्तविक जीवन स्थितियों में हम एक मल्टी-आर्म बैंडिट एल्गोरिथ्म का उपयोग कर सकते हैं?


15

मल्टी-आर्म बैंडिट्स उस स्थिति में अच्छी तरह से काम करते हैं, जहां आपके पास विकल्प हैं और आप सुनिश्चित नहीं हैं कि कौन सा आपकी भलाई को अधिकतम करेगा। आप कुछ वास्तविक जीवन स्थितियों के लिए एल्गोरिथ्म का उपयोग कर सकते हैं। एक उदाहरण के रूप में, सीखना एक अच्छा क्षेत्र हो सकता है:

यदि कोई बच्चा बढ़ईगिरी सीख रहा है और वह इस पर बुरा है, तो एल्गोरिथ्म उसे / उसे बताएगा कि उसे संभवतः आगे बढ़ने की आवश्यकता है। यदि वह इसमें अच्छा है, तो एल्गोरिथ्म उसे उस क्षेत्र को सीखने के लिए जारी रखेगा।

डेटिंग भी एक अच्छा क्षेत्र है:

आप एक महिला को आगे बढ़ाने में बहुत सारे 'प्रयास' कर रहे हैं। हालाँकि, आपके प्रयासों को निश्चित रूप से उजागर नहीं किया गया है। एल्गोरिथ्म को "थोड़ा" (या दृढ़ता से) आपको आगे बढ़ने के लिए नग्न करना चाहिए।

हम दूसरों की वास्तविक जीवन की स्थिति के लिए मल्टी आर्म बैंडिट एल्गोरिथ्म का उपयोग कर सकते हैं?

पुनश्च: यदि प्रश्न बहुत व्यापक है, तो कृपया एक टिप्पणी छोड़ दें। अगर आम सहमति है, तो मैं अपना प्रश्न हटा दूंगा।


3
यह देखते हुए कि 3 उत्तोलित उत्तर हैं (अब तक), मुझे नहीं लगता कि यह जवाबदेह होने के लिए बहुत व्यापक है।
गूँग - मोनिका

@ गुंग ने मुझे अधिक परेशान किया है और फिर भी, वे मेरे स्कोर पर प्रतिबिंबित नहीं होते हैं। कैसे?
एंडी के

5
ऐसा इसलिए है क्योंकि यह धागा सामुदायिक विकि (CW), @AndyK है। जब एक धागा सीडब्ल्यू होता है, तो लोगों को अपवोट्स से प्रतिष्ठा नहीं मिलती है (या इसे डाउनवोट्स से खो देते हैं)। आप सामान्य के रूप में बैज अर्जित करेंगे, हालांकि। इस तरह के सवाल सामान की सूची और जहां एक भी नहीं है, स्पष्ट 'सही' उत्तर एसई साइटों पर विषय से माना जाता है। हमारा समझौता (मेरा मानना ​​है कि अन्य साइटें भी ऐसा करती हैं) मामले के आधार पर ऐसे सवालों की अनुमति देना है, लेकिन उन्हें सीडब्ल्यू बनाना है।
गूँग - मोनिका

फेयर काफी @gung
एंडी के

1
कॉलेज में प्रवेश दान किए गए अंगों के लिए प्राप्तकर्ताओं के चयन के लिए मीट्रिक का चयन।
EngrStudent -

जवाबों:


8

जब आप मूल पोकेमॉन गेम (रेड या ब्लू और येलो) खेलते हैं और आप सेलडॉन शहर में पहुंचते हैं, तो टीम रॉकेट स्लॉट मशीनों में बहुत अधिक अंतर होता है। यदि आप वास्तव में उपवास कर रहे हैं, तो बहु-आर्म बैंडिट को आप वहीं प्राप्त करना चाहते हैं।

सभी गंभीरता में, लोग मशीन सीखने में ट्यूनिंग चर चुनने के साथ समस्या के बारे में बात करते हैं। खासकर यदि आपके पास बहुत सारे चर हैं, तो अन्वेषण बनाम शोषण के बारे में बात की जाती है। इस विषय में स्पीयरमिंट या यहां तक ​​कि नया पेपर देखें जो ट्यूनिंग मापदंडों को चुनने के लिए एक सुपर सरल एल्गोरिथ्म का उपयोग करता है (और अन्य ट्यूनिंग चर तकनीकों को बेहतर बनाता है)


6

उनका उपयोग बायोमेडिकल ट्रीटमेंट / रिसर्च डिज़ाइन सेटिंग में किया जा सकता है। उदाहरण के लिए, मेरा मानना ​​है कि क्यू-लर्निंग एल्गोरिदम का उपयोग अनुक्रमिक, एकाधिक असाइनमेंट, रैंडमाइज्ड ट्रायल ( स्मार्ट ट्रायल ) में किया जाता है। ढीले ढंग से, यह विचार है कि उपचार शासन रोगी की प्रगति के लिए बेहतर रूप से अनुकूलन करता है। यह स्पष्ट है कि यह एक व्यक्तिगत रोगी के लिए सबसे अच्छा कैसे हो सकता है, लेकिन यह यादृच्छिक नैदानिक ​​परीक्षणों में भी अधिक कुशल हो सकता है।


धन्यवाद @ गुंग। मुझे उस एल्गोरिथ्म के बारे में नहीं पता था। मैं इस पर एक पढ़ा होगा
एंडी के

6

उनका उपयोग ऑनलाइन विज्ञापन के ए / बी परीक्षण में किया जाता है, जहां विभिन्न उपयोगकर्ताओं को अलग-अलग विज्ञापन दिखाए जाते हैं और परिणामों के आधार पर निर्णय लिया जाता है कि भविष्य में क्या विज्ञापन दिखाए जाने चाहिए। यह Google शोधकर्ता स्टीवन एल स्कॉट द्वारा अच्छे पेपर में वर्णित है ।


धन्यवाद @ टिम। मैंने पढ़ा है कि vwo.com/blog/multi-armed-bandit-algorithm
एंडी के

2

मैंने क्वोरा पर भी यही सवाल पूछा

यहाँ जवाब है

  • एक संगठन के विभिन्न विभागों के लिए धन का आवंटन

  • सीमित समय और एक मनमाना चयन सीमा को देखते हुए छात्रों के समूह में से सर्वश्रेष्ठ प्रदर्शन करने वाले एथलीटों को चुनना

  • एक साथ नई सुविधाओं का परीक्षण करते समय वेबसाइट की कमाई को अधिकतम करना (ए / बी परीक्षण के एवज में) आप उन्हें तब भी उपयोग कर सकते हैं जब आपको कठोर सांख्यिकीय मॉडल बनाने के लिए पर्याप्त डेटा नहीं होने पर परिणामों का अनुकूलन करने की आवश्यकता होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.