सहकारी सुदृढीकरण सीखना


10

मेरे पास पहले से ही एक कार्यशील कार्यान्वयन है जो एक गतिशील मूल्य निर्धारण समस्या पर काम कर रहा है जो राजस्व को अधिकतम करने के लक्ष्य के साथ है। हालांकि, मैं जिस समस्या के साथ काम कर रहा हूं, उसमें कई अलग-अलग उत्पाद शामिल हैं जो एक-दूसरे के लिए प्रतिस्थापन हैं, इसलिए गतिशील रूप से स्वतंत्र शिक्षार्थियों के साथ उन सभी का मूल्य निर्धारण गलत लगता है, क्योंकि एक की कीमत दूसरे के इनाम को प्रभावित करती है। लक्ष्य गतिशील रूप से उन सभी की कीमत के रूप में होगा ताकि प्रत्येक व्यक्ति राजस्व का योग अधिकतम हो सके।क्यू(λ)

मैं इस तरह से सुदृढीकरण सीखने को लागू करने वाले कुछ को खोजने की कोशिश करने के लिए कुछ शोध कर रहा हूं, लेकिन कई मल्टी-एजेंट कार्यान्वयन मैंने सहकारी खेलों की तुलना में प्रतिस्पर्धी खेलों पर अधिक ध्यान केंद्रित किया है, या वे अन्य एजेंटों के अधूरे ज्ञान को मानते हैं (मुझे पूरा होगा) इस परिदृश्य में प्रत्येक एजेंट का ज्ञान)। क्या इस तरह से सहकारी शिक्षण के कोई अच्छी तरह से शोध / दस्तावेज किए गए आवेदन हैं?

जवाबों:



0

सब सब में, आप तक पहुँचने की कोशिश कर रहे हैं Pareto दक्षता।

इसे सहकारी बनाने के लिए, आपको एक एकल इनाम फ़ंक्शन को परिभाषित करना होगा जो सभी खिलाड़ियों द्वारा साझा किया गया है (यह एक ऐसा फ़ंक्शन हो सकता है जो किसी तरह से व्यक्तिगत इनाम कार्यों को जोड़ता है)।

किसी भी तरह, आपको उन पुरस्कारों का वजन करना होगा जो आप एक उत्पाद से दूसरों के संबंध में प्राप्त करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.