सहकारी सुदृढीकरण सीखना

10

मेरे पास पहले से ही एक कार्यशील कार्यान्वयन है जो एक गतिशील मूल्य निर्धारण समस्या पर काम कर रहा है जो राजस्व को अधिकतम करने के लक्ष्य के साथ है। हालांकि, मैं जिस समस्या के साथ काम कर रहा हूं, उसमें कई अलग-अलग उत्पाद शामिल हैं जो एक-दूसरे के लिए प्रतिस्थापन हैं, इसलिए गतिशील रूप से स्वतंत्र शिक्षार्थियों के साथ उन सभी का मूल्य निर्धारण गलत लगता है, क्योंकि एक की कीमत दूसरे के इनाम को प्रभावित करती है। लक्ष्य गतिशील रूप से उन सभी की कीमत के रूप में होगा ताकि प्रत्येक व्यक्ति राजस्व का योग अधिकतम हो सके। $Q(\lambda)$

मैं इस तरह से सुदृढीकरण सीखने को लागू करने वाले कुछ को खोजने की कोशिश करने के लिए कुछ शोध कर रहा हूं, लेकिन कई मल्टी-एजेंट कार्यान्वयन मैंने सहकारी खेलों की तुलना में प्रतिस्पर्धी खेलों पर अधिक ध्यान केंद्रित किया है, या वे अन्य एजेंटों के अधूरे ज्ञान को मानते हैं (मुझे पूरा होगा) इस परिदृश्य में प्रत्येक एजेंट का ज्ञान)। क्या इस तरह से सहकारी शिक्षण के कोई अच्छी तरह से शोध / दस्तावेज किए गए आवेदन हैं?

machine-learning reinforcement-learning

— user3704120
स्रोत

1

आप इन कागजों को देख सकते हैं। पहले वाला आपके कार्य से काफी संबंधित है।
http://icamt2016.org/papers/SS-LTMLBDA-06-05.pdf http://researcher.watson.ibm.com/researcher/files/us-kephart/icml00_qrt.pdf

— Prayalankar
स्रोत

0

सब सब में, आप तक पहुँचने की कोशिश कर रहे हैं Pareto दक्षता।

इसे सहकारी बनाने के लिए, आपको एक एकल इनाम फ़ंक्शन को परिभाषित करना होगा जो सभी खिलाड़ियों द्वारा साझा किया गया है (यह एक ऐसा फ़ंक्शन हो सकता है जो किसी तरह से व्यक्तिगत इनाम कार्यों को जोड़ता है)।

किसी भी तरह, आपको उन पुरस्कारों का वजन करना होगा जो आप एक उत्पाद से दूसरों के संबंध में प्राप्त करते हैं।

— जुआन लेनि
स्रोत