मेरे पास पहले से ही एक कार्यशील कार्यान्वयन है जो एक गतिशील मूल्य निर्धारण समस्या पर काम कर रहा है जो राजस्व को अधिकतम करने के लक्ष्य के साथ है। हालांकि, मैं जिस समस्या के साथ काम कर रहा हूं, उसमें कई अलग-अलग उत्पाद शामिल हैं जो एक-दूसरे के लिए प्रतिस्थापन हैं, इसलिए गतिशील रूप से स्वतंत्र शिक्षार्थियों के साथ उन सभी का मूल्य निर्धारण गलत लगता है, क्योंकि एक की कीमत दूसरे के इनाम को प्रभावित करती है। लक्ष्य गतिशील रूप से उन सभी की कीमत के रूप में होगा ताकि प्रत्येक व्यक्ति राजस्व का योग अधिकतम हो सके।
मैं इस तरह से सुदृढीकरण सीखने को लागू करने वाले कुछ को खोजने की कोशिश करने के लिए कुछ शोध कर रहा हूं, लेकिन कई मल्टी-एजेंट कार्यान्वयन मैंने सहकारी खेलों की तुलना में प्रतिस्पर्धी खेलों पर अधिक ध्यान केंद्रित किया है, या वे अन्य एजेंटों के अधूरे ज्ञान को मानते हैं (मुझे पूरा होगा) इस परिदृश्य में प्रत्येक एजेंट का ज्ञान)। क्या इस तरह से सहकारी शिक्षण के कोई अच्छी तरह से शोध / दस्तावेज किए गए आवेदन हैं?