डिस्क्लेमर: मैं एक जीवविज्ञानी हूं, इसलिए इस तरह के क्रूड के संदर्भ में (शायद) मूल प्रश्न के लिए खेद है।
मुझे यकीन नहीं है कि मुझे यह सवाल यहां या डीएस / एससी से पूछना चाहिए, लेकिन सीएस तीन में से सबसे बड़ा है, इसलिए यहां जाता है। (जब मैंने पोस्ट किया, तो मेरे साथ यह हुआ कि क्रॉस-वैलिडेट इसके लिए बेहतर स्थान हो सकता है, लेकिन अफसोस)।
कल्पना कीजिए कि एक एजेंट है, जो द्विआधारी निर्णय लेता है। और एक वातावरण, जो कि एजेंट के प्रत्येक निर्णय ("परीक्षण") के लिए, या तो एजेंट को पुरस्कृत करता है या नहीं। एजेंट के निर्णयों को पुरस्कृत करने के लिए मानदंड सरल नहीं हैं। सामान्य मानदंडों में यादृच्छिक होते हैं, लेकिन उनके पास सीमा होती है, उदाहरण के लिए, पर्यावरण कभी भी एक ही निर्णय के लिए 3 से अधिक बार पुरस्कृत नहीं करता है और कभी भी एक पंक्ति में 4 से अधिक बार पुरस्कृत निर्णय को वैकल्पिक नहीं करता है।
मापदंड का अनुक्रम कुछ इस तरह से लग सकता है
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
लेकिन कभी नही
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
क्योंकि इनाम मानदंड 3 बार से अधिक नहीं दोहरा सकता है।
इन स्थितियों में इनाम को अधिकतम करने के लिए आदर्श आदर्श पर्यवेक्षक की रणनीति तैयार करना काफी आसान है। की तर्ज पर कुछ
- बेतरतीब ढंग से फैसला करें
- यदि आप 3 बार दोहराए गए मानदंड का पता लगाते हैं - अंतिम मानदंड के विपरीत निर्णय लेते हैं
- यदि आप 4 बार बारी-बारी से उस मानदंड का पता लगाते हैं, तो अंतिम मानदंड के अनुसार निर्णय लें
अब, मुश्किल हिस्सा। अब प्रत्येक परीक्षण पर मानदंड न केवल पिछले मानदंडों के इतिहास पर निर्भर करता है, बल्कि एजेंट के निर्णयों के इतिहास पर भी निर्भर करता है, उदाहरण के लिए, यदि एजेंट पिछले 10 परीक्षणों में से 8 से अधिक पर बारी करता है, तो पिछली बार किए गए एजेंट के रूप में उसी निर्णय को पुरस्कृत करें (जैसे यदि एजेंट को बारी-बारी से हतोत्साहित करना है) और यदि एजेंट ने पिछले 10 परीक्षणों के 8 से अधिक पर एक ही निर्णय दोहराया है, अर्थात वह पक्षपाती है, तो पूर्वाग्रह के विपरीत मानदंड बनाएं। निर्णयों के इतिहास पर मानदंडों के इतिहास की प्राथमिकता पहले से निर्दिष्ट है, इसलिए कभी भी अस्पष्टता नहीं है।
निर्णय (डी) और मानदंड (सी) के अनुक्रम अब इस तरह दिख सकते हैं
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
मैं एजेंट के लिए अधिकतम रणनीति का आविष्कार करने का कोई सरल तरीका नहीं देखता हूं। लेकिन मुझे यकीन है कि एक होना चाहिए, और किसी तरह की चतुर मशीन लर्निंग एल्गोरिदम को इसकी पहचान करने में सक्षम होना चाहिए।
मेरा प्रश्न इतना नहीं है कि इस समस्या को कैसे हल किया जाए (हालाँकि यदि आप कोई समाधान सुझाएंगे तो मुझे खुशी होगी), लेकिन इस प्रकार की समस्याओं को और अधिक कैसे कहा जाता है? मैं इसके बारे में कहां पढ़ सकता हूं? क्या कोई सार समाधान है या केवल अनुकार मदद कर सकता है? सामान्य तौर पर, मैं एक जीवविज्ञानी के रूप में, इस प्रकार की समस्या से कैसे संपर्क कर सकता हूं?