छद्म यादृच्छिक अनुक्रम भविष्यवाणी


9

डिस्क्लेमर: मैं एक जीवविज्ञानी हूं, इसलिए इस तरह के क्रूड के संदर्भ में (शायद) मूल प्रश्न के लिए खेद है।

मुझे यकीन नहीं है कि मुझे यह सवाल यहां या डीएस / एससी से पूछना चाहिए, लेकिन सीएस तीन में से सबसे बड़ा है, इसलिए यहां जाता है। (जब मैंने पोस्ट किया, तो मेरे साथ यह हुआ कि क्रॉस-वैलिडेट इसके लिए बेहतर स्थान हो सकता है, लेकिन अफसोस)।

कल्पना कीजिए कि एक एजेंट है, जो द्विआधारी निर्णय लेता है। और एक वातावरण, जो कि एजेंट के प्रत्येक निर्णय ("परीक्षण") के लिए, या तो एजेंट को पुरस्कृत करता है या नहीं। एजेंट के निर्णयों को पुरस्कृत करने के लिए मानदंड सरल नहीं हैं। सामान्य मानदंडों में यादृच्छिक होते हैं, लेकिन उनके पास सीमा होती है, उदाहरण के लिए, पर्यावरण कभी भी एक ही निर्णय के लिए 3 से अधिक बार पुरस्कृत नहीं करता है और कभी भी एक पंक्ति में 4 से अधिक बार पुरस्कृत निर्णय को वैकल्पिक नहीं करता है।

मापदंड का अनुक्रम कुछ इस तरह से लग सकता है

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

लेकिन कभी नही

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

क्योंकि इनाम मानदंड 3 बार से अधिक नहीं दोहरा सकता है।

इन स्थितियों में इनाम को अधिकतम करने के लिए आदर्श आदर्श पर्यवेक्षक की रणनीति तैयार करना काफी आसान है। की तर्ज पर कुछ

  1. बेतरतीब ढंग से फैसला करें
  2. यदि आप 3 बार दोहराए गए मानदंड का पता लगाते हैं - अंतिम मानदंड के विपरीत निर्णय लेते हैं
  3. यदि आप 4 बार बारी-बारी से उस मानदंड का पता लगाते हैं, तो अंतिम मानदंड के अनुसार निर्णय लें

अब, मुश्किल हिस्सा। अब प्रत्येक परीक्षण पर मानदंड न केवल पिछले मानदंडों के इतिहास पर निर्भर करता है, बल्कि एजेंट के निर्णयों के इतिहास पर भी निर्भर करता है, उदाहरण के लिए, यदि एजेंट पिछले 10 परीक्षणों में से 8 से अधिक पर बारी करता है, तो पिछली बार किए गए एजेंट के रूप में उसी निर्णय को पुरस्कृत करें (जैसे यदि एजेंट को बारी-बारी से हतोत्साहित करना है) और यदि एजेंट ने पिछले 10 परीक्षणों के 8 से अधिक पर एक ही निर्णय दोहराया है, अर्थात वह पक्षपाती है, तो पूर्वाग्रह के विपरीत मानदंड बनाएं। निर्णयों के इतिहास पर मानदंडों के इतिहास की प्राथमिकता पहले से निर्दिष्ट है, इसलिए कभी भी अस्पष्टता नहीं है।

निर्णय (डी) और मानदंड (सी) के अनुक्रम अब इस तरह दिख सकते हैं

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

मैं एजेंट के लिए अधिकतम रणनीति का आविष्कार करने का कोई सरल तरीका नहीं देखता हूं। लेकिन मुझे यकीन है कि एक होना चाहिए, और किसी तरह की चतुर मशीन लर्निंग एल्गोरिदम को इसकी पहचान करने में सक्षम होना चाहिए।

मेरा प्रश्न इतना नहीं है कि इस समस्या को कैसे हल किया जाए (हालाँकि यदि आप कोई समाधान सुझाएंगे तो मुझे खुशी होगी), लेकिन इस प्रकार की समस्याओं को और अधिक कैसे कहा जाता है? मैं इसके बारे में कहां पढ़ सकता हूं? क्या कोई सार समाधान है या केवल अनुकार मदद कर सकता है? सामान्य तौर पर, मैं एक जीवविज्ञानी के रूप में, इस प्रकार की समस्या से कैसे संपर्क कर सकता हूं?


2
उदाहरण के लिए autoregressive time श्रृंखला विश्लेषण देखें । यदि आप इनपुट डेटा के बारे में अधिक विस्तृत थे तो यह मदद करेगा। क्या यह जीव विज्ञान से है? एसटीडी समस्याओं के लिए एसटीडी तकनीकें हैं। आवर्तक ANN (कृत्रिम तंत्रिका जाल) भी इसे संभालते हैं। कंप्यूटर साइंस चैट
vzn

2
हिडन मार्कोव मॉडल एक उपयोगी उपकरण हो सकता है।
राफेल

1
आप फॉलो-द-लीडर और अन्य वेरिएंट - onlineprediction.net/?n=Main.FollowTheLeader
MotiN

2
मुझे लगता है कि आप जिस बात का जिक्र कर रहे हैं, वह करीब है जो लोग एमएल रेनफोर्समेंट लर्निंग में कहते हैं ।
केवह

1
ps: यदि आप कुछ समय बाद यहाँ उत्तर नहीं प्राप्त करते हैं, तो आप क्रॉस मान्य पर पोस्ट करने का प्रयास कर सकते हैं ।
केवह

जवाबों:


1

आप सुदृढीकरण सीखना का उपयोग करके इस समस्या से संपर्क कर सकते हैं।

इसके लिए एक क्लासिक पुस्तक सटन और बार्टो है:

दूसरे संस्करण का प्रारूप मुफ्त में उपलब्ध है: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

अपनी समस्या को मार्कोवियन बनाने के लिए, प्रत्येक राज्य को पिछले दस निर्णयों के वेक्टर के रूप में परिभाषित करें। आप कार्रवाई 1 या 0 करेंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.