उद्देश्य एक समीपस्थ नीति अनुकूलन घटक को डिजाइन करना है जिसमें राज्य संचालित नियमों पर निर्भर एक्शन स्पेस पर विशिष्ट बाधाएं हैं, जो कि Tensorforce जैसी रूपरेखा का उपयोग करते हुए।
प्रश्न में सूचीबद्ध डिज़ाइन विकल्प
नीचे दिए गए प्रारंभिक विश्लेषण को पढ़ते समय त्वरित संदर्भ के लिए इन विकल्पों को यहां सूचीबद्ध किया गया है।
- आंतरिक चरण के आधार पर प्रत्येक चरण पर क्रिया स्थान बदलें। मुझे लगता है कि यह बकवास है।
- कुछ भी न करें: मॉडल को यह समझने दें कि अनुपलब्ध कार्रवाई चुनने से कोई प्रभाव नहीं पड़ता है।
- Doalal- कुछ भी नहीं: जब मॉडल अनुपलब्ध कार्रवाई का चयन करता है तो थोड़ा नकारात्मक रूप से इनाम को प्रभावित करें।
- मॉडल की मदद करें: एक पूर्णांक को राज्य / अवलोकन स्थान में शामिल करके, जो मॉडल को सूचित करता है कि आंतरिक_स्टैट मान + बुलेट 2 या 3 क्या है
प्रारंभिक विश्लेषण
प्रत्येक चाल के लिए एक्शन स्पेस को बदलना वास्तव में समझदार है। यही है, वास्तव में, समस्या के लिए एक उचित प्रतिनिधित्व के रूप में कहा गया है और सामान्य तरीके से मनुष्य खेल खेलते हैं और जिस तरह से कंप्यूटर शतरंज और गो में मनुष्यों को हराते हैं।
इस विचार की स्पष्ट संवेदनहीनता केवल टेन्सफोर्स प्रोजेक्ट रोड मैप के साथ प्रगति और सुदृढीकरण सिद्धांत के साथ प्रगति की एक कलाकृति है, दोनों बड़ी तस्वीर में युवा हैं। टेन्सरफोर्स डॉक्यूमेंटेशन और एफएक्यू को पढ़ते हुए, यह प्रकट नहीं होता है कि एक्शन स्पेस को निर्धारित करने के लिए फ्रेमवर्क को एक नियम इंजन में प्लग करने के लिए डिज़ाइन किया गया है। यह खुले स्रोत की कमी नहीं है। नियम-शर्त वाले मार्कोव श्रृंखला के निर्णय के लिए सिद्धांत या प्रस्ताव एल्गोरिदम प्रदान करने वाले कोई भी कागजात दिखाई नहीं देते हैं।
डू-नथिंग विकल्प वह है जो साहित्य में प्रस्तुत वर्तमान उपलब्ध रणनीतियों में फिट बैठता है। डो-लगभग-कुछ भी संभवतः ऐसा दृष्टिकोण है जो अधिक विश्वसनीय और शायद अधिक तत्काल वांछनीय व्यवहार का उत्पादन करेगा।
मॉडल की मदद करने की अवधारणा के साथ समस्या यह है कि यह मॉडल का विस्तार करने की तुलना में एक मजबूत विचार नहीं है। खुले स्रोत में, यह मॉडल का प्रतिनिधित्व करने वाले वर्गों को विस्तारित करके किया जाएगा, जिसे कोडिंग से पहले कुछ सैद्धांतिक काम की आवश्यकता होगी
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
नियम-विवश मामले को कवर करने के लिए सीखने की प्रणाली का विस्तार पीएचडी थीसिस के लिए एक महान विचार है और कई संभावित अनुप्रयोगों के साथ परियोजना के प्रस्ताव के रूप में अनुसंधान प्रयोगशालाओं में उड़ सकता है। सभी चरणों को शोधकर्ता के सामने न आने दें। वे अनिवार्य रूप से किसी भी पीएचडी थीसिस या वित्त पोषित AI प्रयोगशाला परियोजना के लिए चरणों की एक सूची है।
अल्पकालिक समाधान के लिए, मॉडल काम करने में मदद कर सकता है, लेकिन सुदृढीकरण सीखने के रास्ते में एआई के विचारों को आगे बढ़ाने के लिए यह एक ठोस रणनीति नहीं है। एक विशेष समस्या के लिए एक अल्पकालिक समाधान के रूप में यह ठीक काम कर सकता है। डो-लगभग-कुछ भी विचार अधिक ध्वनि नहीं हो सकता है, क्योंकि यह अभिसरण साक्ष्यों के भीतर फिट बैठता है जिसके कारण विशेष कार्यान्वयन Tensorforce का उपयोग करने की संभावना है।
सहायता-अभिसरण के लिए इसे लगभग-कुछ भी नहीं से नाम बदलने से कोशिश करने से पहले सही परिप्रेक्ष्य विकसित करने में मदद मिल सकती है। हो सकता है कि आपको सीखने की दर के साथ ओवरशूट से बचने के लिए अभिसरण के दृष्टिकोण के अनुसार सहायता प्राप्त करनी पड़े।