reinforcement-learning पर टैग किए गए जवाब

गतिशील रणनीतियों का एक सेट, जिसके द्वारा एक एल्गोरिथ्म अलग-अलग पुरस्कारों से जुड़े कार्यों को अनुकूल तरीके से ऑनलाइन करके पर्यावरण की संरचना को सीख सकता है ताकि अर्जित किए गए पुरस्कारों को अधिकतम किया जा सके।

5
ऑफ-पॉलिसी और ऑन-पॉलिसी सीखने के बीच अंतर क्या है?
आर्टिफिशियल इंटेलिजेंस वेबसाइट ऑफ-पॉलिसी और ऑन-पॉलिसी लर्निंग को निम्नानुसार परिभाषित करती है: "एक ऑफ-पॉलिसी शिक्षार्थी एजेंट के कार्यों से स्वतंत्र रूप से इष्टतम नीति का मूल्य सीखता है। क्यू-शिक्षा एक ऑफ-पॉलिसी शिक्षार्थी है। एक ऑन-पॉलिसी शिक्षार्थी अन्वेषण चरणों सहित एजेंट द्वारा की जा रही नीति का मूल्य सीखता है। । …

3
सुदृढीकरण सीखने में छूट कारक की भूमिका को समझना
मैं खुद को सुदृढीकरण सीखने के बारे में सिखा रहा हूं, और रियायती इनाम की अवधारणा को समझने की कोशिश कर रहा हूं। तो इनाम यह बताने के लिए आवश्यक है कि कौन सा सिस्टम राज्य-एक्शन जोड़े अच्छा है, और कौन सा बुरा है। लेकिन मुझे समझ में नहीं आता …

2
शतरंज के लिए कोई गहन सुदृढीकरण सीखने वाले इंजन क्यों नहीं हैं, जो अल्फागो के समान है?
कंप्यूटर लंबे समय तक "ब्रूट-फोर्स" -टेक्नीक का उपयोग करके शतरंज खेलने में सक्षम है, एक निश्चित गहराई तक खोज और फिर स्थिति का मूल्यांकन करता है। हालाँकि, अल्फा गो कंप्यूटर केवल पदों का मूल्यांकन करने के लिए एक एएनएन का उपयोग करता है (यह किसी भी गहराई से खोज नहीं …

9
डीनिंग बेलमैन के समीकरण रीइनफोर्समेंट लर्निंग में
मैं " इन रिइनफोर्समेंट लर्निंग। एन इंट्रोडक्शन " में निम्नलिखित समीकरण देखता हूं , लेकिन मैंने नीचे नीले रंग में हाइलाइट किए गए चरण का पालन नहीं किया है। यह कदम वास्तव में कैसे प्राप्त होता है?

2
सुपरवाइज्ड लर्निंग, अनसपर्विस्ड लर्निंग और रीइनफोर्समेंट लर्निंग: वर्कफ्लो बेसिक्स
पर्यवेक्षित अध्ययन 1) एक मानव इनपुट और आउटपुट डेटा के आधार पर एक क्लासिफायरियर बनाता है 2) उस क्लासिफायरियर को डेटा के प्रशिक्षण सेट के साथ प्रशिक्षित किया जाता है 3) उस क्लासिफायर का परीक्षण डेटा के परीक्षण सेट के साथ किया जाता है 4) उत्पादन संतोषजनक है तो तैनाती …

3
सर्वश्रेष्ठ डाकू एल्गोरिथ्म?
सबसे प्रसिद्ध दस्यु एल्गोरिथ्म ऊपरी विश्वास बाध्य (यूसीबी) है जिसने एल्गोरिदम के इस वर्ग को लोकप्रिय बनाया। तब से मुझे लगता है कि अब बेहतर एल्गोरिदम हैं। वर्तमान सर्वश्रेष्ठ एल्गोरिथ्म (अनुभवजन्य प्रदर्शन या सैद्धांतिक सीमा के संदर्भ में) क्या है? क्या यह एल्गोरिथ्म कुछ अर्थों में इष्टतम है?

3
दैनिक समय श्रृंखला विश्लेषण
मैं समय श्रृंखला विश्लेषण करने की कोशिश कर रहा हूं और इस क्षेत्र में नया हूं। मेरे पास 2006-2009 की एक घटना की दैनिक गिनती है और मैं इसके लिए एक समय श्रृंखला मॉडल फिट करना चाहता हूं। यहां मैंने जो प्रगति की है वह है: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) …

4
आप एंग्री बर्ड्स खेलने के लिए मशीन लर्निंग सिस्टम कैसे डिजाइन करेंगे?
बहुत अधिक गुस्सा पक्षी खेलने के बाद, मैंने अपनी रणनीतियों का पालन करना शुरू कर दिया। यह पता चला है कि मैंने प्रत्येक स्तर पर 3 स्टार प्राप्त करने के लिए एक बहुत ही विशिष्ट दृष्टिकोण विकसित किया है। इसने मुझे मशीन लर्निंग सिस्टम विकसित करने की चुनौतियों के बारे …

2
आवर्तक सुदृढीकरण सीखना क्या है
मैं हाल ही में "आवर्तक सुदृढीकरण सीखने" के शब्द पर आया हूं। मैं समझता हूं कि "पुनरावर्ती तंत्रिका नेटवर्क" क्या है और "सुदृढीकरण सीखना" क्या है, लेकिन "पुनरावृत्ति सुदृढीकरण सीखना" के बारे में अधिक जानकारी नहीं मिल सकी है। क्या कोई मुझे समझा सकता है कि एक "रिकरंट रिइनफोर्समेंट लर्निंग" …

1
जब SARSA बनाम Q Learning को चुनना है
SARSA और Q लर्निंग दोनों ही सुदृढीकरण सीखने वाले एल्गोरिदम हैं जो समान तरीके से काम करते हैं। सबसे महत्वपूर्ण अंतर यह है कि एसएआरएसए पॉलिसी पर है जबकि क्यू लर्निंग ऑफ पॉलिसी है। अद्यतन नियम इस प्रकार हैं: क्यू लर्निंग: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] सार्सा: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] जहां st,atst,ats_t,\,a_t और rtrtr_t राज्य हैं, …

4
क्यू-लर्निंग परीक्षण के दौरान एप्सिलॉन-लालची का उपयोग क्यों करता है?
अटारी वीडियो गेम ( यहां ) के लिए डीप क्यू-लर्निंग पर डीपमाइंड के पेपर में , वे प्रशिक्षण के दौरान अन्वेषण के लिए एप्सिलॉन-लालची विधि का उपयोग करते हैं। इसका मतलब यह है कि जब प्रशिक्षण में एक कार्रवाई का चयन किया जाता है, तो इसे या तो उच्चतम q- …

2
सुदृढीकरण सीखने में एक इनाम समारोह कैसे करें
सुदृढीकरण सीखने का अध्ययन करते समय, मैं इनाम समारोह के कई रूपों में आया हूं: , , और यहां तक ​​कि एक इनाम फ़ंक्शन जो केवल वर्तमान स्थिति पर निर्भर करता है। यह कहने के बाद, मुझे एहसास हुआ कि एक इनाम समारोह को 'परिभाषित' या 'परिभाषित' करना बहुत आसान …

2
क्यू-क्यू सीखने में अक्षर क्यू चुना गया था?
क्यू-क्यू के नाम पर अक्षर Q को क्यों चुना गया? अधिकांश पत्रों को एक संक्षिप्त नाम के रूप में चुना जाता है, जैसे कि नीति के लिए खड़ा होता है और मूल्य के लिए खड़ा होता है। लेकिन मुझे नहीं लगता कि Q किसी शब्द का संक्षिप्त नाम है।वीππ\pivvv

1
देखरेख सुदृढीकरण सीखने का एक सबसेट सीखा है?
ऐसा लगता है कि पर्यवेक्षित अधिगम की परिभाषा एक विशेष प्रकार के रिवार्ड फंक्शन के साथ सुदृढीकरण सीखने का एक उप-समूह है, जो कि लेबल डेटा पर आधारित है (जैसा कि पर्यावरण में अन्य जानकारी के विपरीत है)। क्या यह एक सटीक चित्रण है?

4
किस तरह की वास्तविक जीवन स्थितियों में हम एक मल्टी-आर्म बैंडिट एल्गोरिथ्म का उपयोग कर सकते हैं?
मल्टी-आर्म बैंडिट्स उस स्थिति में अच्छी तरह से काम करते हैं, जहां आपके पास विकल्प हैं और आप सुनिश्चित नहीं हैं कि कौन सा आपकी भलाई को अधिकतम करेगा। आप कुछ वास्तविक जीवन स्थितियों के लिए एल्गोरिथ्म का उपयोग कर सकते हैं। एक उदाहरण के रूप में, सीखना एक अच्छा …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.