रैखिक समारोह सन्निकटन के साथ क्यू-मूल्यों में भार कैसे फिट करें


12

सुदृढीकरण सीखने में, रैखिक फ़ंक्शन सन्निकटन का उपयोग अक्सर तब किया जाता है जब बड़े राज्य स्थान मौजूद होते हैं। (जब देखो टेबल बेवफा हो जाते हैं।)

रैखिक फ़ंक्शन सन्निकटन के साथ मान का रूप द्वारा दिया गया हैQ

Q(s,a)=w1f1(s,a)+w2f2(s,a)+,

जहां wi वजन हैं, और fi विशेषताएं हैं।

उपयोगकर्ता द्वारा सुविधाओं को पूर्वनिर्धारित किया जाता है। मेरा सवाल यह है कि वज़न कैसे सौंपा जाता है?

मैंने Q लर्निंग पर कुछ लेक्चर स्लाइड्स को पढ़ा / डाउनलोड किया है, जो फंक्शन सन्निकटन के साथ हैं। उनमें से अधिकांश में रैखिक प्रतिगमन पर स्लाइड्स हैं जो पालन करते हैं। चूंकि वे सिर्फ स्लाइड हैं, वे अधूरे हैं। मुझे आश्चर्य है कि दोनों विषयों के बीच क्या संबंध / संबंध है।

जवाबों:


11

फ़ंक्शन सन्निकटन मूल रूप से एक प्रतिगमन समस्या है (सामान्य अर्थों में, अर्थात वर्गीकरण के विपरीत जहां वर्ग असतत है), यानी एक इनपुट से एक फ़ंक्शन मैपिंग सीखने की कोशिश करता है (आपके मामले में ) एक वास्तविक मूल्य के लिए आउटपुट । चूंकि हमारे पास सभी इनपुट / आउटपुट मानों की एक पूरी तालिका नहीं है, लेकिन इसके बजाय ही समय में बारे में जानें और अनुमान करें , पैरामीटर (यहां: वेट ) की गणना सीधे डेटा से नहीं की जा सकती है। यहां एक सामान्य दृष्टिकोण ढाल मूल का उपयोग करना हैf(s,a)Q(s,a)Q(s,a)w

यहाँ मूल्य निर्धारण अनुमोदन के साथ सीखने के लिए सामान्य एल्गोरिदम हैQ(s,a)

  • Init पैरामीटर-वेक्टर यादृच्छिक रूप से (जैसे [0,1])w=(w1,w2,....,wn)
  • प्रत्येक एपिसोड के लिए:

    1. s प्रकरण की प्रारंभिक अवस्था
    2. aπ εनीति द्वारा दी गई कार्रवाई (अनुशंसा: -greedy)πϵ
    3. कार्रवाई करें , इनाम का निरीक्षण और अगले राज्यars
    4. ww+α(r+γmaxaQ(s,a)Q(s,a))wQ(s,a)
    5. ss

    2-5 दोहराएँ जब तक टर्मिनल हैs

कहाँ पे ...

  • α[0,1] लर्निंग रेट है
  • γ[0,1] डिस्काउंट रेट है
  • maxaQ(s,a) क्रिया है स्टेट मैक्सिमाइज़िंगasQ(s,a)
  • wQ(s,a) , में का ढाल है । आपके रैखिक मामले में, ढाल बस एक सदिश राशि हैQ(s,a)w(f1(s,a),...,fn(s,a))

पैरामीटर्स / वेट-अपडेट (4th स्टेप) को इस तरह से पढ़ा जा सकता है:

  • (r+γmaxaQ(s,a))(Q(s,a)) भविष्यवाणी के बीच त्रुटि है और के लिए "वास्तविक" मूल्य , जो इनाम है प्राप्त अब प्लस की उम्मीद, रियायती लालची नीति का पालन इनाम बाद मेंQ(s,a)Q(s,a)r γmaxaQ(s,a)
  • तो पैरामीटर / वजन-वेक्टर को सबसे दिशा में स्थानांतरित किया जाता है ) द्वारा दी गई त्रुटि की मात्रा से, जिसे द्वारा समायोजित किया जाता है ।wQ(s,a)α

मुख्य स्रोत:

अध्याय 8 का मान (समग्र रूप से अनुशंसित) पुस्तक पुनर्मूल्यांकन सीखना: सौतन और बार्टो (प्रथम संस्करण) द्वारा एक परिचय । सामान्य एल्गोरिदम को संशोधित किया गया है क्योंकि यह आमतौर पर बजाय गणना करने के लिए किया जाता है । मैं भी पात्रता निशान गिरावट आई है ढाल वंश पर ध्यान केंद्रित करने के लिए है, इसलिए केवल एक कदम-बैकअप का उपयोग करQ(s,a)V(s)e

अधिक संदर्भ


2
बार्टो और सटन के लिए टूटी हुई कड़ी! अब यहाँ -> incompleteideas.net/book/the-book.html :) और ई-पुस्तक के रूप में incompleteideas.net/book/ebook लेकिन मैं जहां एक mobi फ़ाइल खोजने के लिए पता नहीं है
grisaitis

1
क्या वे कॉलम वेक्टर के संबंध में Q (s, a) की प्रवणता नहीं है, जहां प्रत्येक तत्व फाई (एस) है, बजाय सभी फाई का योग होने के बजाय जैसा आपने कहा? उद्देश्य यह है कि प्रत्येक वजन उस विशेषता के मूल्य के अनुसार बदला जाता है जिसे वह गुणा कर रहा है।
मिगुएल सराहिवा

@MiguelSaraiva हाँ, इसे ठीक किया। आपका बहुत बहुत धन्यवाद।
22
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.