क्यू-क्यू सीखने में अक्षर क्यू चुना गया था?


17

क्यू-क्यू के नाम पर अक्षर Q को क्यों चुना गया?

अधिकांश पत्रों को एक संक्षिप्त नाम के रूप में चुना जाता है, जैसे कि नीति के लिए खड़ा होता है और मूल्य के लिए खड़ा होता है। लेकिन मुझे नहीं लगता कि Q किसी शब्द का संक्षिप्त नाम है।वीπv


1
मेरी रूपात्मक समझ में, क्यू एक फ़ंक्शन है जो किसी दिए गए राज्य में एक कार्रवाई के लिए एक मात्रा को जोड़ता है (इसे इनाम, लागत या जो कुछ भी अनुकूलित किया जा रहा है उसे कॉल करें)।
Knk

1
@ साइकोरेक्स मूल प्रश्न को फंसाया गया क्यू-सीखने की समझ और स्पष्टीकरण प्रदान करने के लिए, यह संदर्भ जोड़ने में मदद करेगा। ग्राउंडिंग की स्थापना के बिना ओपी किसी भी स्पष्टीकरण के साथ खो जाएगा।
Knk

क्या रूपक Q = मात्रा मदद करता है? मैं कार्रवाई को देखते हुए राज्यों के एक मात्रा के रूप में यह के बारे में सोच
Knk

जवाबों:


35

मैं हर किसी को निराश करने के लिए माफी चाहता हूं, लेकिन क्यू किसी भी चीज के लिए खड़ा नहीं है :)

वाटकिंस द्वारा 1989 में अपनी पीएचडी थीसिस में क्यू-लर्निंग प्रस्तावित किया गया था , देखें p.96। उस पृष्ठ पर समीकरण में प्रत्येक चरण में निश्चित तरीके से अद्यतन किया जाता है। क्यू किसी दिए गए राज्य में कार्रवाई से अपेक्षित वापसी है, पी .४६ पर क्यू की परिभाषा देखें। वापसी एक आर्थिक या खेल सिद्धांत अर्थ में होती है, अर्थात रियायती संभाव्य भारित पुरस्कार, एक फ़ंक्शन से वापसी की तरह कंप्यूटर विज्ञान शब्द नहीं।

ध्यान दें, कैसे उन्होंने पहले ही P को प्रायिकता और R को इनाम के लिए इस्तेमाल किया था, इसलिए उन्होंने वापसी के लिए Q को पकड़ लिया। बस। अक्षर Q के चुनाव का कोई गहरा अर्थ नहीं है।


3
कोई गहरा अर्थ है, लेकिन यह है एक अर्थ (है कि पी और वर्णमाला में आर के साथ क्यू फिट) और के लिए खड़ा है कुछ
सेक्स्टस एम्पिरिकस

2
@MartijnWeterings यह बिल्कुल भी एक अर्थ नहीं है। यह पत्र का एक विशुद्ध रूप से वाक्यविन्यास विकल्प है, जिसमें कोई अर्थपूर्ण विचार नहीं है।
डेविड रिचेर्बी

निश्चित रूप से, कुछ अर्थ-संबंधी विचार हो सकते हैं (और इस पर बहस हो सकती है क्योंकि लैटिन या ग्रीक अक्षरों, वर्णमाला के विभिन्न पदों में अक्षरों या अपरकेस बनाम लोअरकेस के बीच अंतर सिंटैक्टिक्स और शब्दार्थ के बीच एक ग्रे क्षेत्र बन सकता है)। मैं क्यू की पसंद को 'सार्थक' मानता हूं क्योंकि पत्र का रूप (जो कुछ हद तक मनमाना है) कुछ को चर / पैरामीटर के अर्थ को व्यक्त करता है। अर्थ अक्षर के चुनाव से संबंधित है। जब यू या वी होगा चुना गया है एक अच्छा विकल्प वहाँ नहीं किया गया है, या i, j, k या एक्स, वाई, जेड या α,β,γ
सेक्सटस एम्पिरिकस

@MartijnWeterings, क्यू भी एक कतार की तरह लग रहा है , जो कुछ प्रासंगिक अर्थ भी लाता है
अक्षकाल

@ अक्षल, जो कि क्यू के इस्तेमाल पर लगाम लगा रहा है। लेकिन, मुझे नहीं लगता कि यह मजबूत है। मैं इस विषय के बारे में ज्यादा पता नहीं है, लेकिन मुझे लगता है कि थीसिस की एक त्वरित अवलोकन में यह बहुत प्रशंसनीय लगता है कि पत्र की तरह एक मात्रा के लिए इस्तेमाल किया गया है Σ मैं आर मैं पी मैं या Σ मैं वी मैं पी मैं । अंततः-एक्शन-वैल्यू ’जैसा कुछ नाम इसे दिया गया था, लेकिन उस थीसिस में इस्तेमाल किए गए अक्षर वर्णमाला से बहुत अधिक चिपकते हैं। मान फ़ंक्शन के लिए चर V U के लिए फ़ंक्शन x y के लिए Eg f g h और यह अनुमानित है। , आदि।QiRiPiiViPif g hx yV U
सेक्सटस एम्पिरिकस

0

क्यू-लर्निंग को इसलिए कहा जाता है क्योंकि यह क्यू मूल्यों का उपयोग करता है ताकि यह अनुमान लगा सके। हमेशा की तरह सीखने नियम, है और यह स्पष्ट होना चाहिए कि इसे क्यू-लर्निंग क्यों कहा जाता है।Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

लेकिन मेरे विचार में वास्तविक प्रश्न यह है कि क्यू-लर्निंग को ऐसा क्यों कहा जाता है। हालांकि इसका संतोषजनक उत्तर नहीं मिलता है, इस लिंक में उल्लेख किया गया है कि एंड्रयू बार्टो , जो कि आधुनिक सुदृढीकरण सीखने के संस्थापकों में से एक है, का मानना ​​है कि क्वालिटी के लिए खड़ा है, इसे इसलिए कहा जाता है क्योंकि यह वर्णन करता है कि एक हाथ को खींचने का परिणाम कितना अच्छा है हो।Q


2
उस थीसिस को पढ़ें और मुझे बताएं कि "गुणवत्ता" अपेक्षित वापसी के संदर्भ में कैसे समझ में आता है
अक्सकला

हालाँकि मैं आपसे सहमत हूँ, थीसिस के बारे में लिखा गया था जब वाटकिंस ने एंडी से कई चीजों के बारे में सलाह ली। एंडी को आपके विचार से बेहतर विचार आया होगा।
आमेट देशपांडे

गुणवत्ता भी सीखने में एक अलग अवधारणा के रूप में मौजूद नहीं है। आप अंग्रेजी से सामान्य अर्थ में इस शब्द का उपयोग कर सकते हैं। दूसरी ओर, अपेक्षित रिटर्न गेम सिद्धांत में बहुत अच्छी तरह से परिभाषित किया गया है, इसमें गुणवत्ता जैसे अस्पष्ट अवधारणाओं को संलग्न करके इसे पतला करने की कोई आवश्यकता नहीं है। आप गुणवत्ता को अधिकतम नहीं कर रहे हैं, आप उपयुक्त संभावना माप के तहत रियायती पुरस्कारों को अधिकतम कर रहे हैं। यदि आप थोड़ा और व्यापक होना चाहते हैं, तो आप उपयोगिता को अधिकतम कर सकते हैं।
अक्कल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.