इष्टतम सीखने में क्या इनाम समारोह परिणाम है?


13

आइए निम्नलिखित स्थितियों के बारे में सोचें:

  • आप एक रोबोट को पिंग पोंग खेलना सिखा रहे हैं
  • आप वर्गमूल की गणना करने के लिए एक कार्यक्रम सिखा रहे हैं
  • आप स्कूल में एक बच्चे को गणित पढ़ा रहे हैं

इन स्थितियों (यानी अधिगम की देखरेख), और कई अन्य लोगों में एक चीज (दूसरों के बीच) समान है: सीखने वाले को इसके प्रदर्शन के आधार पर इनाम मिलता है।

मेरा सवाल यह है कि रिवॉर्ड फंक्शन कैसा दिखना चाहिए? क्या कोई "सर्वश्रेष्ठ" उत्तर है, या यह स्थिति पर निर्भर करता है? यदि यह स्थिति पर निर्भर करता है, तो कोई यह कैसे निर्धारित करता है कि कौन सा इनाम समारोह चुनना है?

उदाहरण के लिए, निम्नलिखित तीन इनाम कार्य करें:

यहाँ छवि विवरण दर्ज करें

  • समारोह Aकहता है:
    • एक निश्चित बिंदु के नीचे, खराब या बदतर समान हैं: आपको कुछ भी नहीं मिलता है
    • लगभग अच्छे और परिपूर्ण के बीच एक स्पष्ट अंतर है
  • समारोह Bकहता है:
    • आपको अपने प्रदर्शन के लिए आनुपातिक रूप से इनाम मिलता है
  • समारोह Cकहता है:
    • यदि आपका प्रदर्शन खराब है, तो यह ठीक है, आपने अपना सर्वश्रेष्ठ प्रदर्शन किया: आपको अभी भी कुछ इनाम मिल रहा है
    • पूर्ण और लगभग अच्छे के बीच बहुत अंतर नहीं है

सहज रूप से, मुझे लगता है कि Aरोबोट बहुत केंद्रित होगा और सटीक पैटर्न सीखेगा, लेकिन समान पैटर्न के साथ काम करते समय बेवकूफ बन जाते हैं, जबकि Cपूर्णता खोने की कीमत पर इसे बदलने के लिए अधिक अनुकूलनीय होगा।

एक और अधिक जटिल कार्यों के बारे में भी सोच सकता है, बस कुछ दिखाने के लिए:

यहाँ छवि विवरण दर्ज करें

तो, कोई कैसे जानता है कि कौन सा फ़ंक्शन चुनना है? यह माना जाता है जो व्यवहार से (कम से कम) उभरेगा बुनियादी A, Bऔर Cकार्यों?


एक पक्ष का सवाल यह है कि क्या यह रोबोट और मानव बच्चों के लिए मौलिक रूप से अलग होगा?


मुझे संदेह है कि जब तक साइबरनेटिक नहीं होगा, तब तक एक ही या समान काम करके एक रोबोट बेवकूफ बन जाएगा।
ott--

@ नहीं, यह मेरा मतलब नहीं है। जैसा कि मेरा मतलब था कि एक इनाम समारोह के समान था A, रोबोट सटीक कार्य में बहुत अच्छा हो सकता है, लेकिन उन कार्यों पर भयानक है जो समान लेकिन थोड़ा अलग हैं। हालांकि यह सिर्फ मेरा अनुमान है।
शाहबाज़

आह, ठीक है, मैं देखता हूं। आप टेनिस के बारे में सोच रहे हैं जैसे
ott

शायद इसके पीछे सिद्धांत जटिल हो सकता है, लेकिन एक जवाब जो कहता है "मैंने कई रोबोटों को अलग-अलग कार्य सोचा है और अक्सर फ़ंक्शन Xने मुझे सबसे अच्छा परिणाम दिया है", भले ही पूरी तरह से सही न हो, अंगूठे का एक बड़ा नियम देगा।
शाहबाज़

जवाबों:


5

संक्षिप्त उत्तर: सबसे मजबूत सुदृढीकरण प्रभाव एक आंतरायिक (यादृच्छिक) अनुसूची पर एक मूल्यवान इनाम देने से आता है।

लंबा संस्करण: आपके प्रश्न का एक पहलू संचालक कंडीशनिंग के बारे में है , कम से कम यह एक जटिल जीव को गणित पढ़ाने पर लागू होता है। मशीन लर्निंग के लिए इसे लागू करना सुदृढीकरण सीखने के रूप में जाना जाता है ।

अर्थशास्त्र ( jwpat7 के उत्तर के अनुसार ) केवल एक हिस्से को सुदृढीकरण की कहानी को संबोधित करता है। उपयोगिता फ़ंक्शन आपको बताता है कि किसी दिए गए संदर्भ में इनाम में सबसे मजबूत सुदृढीकरण प्रभाव (व्यवहार पर सबसे बड़ा प्रभाव) क्या है। क्या यह प्रशंसा है? चॉकलेट? कोकीन? मस्तिष्क के कुछ क्षेत्रों में प्रत्यक्ष विद्युत उत्तेजना? ज्यादातर मेरा जवाब संदर्भ के प्रभाव के बारे में है, एक दी गई इनाम उपयोगिता को मानते हुए।

जटिल जीवों / व्यवहारों के लिए, इनाम समयबद्धन कम से कम उतना ही महत्वपूर्ण है जितना कि इनाम उपयोगिता:

  • एक "निश्चित-अंतराल इनाम अनुसूची" इनाम की दी गई मात्रा के साथ व्यवहार को संशोधित करने का सबसे कम प्रभावी तरीका है ( यदि आप अपने बेडरूम को साफ रखते हैं तो मैं आपको प्रति सप्ताह $ 10 दूंगा )। डोल बोल्डर सोचो।
  • फिक्स्ड रेशियो रिवॉर्ड शेड्यूल (मैं आपको हर सात दिन में 10 डॉलर देता हूं ) तय अंतराल से ज्यादा प्रभावी होते हैं, लेकिन उनमें एक तरह की इफेक्टिव सीलिंग होती है (सब्जेक्ट उनके कमरे को सात बार साफ करेगा, जब वे $ भूखे होते हैं। 10, लेकिन अन्यथा नहीं)। भाड़े पर सोचें।
  • एक "चर अंतराल सुदृढीकरण अनुसूची" के साथ दिए गए इनाम को वितरित करने का सबसे प्रभावशाली तरीका (जैसे हर दिन जब आप अपने बेडरूम को साफ करते हैं तो आपके पास $ 10 प्राप्त करने का 1/7 मौका होता है)। पोकर मशीन सोचो।

यदि आप दिए गए सीखने की स्थिति के लिए एक निश्चित इनाम बजट के साथ एक सीखने वाले पर्यवेक्षक हैं, तो इनाम आकार (उपयोगिता) और आवृत्ति का एक इष्टतम संतुलन होगा। यह शायद बहुत उच्च आवृत्ति पर इनाम का एक बहुत छोटा टुकड़ा नहीं है, और न ही इनाम का एक बहुत बड़ा हिस्सा बहुत कम ही दिया जाता है। यह एक यादृच्छिक समय पर एक यादृच्छिक आकार का पुरस्कार भी हो सकता है - इष्टतम आमतौर पर किसी विशेष स्थिति के लिए प्रयोगात्मक रूप से निर्धारित किया जाता है।

अंत में, "इष्टतम" अनुसूची (यादृच्छिक आवृत्ति, यादृच्छिक मात्रा {पी (इनाम), पी (मूल्य)}) शायद सीखने की प्रक्रिया में विभिन्न चरणों में भिन्न होगी। उदाहरण के लिए, एक नया छात्र "प्रधानता" प्रभाव (स्वागत! एक जेली बीन) के अधीन हो सकता है जो कि अगर आप इसे दोहराते हैं तो जल्दी से निश्चित-अंतराल इनाम बन जाता है। एक "रीसेंसी" प्रभाव हो सकता है जो बहुत ही अंतिम परीक्षण ("उच्च नोट पर परिष्करण)" पर दिए गए इनाम से अधिक सुदृढीकरण मूल्य प्राप्त करता है। बीच में, एक संचय "विश्वास प्रभाव" हो सकता है जहां एक शिक्षार्थी अधिक अनुभवी हो जाता है, इष्टतम समय के साथ कम संभावना, उच्च उपयोगिता की ओर शिफ्ट हो सकता है। फिर, अपनी स्थिति में अनुभवजन्य रूप से निर्धारित करने के लिए अधिक सामान।


बहुत दिलचस्प जवाब। इससे बहुत कुछ बोध होता है।
शहबाज

मैं इस उत्तर को फिर से पढ़ रहा हूं, और मैं फिर से कहना चाहता हूं कि यह उत्तर कितना शानदार है! वास्तव में, मैं तुम्हें कुछ इनाम देता हूं!
शाहबाज

6

"ऑप्टिमल लर्निंग" एक बहुत अस्पष्ट शब्द है, और यह पूरी तरह से उस विशिष्ट समस्या पर निर्भर करता है जिस पर आप काम कर रहे हैं। आपके द्वारा खोजा जा रहा शब्द " ओवरफिटिंग " है: यहाँ छवि विवरण दर्ज करें

(हरे रंग की रेखा प्रशिक्षण डेटा पर परिणाम की भविष्यवाणी करने में त्रुटि है, बैंगनी रेखा मॉडल की गुणवत्ता, और लाल रेखा "उत्पादन में" सीखे जा रहे मॉडल की त्रुटि है)

दूसरे शब्दों में: जब आप अपने सीखे हुए व्यवहार को समान प्रोब्लेम्स में ढालने की बात करते हैं, तो आपने अपने सिस्टम को कैसे पुरस्कृत किया, यह उससे कम महत्वपूर्ण है कि आपने इसे कितनी बार पुरस्कृत किया है - आप प्रशिक्षण डेटा में त्रुटियों को कम करना चाहते हैं, लेकिन इसे प्रशिक्षण में न रखें। लंबे समय तक यह समान मॉडल पर काम करने की क्षमता खो देता है।

इस समस्या को हल करने का एक तरीका यह है कि आप अपने प्रशिक्षण डेटा को आधे में काटें: एक आधे का उपयोग सीखने के लिए और दूसरे को प्रशिक्षण को मान्य करने के लिए करें। जब आप ओवर-फिट होने लगते हैं तो यह आपको पहचानने में मदद करता है।

गैर-रेखीय इनाम कार्य

अधिकांश पर्यवेक्षित शिक्षण एल्गोरिदम उम्मीद करते हैं कि रिवॉर्ड फ़ंक्शन का अनुप्रयोग उत्तल आउटपुट का उत्पादन करेगा। दूसरे शब्दों में, उस वक्र में स्थानीय मिनीमा होने से आपके सिस्टम को उचित व्यवहार में परिवर्तित होने से रोका जा सकेगा। यह वीडियो लागत / इनाम कार्यों के पीछे गणित का एक सा दिखाता है


3

अर्थशास्त्र में उपयोगिता कार्यों के अध्ययन से इन मुद्दों को कुछ हद तक संबोधित किया जाता है । एक उपयोगिता फ़ंक्शन दूसरे के संदर्भ में एक चीज़ के प्रभावी या कथित मूल्यों को व्यक्त करता है। (हालांकि प्रश्न में दिखाए गए वक्र इनाम कार्य हैं और व्यक्त करते हैं कि विभिन्न प्रदर्शन स्तरों के लिए कितना इनाम दिया जाएगा, समान दिखने वाले उपयोगिता कार्य विभिन्न इनाम स्तरों से कितना प्रदर्शन परिणाम व्यक्त कर सकते हैं।)

क्या इनाम समारोह सबसे अच्छा काम करेगा भुगतानकर्ता और कलाकार के बीच संतुलन पर निर्भर करता है। विकिपीडिया अनुबंध वक्र लेख एडगेवॉर्थ बक्से के साथ दिखाता है कि पारेटो को कुशल आवंटन कैसे प्राप्त करें । वॉन Neumann-मॉर्गनस्टर्न उपयोगिता प्रमेय की स्थिति है कि यह सुनिश्चित करें कि एक एजेंट VNM-तर्कसंगत है और एक उपयोगिता समारोह होने के रूप में लक्षण वर्णन किया जा सकता है की रूपरेखा। विकिपीडिया में हाइपरबोलिक निरपेक्ष जोखिम से बचने के लेख के “हारा यूटिलिटी से उत्पन्न व्यवहार भविष्यवाणियां” कुछ उपयोगिता कार्यों के व्यवहार परिणामों का वर्णन करती है।

सारांश: ये विषय अर्थशास्त्र और सूक्ष्मअर्थशास्त्र में अध्ययन की जबरदस्त मात्रा का विषय रहे हैं। दुर्भाग्य से, एक संक्षिप्त और उपयोगी सारांश जो आपके प्रश्न का उत्तर देता है, वह एक जबरदस्त काम के लिए भी कह सकता है, या मेरे बजाय किसी और विशेषज्ञ का ध्यान आकर्षित कर सकता है।


यह काफी जटिल है, मुझे यकीन नहीं है अगर मैं इसे समझूंगा। लेकिन क्या आप सुनिश्चित हैं कि अर्थशास्त्र का उपयोगिता कार्य रोबोटिक्स पर भी लागू होता है? पर्यवेक्षित शिक्षण (एक रोबोट का) में, भुगतानकर्ता वास्तव में कुछ भी नहीं खोता है। इनाम अक्सर सिर्फ एक नंबर होता है जो रोबोट को बताता है कि उन्होंने कितना अच्छा काम किया है।
शाहबाज़

1

इष्टतम इनाम समारोह सीखने के उद्देश्य पर निर्भर करता है, अर्थात जो सीखा जाना है। सरल समस्याओं के लिए यह संभव हो सकता है कि इष्टतम इनाम फ़ंक्शन के लिए एक बंद फॉर्म प्रतिनिधित्व मिल जाए। वास्तव में सरल समस्याओं के लिए वास्तव में मुझे विश्वास है कि यह संभव है हालांकि मुझे ऐसा करने के लिए कोई औपचारिक तरीका नहीं पता है (मुझे संदेह है कि उपयोगिता सिद्धांत इस प्रश्न को संबोधित करेगा)। अधिक जटिल समस्याओं के लिए मैं तर्क दूंगा कि एक बंद फॉर्म समाधान खोजना संभव नहीं है।

इष्टतम फ़ंक्शन की तलाश करने के बजाय हम एक विशेषज्ञ को एक अच्छे इनाम फ़ंक्शन के लिए देख सकते हैं। ऐसा करने के लिए एक दृष्टिकोण एक तकनीक है जिसका नाम उलटा सुदृढीकरण सीखना (IRL) है। यह एक सीखने की समस्या को सुदृढीकरण सीखने की समस्या के रूप में तैयार करता है जहां इनाम समारोह अज्ञात है और सीखने की प्रक्रिया का उद्देश्य है। पीटर एबील और एंड्रयू एनजी द्वारा व्युत्क्रम सुदृढीकरण लर्निंग के माध्यम से पेपर अप्रेंटिसशिप लर्निंग IRL सीखने के लिए एक अच्छी जगह है।


0

पर्यवेक्षित शिक्षण का कोई भी रूप नीति स्थान में निर्देशित खोज है। आप नीति खोजने की कोशिश करते हैं - ताकि कौन सी कार्रवाई की जाए - जो अधिकतम इनाम की उम्मीद प्रदान करती है। अपने प्रश्न में आप प्रदर्शन के एक समारोह के रूप में इनाम देते हैं। जब तक यह फ़ंक्शन मोनोटोनिक है, तब तक कोई भी विधि जो अभिसरण करती है, अंत में आपको अधिकतम प्रदर्शन (आपकी शब्दावली के साथ रहना) देगी।

विधि कितनी तेजी से परिवर्तित होती है यह एक और मामला है, और अच्छी तरह से वक्र पर निर्भर हो सकता है। लेकिन मुझे लगता है कि यह विधि से विधि में भिन्न होगा।

एक पूरी तरह से अलग समस्या यह है कि अधिक जटिल परिदृश्यों के लिए प्रदर्शन एक साधारण स्केलर नहीं है, और इसे परिभाषित करना काफी कठिन हो सकता है। गणित में अच्छा होने के लिए इनाम समारोह क्या है?


विधि कितनी तेजी से परिवर्तित होती है यह एक और मामला है, और अच्छी तरह से वक्र पर निर्भर हो सकता है। , ठीक है, बिल्कुल। मैं यह समझने की कोशिश कर रहा था कि वक्र सीखने को कैसे प्रभावित करता है (और यदि ऐसा नहीं है, क्योंकि मुझे पहले से ही पता है कि यह करता है)।
शाहबाज़
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.