सुपरवाइज्ड लर्निंग, अनसपर्विस्ड लर्निंग और रीइनफोर्समेंट लर्निंग: वर्कफ्लो बेसिक्स


30

पर्यवेक्षित अध्ययन

  • 1) एक मानव इनपुट और आउटपुट डेटा के आधार पर एक क्लासिफायरियर बनाता है
  • 2) उस क्लासिफायरियर को डेटा के प्रशिक्षण सेट के साथ प्रशिक्षित किया जाता है
  • 3) उस क्लासिफायर का परीक्षण डेटा के परीक्षण सेट के साथ किया जाता है
  • 4) उत्पादन संतोषजनक है तो तैनाती

इसका उपयोग करने के लिए, "मुझे पता है कि इस डेटा को कैसे वर्गीकृत किया जाए, मुझे इसे हल करने के लिए बस (क्लासिफ़ायर) की आवश्यकता है।"

विधि का तरीका: लेबलों को श्रेणीबद्ध करना या वास्तविक संख्याओं का उत्पादन करना

अशिक्षित शिक्षा

  • 1) एक मानव इनपुट डेटा के आधार पर एक एल्गोरिथ्म बनाता है
  • 2) उस एल्गोरिथ्म को डेटा के एक परीक्षण सेट के साथ परीक्षण किया जाता है (जिसमें एल्गोरिथ्म क्लासिफायरियर बनाता है)
  • 3) तैनाती अगर वर्गीकरण संतोषजनक है

उपयोग किए जाने पर, "मुझे नहीं पता कि इस डेटा को कैसे वर्गीकृत किया जाए, क्या आप (एल्गोरिथम) मेरे लिए एक क्लासिफायरियर बना सकते हैं?"

विधि के बिंदु: लेबल करने के लिए या भविष्यवाणी करने के लिए (पीडीएफ)

सुदृढीकरण सीखना

  • 1) एक मानव इनपुट डेटा के आधार पर एक एल्गोरिथ्म बनाता है
  • 2) वह एल्गोरिथ्म इनपुट डेटा पर निर्भर एक स्थिति प्रस्तुत करता है जिसमें उपयोगकर्ता उस एल्गोरिथ्म को पुरस्कृत या दंडित करता है जो एल्गोरिथ्म ने कार्रवाई की है, यह समय के साथ जारी रहता है।
  • 3) वह एल्गोरिथ्म इनाम / सजा से सीखता है और खुद को अपडेट करता है, यह जारी है
  • 4) यह हमेशा उत्पादन में रहता है, इसे राज्यों से कार्यों को प्रस्तुत करने में सक्षम होने के लिए वास्तविक डेटा सीखने की आवश्यकता होती है

उपयोग किए जाने पर, "मुझे नहीं पता कि इस डेटा को कैसे वर्गीकृत किया जाए, क्या आप इस डेटा को वर्गीकृत कर सकते हैं और यदि यह सही है तो मैं आपको एक इनाम दूंगा या यदि यह नहीं है तो मैं आपको दंडित करूंगा।"

इस इन प्रथाओं के प्रवाह की तरह है, मैं वे क्या करते हैं के बारे में बहुत सुना है, लेकिन व्यावहारिक और अनुकरणीय जानकारी है आतंकित करते थोड़ा!


वास्तव में आपके प्रश्न को प्रस्तुत करने का तरीका पसंद आया। मुझे यह उत्तर मददगार लगा: आंकड़े ।stackexchange.com
आशीष कुमार सिंह

जवाबों:


3

यह मूल विचारों का एक बहुत अच्छा कॉम्पैक्ट परिचय है!

सुदृढीकरण सीखना

मुझे लगता है कि सुदृढीकरण सीखने का आपका उपयोग मामला वर्णन बिल्कुल सही नहीं है। शब्द का वर्गीकरण उचित नहीं है। एक बेहतर विवरण होगा:

मुझे नहीं पता कि इस वातावरण में कैसे कार्य करना है , क्या आप एक अच्छा व्यवहार पा सकते हैं और इस बीच मैं आपको प्रतिक्रिया दूंगा ।

दूसरे शब्दों में, लक्ष्य कुछ अच्छी तरह से वर्गीकृत करने के बजाय कुछ को नियंत्रित करने के लिए है।

इनपुट

  • पर्यावरण जिसके द्वारा परिभाषित किया गया है
    • सभी संभव अवस्थाएँ
    • राज्यों में संभावित कार्रवाई
  • इनाम समारोह राज्य और / या कार्रवाई पर निर्भर है

कलन विधि

  • एजेंट
    • एक अवस्था में है
    • दूसरे राज्य में स्थानांतरित करने के लिए एक कार्रवाई करता है
    • राज्य में कार्रवाई के लिए एक इनाम मिलता है

उत्पादन

  • एजेंट एक इष्टतम नीति ढूंढना चाहता है जो इनाम को अधिकतम करता है

2

अस्वीकरण: मैं कोई विशेषज्ञ नहीं हूं और मैंने कभी भी सुदृढीकरण सीखने (अभी तक) के साथ कुछ नहीं किया है, इसलिए किसी भी प्रतिक्रिया का स्वागत किया जाएगा ...

यहां एक उत्तर दिया गया है कि आपकी सूची में कुछ छोटे गणितीय नोटों को जोड़ा जाता है और कब क्या उपयोग करना है पर कुछ अलग विचार। मुझे उम्मीद है कि एन्यूमरेशन आत्म-व्याख्यात्मक पर्याप्त है:

देखरेख

  1. हमारे पास डेटाडी={(एक्स0,y0),(एक्स1,y1),...,(एक्सn,yn)}
  2. हम एक मॉडल जो सभी बिंदुओं के लिए कुछ नुकसान / लागत माप को कम करता हैजीएल(yमैं,जी(एक्समैं))0मैं<एल
  3. हम बाकी डेटा ( ) के लिए नुकसान / लागत गणना करके मॉडल का मूल्यांकन करते हैं ताकि यह अंदाजा जा सके कि मॉडल कितना सामान्य हैएलएलमैंn

हम उदाहरण दे सकते हैं, लेकिन इनपुट से आउटपुट तक पहुंचने के लिए हम एल्गोरिदम नहीं दे सकते

वर्गीकरण और प्रतिगमन के लिए सेटिंग

के चलते किसी

  1. हमारे पास डेटाडी={एक्स0,एक्स1,...,एक्सn}
  2. हम एक मॉडल करते हैं जो हमें अपने डेटा में कुछ जानकारी देता है।जी
  3. हमारे पास यह कहने के लिए कोई उपाय नहीं है कि हमने कुछ उपयोगी / रोचक किया है या नहीं

हमारे पास कुछ डेटा है, लेकिन हमारे पास कोई विचार नहीं है जहां उपयोगी / दिलचस्प सामान की तलाश शुरू करना है

क्लस्टरिंग, आयामीता में कमी, छिपे हुए कारकों को खोजना, जेनेरेटिव मॉडल आदि।

सुदृढीकरण

  1. हमारे पास कोई डेटा नहीं है
  2. हम एक मॉडल निर्माण करते हैं जो डेटा (जिसे अक्सर क्रियाएं कहा जाता है) उत्पन्न करता है , जो कुछ इनाम माप को अधिकतम करने के प्रयास में माप और / या पिछले कार्यों पर आधारित हो सकता है , जो आमतौर पर मॉडल के लिए ज्ञात नहीं है (इसे भी सीखने की जरूरत है)।जीएक्समैंआर(एक्समैं)
  3. हम पुरस्कार समारोह के माध्यम से मूल्यांकन करते हैं, क्योंकि यह सीखने के लिए कुछ समय था।

हमें नहीं पता कि कुछ कैसे करना है, लेकिन हम कह सकते हैं कि यह सही किया गया है या गलत

यह अनुक्रमिक निर्णय कार्यों के लिए विशेष रूप से उपयोगी लगता है।

सन्दर्भ:
सी, जे।, बार्टो, ए।, पॉवेल, डब्ल्यू। और वुन्श, डी। (२००४) सुदृढीकरण सीखना और पर्यवेक्षण से इसका संबंध, हैंडबुक ऑफ़ लर्निंग और अनुमानित डायनेमिक प्रोग्रामिंग, जॉन विले एंड संस, इंक। होबोकेन, एनजे, यूएसए। doi: 10.1002 / 9780470544785.ch2

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.