क्या खेलों के अलावा सुदृढीकरण सीखने के कोई भी अनुप्रयोग हैं?


13

क्या खेलों के अलावा अन्य अनुप्रयोगों में सुदृढीकरण सीखने को सिखाने का एक तरीका है?

एकमात्र उदाहरण जो मैं इंटरनेट पर पा सकता हूं वह गेम एजेंटों का है। मैं समझता हूं कि वीएनसी ने सुदृढीकरण नेटवर्क के माध्यम से खेल के लिए इनपुट को नियंत्रित किया है। क्या सीएडी सॉफ्टवेयर के साथ इसे स्थापित करना संभव है?


3
हां, यह संभव है लेकिन असली सवाल यह होना चाहिए कि यह अन्य एल्गोरिदम की तुलना में अधिक कुशल है या नहीं। यदि आपके पास एक विशिष्ट लक्ष्य है, तो आप इसके बारे में सोच सकते हैं और इसे एक खेल के रूप में मॉडल कर सकते हैं (यहां तक ​​कि जीवन एक खेल है;))। वास्तव में, कई सफल एआई एक से अधिक तकनीकों का लाभ उठा रहे हैं। इस पर एक नज़र डालें: datascience.stackexchange.com/questions/11126/…
TasosGlrs

2
अल्फा गो के बारे में बात यह है कि विशेष रूप से एक निश्चित प्रकार का खेल ( गैर-तुच्छ , गैर-मौका, सही जानकारी) एआई के लिए एक उत्कृष्ट साबित जमीन प्रदान करता है क्योंकि इन खेलों में बहुत ही सरल पैरामीटर हैं, लेकिन प्रकृति के लिए जटिलता। खेल, एक निश्चित दृष्टिकोण से, कलाकृतियों के सबसे उपयोगी प्रकार हैं क्योंकि वे अमूर्त और रणनीतिक सोच सिखाते हैं। खेलों के महत्व को समझने के लिए, कंप्यूटर विज्ञान पर गेम थ्योरी के प्रभाव को देखें
DukeZhou

वह एनडीए के कारण हो सकता है। सर्वश्रेष्ठ सीखने वाले ऐप मालिकाना हैं, जैसे कि सर्वश्रेष्ठ सेल टॉवर सॉफ़्टवेयर या सर्वश्रेष्ठ आवाज़ पहचान या सर्वश्रेष्ठ ऑनलाइन शॉपिंग केंद्र। यह सामान्य रूप से इंजीनियरिंग है।
फौश्रिशियन

सही। यदि सभी में गेम थ्योरी है, तो दुनिया एक गेम बन जाती है।
फेलिसिटी

जवाबों:


2

सुदृढीकरण सीखने के शांत उदाहरणों में से एक एक स्वायत्त उड़ान हेलीकाप्टर है। मुझे हाल ही में एंड्रयू एनजी और अन्य लोगों द्वारा किए गए कुछ सामानों को सीखने का मौका मिला। यहाँ शोध आलेख है । इसी तरह के अन्य कागजात भी हैं। यदि आप और अधिक सीखना चाहते हैं तो आप उन्हें गूगल कर सकते हैं।

आप इसे इस यूट्यूब वीडियो में एक्शन में भी देख सकते हैं ।

यहाँ स्पष्ट रूप से वित्त में एक और पूरी तरह से अलग आवेदन है।


2

आप सुदृढीकरण सीखने वाले साहित्य में बहुत सारे खेल उदाहरण देखेंगे, क्योंकि खेल के वातावरण को अक्सर कुशलता से कोडित किया जा सकता है, और एक कंप्यूटर पर तेजी से चलाया जा सकता है जिसमें फिर पर्यावरण और एजेंट शामिल हो सकते हैं। क्लासिक गेम के लिए, जैसे बैकगैमौन, चेकर्स, शतरंज, गो, फिर ऐसे मानव विशेषज्ञ हैं जिनके साथ हम परिणामों की तुलना कर सकते हैं। कुछ खेल या सरलीकृत खेल जैसे वातावरण का उपयोग आमतौर पर विभिन्न दृष्टिकोणों की तुलना करने के लिए किया जाता है, बहुत कुछ जैसे कि MNIST हस्तलिखित अंकों का उपयोग पर्यवेक्षित शिक्षण दृष्टिकोणों की तुलना के लिए किया जाता है।

क्या खेलों के अलावा अन्य अनुप्रयोगों में सुदृढीकरण सीखने को सिखाने का एक तरीका है?

हाँ। अनौपचारिक रूप से आप सुदृढीकरण सीखने के दृष्टिकोणों को लागू कर सकते हैं जब भी आप किसी समस्या को एक ऐसे वातावरण के भीतर काम करने वाले एजेंट के रूप में लागू कर सकते हैं जहां इसे राज्य और एक लक्ष्य-प्रभावी इनाम मूल्य के बारे में सूचित किया जा सकता है। औपचारिक रूप से, सुदृढीकरण सीखने का सिद्धांत मार्कोव निर्णय प्रक्रियाओं के समाधान पर आधारित है , इसलिए यदि आप अपनी समस्या को एमडीपी में फिट कर सकते हैं तो आरएल में उपयोग की जाने वाली विभिन्न तकनीकों जैसे - क्यू-लर्निंग, एसएआरएसए, रेइनफोर्स - को लागू किया जा सकता है। सिद्धांत के लिए यह फिट होने के लिए परिणामी प्रणाली के काम करने के लिए एकदम सही होने की आवश्यकता नहीं है, उदाहरण के लिए आप अक्सर अज्ञात या अपूर्ण रूप से देखे गए राज्य को प्रभावी ढंग से एजेंट के रूप में यादृच्छिक रूप से व्यवहार कर सकते हैं, और एक स्टोकेस्टिक वातावरण के इस हिस्से पर विचार कर सकते हैं।

यहाँ मनोरंजक खेलों के बाहर सुदृढीकरण सीखने के लिए संभावित उपयोग के कुछ उदाहरण दिए गए हैं:

  • मोटराइज्ड रोबोट के लिए नियंत्रण तर्क, जैसे कि फ्लिप पैनकेक और अन्य उदाहरण सीखना । यहां पर्यावरण मापक रोबोट पर भौतिक सेंसर द्वारा किए जाते हैं। पुरस्कार एक लक्ष्य को पूरा करने के लिए दिया जाता है, लेकिन इसे चिकनाई, ऊर्जा के आर्थिक उपयोग आदि के लिए भी समायोजित किया जा सकता है। एजेंट निम्न स्तर की क्रियाएं जैसे मोटर टॉर्क या रिले पोजिशन चुनता है। सिद्धांत में नेस्टेड एजेंट हो सकते हैं जहां उच्च स्तर वाले निचले स्तर के लोगों के लिए लक्ष्य चुनते हैं - जैसे कि रोबोट तीन स्तरों में से एक कार्य करने के बीच उच्च स्तर पर निर्णय ले सकता है जिसे विभिन्न स्थानों पर जाने की आवश्यकता होती है, और निम्न स्तर पर हो सकती है रोबोट को उसके चुने हुए लक्ष्य तक ले जाने के लिए मोटरों को कैसे नियंत्रित किया जाए, इस पर निर्णय।

  • सेल्फ ड्राइविंग कार। यद्यपि सेंसर व्याख्या पर बहुत अधिक ध्यान दिया जाता है - सड़क के चिह्नों, पैदल चलने वालों आदि को देखकर, त्वरक, ब्रेक और स्टीयरिंग का चयन करने के लिए एक नियंत्रण प्रणाली की आवश्यकता होती है।

  • स्वचालित वित्तीय व्यापार। शायद कुछ के लिए एक खेल, स्पष्ट वास्तविक दुनिया परिणाम हैं। हालांकि, इनाम संकेत काफी सरल है, और आरएल को दीर्घकालिक या अल्पकालिक लाभ पसंद करने के लिए समायोजित किया जा सकता है।

क्या सीएडी सॉफ्टवेयर के साथ इसे स्थापित करना संभव है?

सिद्धांत रूप में हां, लेकिन मुझे नहीं पता कि व्यवहार में ऐसा करने के लिए क्या उपलब्ध हो सकता है। इसके अलावा आपको एक या एक से अधिक लक्ष्यों की आवश्यकता होती है, जिसे आप वर्चुअल माउस देने से पहले एजेंट में कोड करते हैं (इनाम मान जो इसे देख सकते हैं)। कंप्यूटर गेम उनके स्कोरिंग सिस्टम के रूप में निर्मित एक इनाम योजना के साथ आते हैं, और लगातार प्रतिक्रिया प्रदान करते हैं, इसलिए एक एजेंट जल्दी से अच्छे बनाम बुरे फैसलों का ज्ञान प्राप्त कर सकता है। आपको इस स्कोरिंग घटक को उस चीज़ से बदलना होगा जो CAD- आधारित प्रणाली के लिए आपके लक्ष्यों का प्रतिनिधित्व करती है।

सीएडी में कुछ भी उपयुक्त बिल्ट-इन नहीं है, हालांकि सिमुलेशन के साथ सीएडी उपकरण, जैसे कि विभिन्न भौतिकी इंजन या परिमित तत्व विश्लेषण, आपको नकली भौतिक माप के आधार पर डिजाइन स्कोर करने की अनुमति दे सकते हैं। अन्य संभावनाओं में तनाव का विश्लेषण, सामग्री का गैर-बेकार उपयोग शामिल है, जो कुछ भी मैट्रिक्स सीएडी / सीएएम प्रणाली एक आंशिक या पूर्ण डिजाइन के लिए प्रदान कर सकता है। मुश्किल हिस्सा एक डिजाइन को अपने लक्ष्य या उद्देश्य के लिए विवश कर रहा है और या तो उसे पुरस्कृत करने की व्यवस्था कर रहा है, या पर्यावरण में बाधाओं का निर्माण कर रहा है; एक आरएल एजेंट को सीएडी प्रक्रिया का पूर्ण अप्रतिबंधित नियंत्रण देने और सबसे कम तनाव पर पुरस्कृत करने की संभावना एक छोटे से घन जैसे बहुत ही निर्बाध परिणाम में होगी।


उपयुक्त चीजों के बहुत सारे: अधिकतम दृश्य स्पष्टता के लिए ऑटो-डाइमेंशन, तनाव के तहत चलती भागों के लिए हस्तक्षेप खोज (बिना FEA के), सीएएम आउटपुट का अनुकूलन, अनुमानित z- गहराई जानकारी, आदि का उपयोग कर त्वरण प्रदान करना
FauChistian

@FauChristian: मुझे यकीन नहीं है कि उन सभी को एक इनाम स्कोर के रूप में बस एक गेम स्कोर के रूप में खिलाया जा सकता है। उदाहरण के लिए कम तनाव के लिए एक डिजाइन का अनुकूलन आपके डिजाइन का एक उद्देश्य है - आपको उस उद्देश्य को ट्रैक करने के लिए कुछ बाधाओं / नियमों को भी जोड़ना होगा, और यह तब तक कठिन हो सकता है जब तक कि आपके पास कुछ एर्गोनोमिक विश्लेषण भी न हो। हालांकि, टिप्पणी में कुछ ऐसी चीजें शामिल हैं, जिनका मैं उल्लेख कर सकता हूं, और उत्तर में जोड़ दूंगा।
नील स्लेटर

हाँ। सच। मै कोशिश करुॅगा। कृपया टिप्पणियों के स्ट्रिंग बहाना मुझे ऐसा करने की आवश्यकता होगी। मेरे लक्ष्य के ऊपर प्रत्येक मामले में एक यांत्रिक डिजाइनर की चिंताओं को एकल कल्याण संकेत में एकत्र करना होगा जो पुनरावृत्तियों को निर्देशित कर सकता है, इस सच्चाई को ध्यान में रखते हुए कि एनएन के कई अंग हो सकते हैं जिनमें से प्रत्येक को एक अलग एकत्रीकरण खिलाया जा सकता है। लेकिन सादगी की खातिर, मैं प्रत्येक मामले को एक स्केलर के लिए जोड़ूंगा। इनमें से अधिकांश के लिए एक स्टोकेस्टिक तत्व की आवश्यकता होगी क्योंकि सीएडी के अधिकांश मामलों में समग्र मूल्य की सतह में कई महत्वपूर्ण बिंदु हैं।
फौश्रीस्टियन

ऑटो डायमेंशनिंग - w = sqrt (s मिनट (s_clear, s_nice)) + k n_jumps, ... जहाँ ... w ड्राइंग के आयाम की स्थिति का गुणवत्ता समुच्चय है, जहाँ से एक सामान्यीकृत संकेत प्राप्त किया जा सकता है, s_clear एक डाइमेंशन लाइन और जंप लाइनों को छोड़कर निकटतम अन्य लाइन के बीच की दूरी है, s_nice एक मेटापैरमीटर है, जो कि आरेखित होने के प्रकार के लिए लाइनों के बीच क्लीयरेंस की अच्छी दूरी का प्रतिनिधित्व करता है, k एक स्थिर है, और n_jumps जंप लाइनों की संख्या है ( जहां रेखाएं पार होती हैं, लेकिन दोनों में से एक में यह इंगित करने के लिए अंतर है कि यह दूसरी रेखा के पीछे कूद रही है)।
फ़ॉच्रिशियन

इंटरफेरेंस खोजें - डब्ल्यू = एन, ... जहां ... डब्ल्यू इंटरफेरेंस सर्च की गुणवत्ता एग्रीगेट है और एन पुनरावृत्तियों की संख्या है जो पुनरावृत्तियों को खिलाने के बाद पाए गए अनुमानों के एक गतिशील सिमुलेशन में अनुमान लगाते हैं। यह एक खेल की तरह है जिसमें अधिक सही हस्तक्षेप उच्च स्कोर का अनुमान लगाता है।
फ़ॉउचरियन

1

वास्तविक वेब, मोबाइल और वर्कस्टेशन एप्लिकेशन में प्रबलित शिक्षण को कॉल करने के लिए निश्चित रूप से एक तरीका है।

सैन्य संगठन इसे करते हैं, फिल्म उद्योग करता है, सॉफ्टवेयर केंद्रित कंपनियां यह कर रही हैं, और मैंने इसे फॉर्च्यून 500 व्यवसायों और छोटे व्यवसायों के लिए समान रूप से किया है। सभी प्रकार के सिस्टम घटकों में अनुकूली शिक्षण घटक बड़े सिस्टम में एम्बेडेड हैं, फेसबुक के फेशियल रिकॉग्निशन रोबोट से लेकर गूगल ट्रांसलेट तक यूएसपीएस ज़िप कोड रिकग्निशन सिस्टम से लेकर ऑटोनॉमस फ्लाइट और ट्रैफिक कंट्रोल सिस्टम तक। कंप्यूटर एडेड डिजाइन सॉफ्टवेयर (CAD) निश्चित रूप से एक व्यवहार्य लक्ष्य है।

सुदृढीकरण के लिए आधार

घटनाओं का वर्णन करने वाले वैक्टर की एक श्रृंखला पर विचार करें। कल्पना कीजिए कि वे दो उप-श्रृंखला ए और बी में विभाजित हैं। एक तंत्रिका जाल (कृत्रिम या जैविक) को ए का उपयोग करके प्रशिक्षित किया जा सकता है।

प्रशिक्षण की देखरेख की जा सकती है, जिसका अर्थ है कि वेक्टर के आयामों में से एक को लेबल माना जाता है और इसलिए यह आश्रित चर है जो कि अनुमानित रूप से भविष्यवाणी करता है। अन्य आयाम तब तथ्य या इनपुट सिग्नल बन जाते हैं और इसलिए भविष्यवाणी के लिए उपयोग किए जाने वाले स्वतंत्र चर। सुविधा निष्कर्षण का उपयोग करके प्रशिक्षण को अनसुना किया जा सकता है।

किसी भी तरह से, जब बी से पहले ए के साथ प्रदान किया जाता है और बी आने से पहले उत्पादन (वास्तविक उपयोग) में प्रदर्शन करने की उम्मीद की जाती है, तो बी का बाद का आगमन एक विकल्प प्रस्तुत करता है।

  1. ए के साथ प्रशिक्षण के दौरान किए गए वज़न और किसी भी मेटा-पैरामीटर समायोजन को मिटा दें और ए और बी की संक्षिप्त श्रृंखला के साथ प्रशिक्षण को फिर से चलाएँ।
  2. बी के साथ प्रशिक्षण जारी रखें, जिस स्थिति में नेटवर्क ए के साथ पक्षपाती होगा और परिणाम बी ए के साथ प्रशिक्षण द्वारा प्राप्त परिणाम से भिन्न होगा।
  3. उपरोक्त # 1 विकल्प के लिए आवश्यक संसाधन खपत से बचने के दौरान ए के साथ पहले प्रशिक्षित होने के पूर्वाग्रह को सीमित करने का एक तरीका खोजें।

चॉइस # 3 कई मामलों में सबसे अच्छा विकल्प है क्योंकि इसमें # 1 और # 2 विकल्पों का लाभ है। गणितीय रूप से, # 3 श्रृंखला ए से किसी भी तरह से जो सीखा गया था, उसे पूर्व निर्धारित करने की सुविधा के द्वारा किया जाता है। तंत्रिका शुद्ध वजन और मेटा-पैरामीटर समायोजन को सुधार के लिए अतिसंवेदनशील बनाया जाना चाहिए क्योंकि नया अनुभव ऐसा करने की आवश्यकता को इंगित करता है। एक भोले दृष्टिकोण को गणितीय रूप से प्रतिलोम घातीय फ़ंक्शन के रूप में तैयार किया जा सकता है, जो भौतिकी, रसायन विज्ञान और सामाजिक विज्ञान में कई घटनाओं में प्राकृतिक क्षय को दर्शाता है।

P = e -nt , जहां P की संभावना है कि तथ्य अभी भी प्रभावोत्पादक है, n पिछली सीखी गई जानकारी के क्षय की दर है, और t आगे की प्रगति के कुछ मापक है, जैसे समय टिकट, उप-अनुक्रम (बैच) संख्या, तथ्य क्रम संख्या, या घटना संख्या।

ए और बी उप-श्रृंखला के मामले में, जब उपरोक्त सूत्र को किसी तरह से सीखने के तंत्र में लागू किया जाता है, तो ए का प्रशिक्षण बी का उपयोग करते हुए जारी रखने के प्रशिक्षण के बाद अंतिम परिणाम पर कम पूर्वाग्रह रखेगा क्योंकि ए के लिए टी कम है B के लिए t की तुलना में , तंत्र बता रहा है कि B अधिक संभव है।

यदि हम ए और बी को आधा में विभाजित करते हैं, तो अधिक से अधिक दानेदार उप-श्रृंखला बनाते हैं, पिछली जानकारी को धीरे-धीरे क्षय होने का उपरोक्त विचार वैध और मूल्यवान दोनों रहता है। प्रशिक्षण के लिए उपयोग की जाने वाली पहली जानकारी के लिए नेटवर्क का पूर्वाग्रह संकीर्णता की मनोवैज्ञानिक अवधारणाओं के बराबर है। स्तनधारियों के दिमाग में विकसित हुई सीखने की प्रणाली खुले दिमाग को प्रोत्साहित करने के लिए अतीत की चीजों को भूलने या खोने में लगती है, जो कि नई जानकारी को सीखने के लिए कभी-कभी पहले से सीख लेने से ज्यादा कुछ नहीं होता है यदि नई जानकारी में सीखने के लिए मजबूत पैटर्न होते हैं।

नए उदाहरण डेटा को उत्तरोत्तर पुराने उदाहरण डेटा से आगे बढ़ने की अनुमति देने के लिए दो कारण हैं।

  • उपरोक्त सीखने के पूर्वाग्रह को हटाने के लिए उपरोक्त हाल की घटनाओं को और अधिक सीखने की घटनाओं को पर्याप्त रूप से तौलना है अगर सभी घटनाओं का अनुभव (प्रशिक्षित) बाहरी दुनिया के बारे में उचित तथ्यों का प्रतिनिधित्व करता है जो सिस्टम सीखने का प्रयास कर रहा है।
  • बाहरी दुनिया बदल सकती है और पुरानी शिक्षा वास्तव में अप्रासंगिक या भ्रामक हो सकती है।

इससे पूर्व सूचना के महत्व को धीरे-धीरे कम होने देना चाहिए क्योंकि सीखना जारी है सुदृढीकरण के दो प्रमुख पहलुओं में से एक। दूसरा पहलू फीडबैक सिग्नलिंग के विचार पर निर्मित सुधारात्मक अवधारणाओं का एक समूह है।

प्रतिक्रिया और सुदृढीकरण

प्रबलित शिक्षण में एक प्रतिक्रिया संकेत मशीन शिक्षण है जो दर्द, आनंद, संतोष और कल्याण जैसी परिचित मनोवैज्ञानिक अवधारणाओं के बराबर है। सीखने की प्रणाली को सुविधा निष्कर्षण, समूहों की स्वतंत्रता, या एक तंत्रिका शुद्ध वजन मैट्रिक्स है कि इनपुट घटना सुविधाओं और उनके लेबल के बीच संबंधों का अनुमान लगाने के लक्ष्य से परे मार्गदर्शन प्रशिक्षण के लिए जानकारी दी जाती है।

प्रदान की गई जानकारी आंतरिक रूप से पूर्व-क्रमबद्ध पैटर्न मान्यता से या बाह्य रूप से इनाम और सजा से उत्पन्न हो सकती है, जैसा कि स्तनधारियों के मामले में है। प्रबलित मशीन लर्निंग में विकसित की जा रही तकनीकों और एल्गोरिदम इन अतिरिक्त संकेतों का अक्सर उपयोग करते हैं (प्रसंस्करण में समय की कमी का उपयोग करके) या समानांतर प्रसंस्करण आर्किटेक्चर की प्रसंस्करण इकाइयों की स्वतंत्रता का उपयोग करके लगातार।

यह काम नॉर्बर्ट वीनर द्वारा MIT में शुरू किया गया था और अपनी पुस्तक साइबरनेटिक्स (MIT प्रेस 1948) में आगे रखा गया था। साइबरनेटिक्स शब्द एक पुराने शब्द से आया है जिसका अर्थ है शिप्स की स्टीयरिंग । पाठ्यक्रम पर बने रहने के लिए पतवार की स्वचालित गति पहली यांत्रिक प्रतिक्रिया प्रणाली हो सकती है। आपके लॉन घास काटने की मशीन इंजन शायद एक है।

अनुकूली अनुप्रयोग और सीखना

पतवार की स्थिति या लॉनमॉवर थ्रॉटल के लिए वास्तविक समय में सरल अनुकूलन सीख नहीं रहा है। इस तरह का अनुकूलन आमतौर पर रैखिक पीआईडी ​​नियंत्रण का कुछ रूप है। आज जिस मशीन लर्निंग तकनीक का विस्तार किया जा रहा है वह जटिल, नॉनलाइनर सिस्टम के मूल्यांकन और नियंत्रण को गले लगाती है जिसे गणितज्ञ अराजक कहते हैं।

अराजक होने से, उनका मतलब यह नहीं है कि वर्णित प्रक्रियाएं एक उन्माद में हैं या अव्यवस्थित हैं। दशकों पहले खोजे गए चिकित्सकों ने बताया कि सरल गैर-रेखीय समीकरण अत्यधिक संगठित व्यवहार का कारण बन सकते हैं। उनका क्या मतलब है कि घटना कुछ निश्चित एल्गोरिथ्म या उन्हें खोजने के लिए सूत्र खोजने के लिए मामूली बदलाव के प्रति बहुत संवेदनशील है।

भाषा ऐसी ही होती है। एक ही बयान में एक दर्जन अलग-अलग मुखर विभक्तियों के साथ एक दर्जन अलग-अलग चीजों का मतलब हो सकता है। अंग्रेजी वाक्य, "रियली," एक उदाहरण है। यह संभावना है कि सुदृढीकरण तकनीक भविष्य की मशीनों को उस बयान के विभिन्न अर्थों के बीच सफलता की उच्च संभावनाओं के साथ अंतर करने की अनुमति देगा।

खेल पहले क्यों?

खेलों में संभावित परिदृश्यों का एक बहुत ही सरल और आसानी से परिभाषित सेट है। कंप्यूटर के आगमन के प्रमुख योगदानकर्ताओं में से एक, जॉन वॉन न्यूमैन ने थ्योरी ऑफ़ गेम्स और इकोनॉमिक बिहेवियर में तर्क दिया , एक पुस्तक जो उन्होंने ओस्कर मोर्गनस्टर्न के साथ सह-लेखित की, कि सभी योजना और निर्णय लेने वास्तव में विभिन्न जटिलताओं का खेल है।

समय में, दिमाग के संग्रह के प्रशिक्षण उदाहरण सेट पर विचार करें, ऐसे सिस्टम बनाएं जो शिक्षित लोगों जैसे वक्तव्य के अर्थ को निर्धारित कर सकते हैं संकेत के तीन स्रोतों से हो सकते हैं।

  1. एक वार्तालाप या सामाजिक परिदृश्य के संदर्भ में
  2. वक्ता के मुखर विभक्ति
  3. चेहरे के भाव और वक्ता की शारीरिक भाषा

शतरंज और खेल के परे

सटीक समझ और गहरी सुनने की क्षमताओं के साथ खेलों से लेकर भाषा प्रणालियों तक के मार्ग में प्रबलित शिक्षण के कई अनुप्रयोग हैं जो पृथ्वी और मानव अनुभव के लिए बहुत अधिक महत्व के हैं।

  • सिस्टम जो लाइट, उपकरण, डिजिटल सिस्टम, एचवीएसी और अन्य ऊर्जा खपत वाले उपकरणों को बंद या बंद करना सीखते हैं - समय के साथ जीवाश्म ईंधन संसाधन की कमी के कारण ऊर्जा मानव इतिहास में संभवतः सबसे अधिक भू-राजनीतिक रूप से प्रभावशाली वस्तु है।
  • स्वायत्त वाहन विकास - खुली सड़कों पर अज्ञात राज्यों में लोगों द्वारा विमान, आरवी, ट्रक, बस, और ट्रैक्टर ट्रेलरों जैसे भारी उपकरणों के संचालन की खतरनाक प्रवृत्ति को संभवतः भविष्य के लोगों द्वारा पागलपन के रूप में वापस देखा जाएगा।
  • सूचना विश्वसनीयता की रेटिंग - सूचना हर जगह है और 99% से अधिक यह त्रुटि में है, या तो आंशिक रूप से या पूरी तरह से। बहुत कम वास्तविक अनुसंधान द्वारा प्रमाणित किया जाता है, या तो ठीक से डिजाइन किए गए और दोहरे-अंधा यादृच्छिक अध्ययन या पुष्टि करने योग्य प्रयोगशाला परीक्षण और विश्लेषण की व्याख्या की जाती है।
  • स्वास्थ्य देखभाल अनुप्रयोगों जो बेहतर निदान करते हैं, व्यक्ति को दर्जी उपचार करते हैं, और पुनरावृत्ति को रोकने के लिए निरंतर देखभाल के साथ सहायता करते हैं।

ये चार और कई अन्य स्वचालित उच्च गति ट्रेडिंग या गेम प्रतियोगिताओं, दो स्व-केंद्रित मशीन सीखने के हितों के माध्यम से धन संचय से कहीं अधिक महत्वपूर्ण हैं जो एक व्यक्ति के परिवार की एक या दो पीढ़ियों को प्रभावित करते हैं।

खेल सिद्धांत में धन और प्रसिद्धि एक शून्य योग खेल कहलाते हैं । वे उतने ही नुकसान उठाते हैं जितने की जीत होती है यदि आप उच्च स्वर्ण नियम दर्शन पर विचार करते हैं कि दूसरों और उनके परिवारों का हमारे लिए समान महत्व है।

सीएडी (कंप्यूटर एडेड डिजाइन) सॉफ्टवेयर के लिए प्रबलित लर्निंग

कंप्यूटर एडेड डिज़ाइन कंप्यूटर डिज़ाइन का स्वाभाविक रूप से अग्रदूत है (बिना मनुष्यों की सहायता के), वैसे ही एंटी-लॉक ब्रेक स्वाभाविक रूप से पूरी तरह से स्वायत्त वाहनों की ओर जाता है।

कमांड पर विचार करें, "मुझे मेरे शॉवर के लिए एक साबुन पकवान बनाएं जो संभावना को अधिकतम करता है मेरा परिवार अपनी आँखें खोले बिना पहले प्रयास पर साबुन को पकड़ सकता है और साबुन और शॉवर सतहों को साफ रखने में कठिनाई को कम कर सकता है। यहां हाइट्स हैं। मेरे परिवार के सदस्य और शॉवर स्पेस की कुछ तस्वीरें। " फिर एक 3 डी प्रिंटर इंस्टॉलेशन निर्देशों के साथ, डिवाइस को पॉप आउट करने के लिए तैयार होगा।

बेशक, इस तरह के एक सीडी सिस्टम (सीएडी विहीन ए) को हाउसकीपिंग, दृष्टि के बिना मानव व्यवहार, टाइल के लिए आइटम संलग्न करने के तरीके, औसत उपभोक्ता के उपकरण और घरेलू रखरखाव क्षमताओं, 3 डी प्रिंटर की क्षमताओं को प्रशिक्षित करने की आवश्यकता होगी। , और कई अन्य चीजें।

विनिर्माण स्वचालन में इस तरह के विकास संभवतया सरल आदेशों के प्रबलित सीखने के साथ शुरू होंगे, जैसे "बड़े पैमाने पर उत्पादित फास्टनरों और सर्वोत्तम प्रथाओं का उपयोग करके इन दो भागों को संलग्न करें।" सीएडी कार्यक्रम तब शिकंजा, rivets, चिपकने वाले और अन्य विकल्पों में से हार्डवेयर उठाएगा, शायद डिजाइनर से ऑपरेटिंग तापमान और कंपन रेंज के बारे में सवाल पूछेंगे। चुनाव, स्थिति और कोण को तब CAD भागों और विधानसभा चित्र और सामग्री के बिल के उपयुक्त सेट में जोड़ा जाएगा।


मैं सामान्य रूप से इस अच्छी तरह से लिखे गए उत्तर पर आलोचनात्मक टिप्पणी नहीं करूंगा, लेकिन जब से आपने समालोचना के लिए कहा: मुझे लगता है कि सुदृढ़ीकरण , प्रतिक्रिया और सुदृढीकरण और अनुकूली अनुप्रयोगों और सीखने के लिए बेसिस , दिलचस्प होने के साथ-साथ अनुभागों को काफी हद तक काटा जा सकता है। ओपी का प्रश्न पहले ही आरएल के कुछ ज्ञान का अर्थ है, और आप मूल प्रश्न को संबोधित करने से पहले इस संबंधित पृष्ठभूमि चर्चा को स्थापित करने में बहुत समय बिताते हैं।
नील स्लेटर

ओपी ने पूछा कि प्रश्न छेद को इंगित करता है या तो क्षेत्र के लिए किसी नए व्यक्ति के अनुसंधान के संकेत की वर्तमान स्थिति और पहले के खंडों में प्राइमर की आवश्यकता हो सकती है। अंतिम खंड अधिक सीधे प्रश्न का उत्तर देता है।
फौश्रीशियन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.