वास्तविक वेब, मोबाइल और वर्कस्टेशन एप्लिकेशन में प्रबलित शिक्षण को कॉल करने के लिए निश्चित रूप से एक तरीका है।
सैन्य संगठन इसे करते हैं, फिल्म उद्योग करता है, सॉफ्टवेयर केंद्रित कंपनियां यह कर रही हैं, और मैंने इसे फॉर्च्यून 500 व्यवसायों और छोटे व्यवसायों के लिए समान रूप से किया है। सभी प्रकार के सिस्टम घटकों में अनुकूली शिक्षण घटक बड़े सिस्टम में एम्बेडेड हैं, फेसबुक के फेशियल रिकॉग्निशन रोबोट से लेकर गूगल ट्रांसलेट तक यूएसपीएस ज़िप कोड रिकग्निशन सिस्टम से लेकर ऑटोनॉमस फ्लाइट और ट्रैफिक कंट्रोल सिस्टम तक। कंप्यूटर एडेड डिजाइन सॉफ्टवेयर (CAD) निश्चित रूप से एक व्यवहार्य लक्ष्य है।
सुदृढीकरण के लिए आधार
घटनाओं का वर्णन करने वाले वैक्टर की एक श्रृंखला पर विचार करें। कल्पना कीजिए कि वे दो उप-श्रृंखला ए और बी में विभाजित हैं। एक तंत्रिका जाल (कृत्रिम या जैविक) को ए का उपयोग करके प्रशिक्षित किया जा सकता है।
प्रशिक्षण की देखरेख की जा सकती है, जिसका अर्थ है कि वेक्टर के आयामों में से एक को लेबल माना जाता है और इसलिए यह आश्रित चर है जो कि अनुमानित रूप से भविष्यवाणी करता है। अन्य आयाम तब तथ्य या इनपुट सिग्नल बन जाते हैं और इसलिए भविष्यवाणी के लिए उपयोग किए जाने वाले स्वतंत्र चर। सुविधा निष्कर्षण का उपयोग करके प्रशिक्षण को अनसुना किया जा सकता है।
किसी भी तरह से, जब बी से पहले ए के साथ प्रदान किया जाता है और बी आने से पहले उत्पादन (वास्तविक उपयोग) में प्रदर्शन करने की उम्मीद की जाती है, तो बी का बाद का आगमन एक विकल्प प्रस्तुत करता है।
- ए के साथ प्रशिक्षण के दौरान किए गए वज़न और किसी भी मेटा-पैरामीटर समायोजन को मिटा दें और ए और बी की संक्षिप्त श्रृंखला के साथ प्रशिक्षण को फिर से चलाएँ।
- बी के साथ प्रशिक्षण जारी रखें, जिस स्थिति में नेटवर्क ए के साथ पक्षपाती होगा और परिणाम बी ए के साथ प्रशिक्षण द्वारा प्राप्त परिणाम से भिन्न होगा।
- उपरोक्त # 1 विकल्प के लिए आवश्यक संसाधन खपत से बचने के दौरान ए के साथ पहले प्रशिक्षित होने के पूर्वाग्रह को सीमित करने का एक तरीका खोजें।
चॉइस # 3 कई मामलों में सबसे अच्छा विकल्प है क्योंकि इसमें # 1 और # 2 विकल्पों का लाभ है। गणितीय रूप से, # 3 श्रृंखला ए से किसी भी तरह से जो सीखा गया था, उसे पूर्व निर्धारित करने की सुविधा के द्वारा किया जाता है। तंत्रिका शुद्ध वजन और मेटा-पैरामीटर समायोजन को सुधार के लिए अतिसंवेदनशील बनाया जाना चाहिए क्योंकि नया अनुभव ऐसा करने की आवश्यकता को इंगित करता है। एक भोले दृष्टिकोण को गणितीय रूप से प्रतिलोम घातीय फ़ंक्शन के रूप में तैयार किया जा सकता है, जो भौतिकी, रसायन विज्ञान और सामाजिक विज्ञान में कई घटनाओं में प्राकृतिक क्षय को दर्शाता है।
P = e -nt , जहां P की संभावना है कि तथ्य अभी भी प्रभावोत्पादक है, n पिछली सीखी गई जानकारी के क्षय की दर है, और t आगे की प्रगति के कुछ मापक है, जैसे समय टिकट, उप-अनुक्रम (बैच) संख्या, तथ्य क्रम संख्या, या घटना संख्या।
ए और बी उप-श्रृंखला के मामले में, जब उपरोक्त सूत्र को किसी तरह से सीखने के तंत्र में लागू किया जाता है, तो ए का प्रशिक्षण बी का उपयोग करते हुए जारी रखने के प्रशिक्षण के बाद अंतिम परिणाम पर कम पूर्वाग्रह रखेगा क्योंकि ए के लिए टी कम है B के लिए t की तुलना में , तंत्र बता रहा है कि B अधिक संभव है।
यदि हम ए और बी को आधा में विभाजित करते हैं, तो अधिक से अधिक दानेदार उप-श्रृंखला बनाते हैं, पिछली जानकारी को धीरे-धीरे क्षय होने का उपरोक्त विचार वैध और मूल्यवान दोनों रहता है। प्रशिक्षण के लिए उपयोग की जाने वाली पहली जानकारी के लिए नेटवर्क का पूर्वाग्रह संकीर्णता की मनोवैज्ञानिक अवधारणाओं के बराबर है। स्तनधारियों के दिमाग में विकसित हुई सीखने की प्रणाली खुले दिमाग को प्रोत्साहित करने के लिए अतीत की चीजों को भूलने या खोने में लगती है, जो कि नई जानकारी को सीखने के लिए कभी-कभी पहले से सीख लेने से ज्यादा कुछ नहीं होता है यदि नई जानकारी में सीखने के लिए मजबूत पैटर्न होते हैं।
नए उदाहरण डेटा को उत्तरोत्तर पुराने उदाहरण डेटा से आगे बढ़ने की अनुमति देने के लिए दो कारण हैं।
- उपरोक्त सीखने के पूर्वाग्रह को हटाने के लिए उपरोक्त हाल की घटनाओं को और अधिक सीखने की घटनाओं को पर्याप्त रूप से तौलना है अगर सभी घटनाओं का अनुभव (प्रशिक्षित) बाहरी दुनिया के बारे में उचित तथ्यों का प्रतिनिधित्व करता है जो सिस्टम सीखने का प्रयास कर रहा है।
- बाहरी दुनिया बदल सकती है और पुरानी शिक्षा वास्तव में अप्रासंगिक या भ्रामक हो सकती है।
इससे पूर्व सूचना के महत्व को धीरे-धीरे कम होने देना चाहिए क्योंकि सीखना जारी है सुदृढीकरण के दो प्रमुख पहलुओं में से एक। दूसरा पहलू फीडबैक सिग्नलिंग के विचार पर निर्मित सुधारात्मक अवधारणाओं का एक समूह है।
प्रतिक्रिया और सुदृढीकरण
प्रबलित शिक्षण में एक प्रतिक्रिया संकेत मशीन शिक्षण है जो दर्द, आनंद, संतोष और कल्याण जैसी परिचित मनोवैज्ञानिक अवधारणाओं के बराबर है। सीखने की प्रणाली को सुविधा निष्कर्षण, समूहों की स्वतंत्रता, या एक तंत्रिका शुद्ध वजन मैट्रिक्स है कि इनपुट घटना सुविधाओं और उनके लेबल के बीच संबंधों का अनुमान लगाने के लक्ष्य से परे मार्गदर्शन प्रशिक्षण के लिए जानकारी दी जाती है।
प्रदान की गई जानकारी आंतरिक रूप से पूर्व-क्रमबद्ध पैटर्न मान्यता से या बाह्य रूप से इनाम और सजा से उत्पन्न हो सकती है, जैसा कि स्तनधारियों के मामले में है। प्रबलित मशीन लर्निंग में विकसित की जा रही तकनीकों और एल्गोरिदम इन अतिरिक्त संकेतों का अक्सर उपयोग करते हैं (प्रसंस्करण में समय की कमी का उपयोग करके) या समानांतर प्रसंस्करण आर्किटेक्चर की प्रसंस्करण इकाइयों की स्वतंत्रता का उपयोग करके लगातार।
यह काम नॉर्बर्ट वीनर द्वारा MIT में शुरू किया गया था और अपनी पुस्तक साइबरनेटिक्स (MIT प्रेस 1948) में आगे रखा गया था। साइबरनेटिक्स शब्द एक पुराने शब्द से आया है जिसका अर्थ है शिप्स की स्टीयरिंग । पाठ्यक्रम पर बने रहने के लिए पतवार की स्वचालित गति पहली यांत्रिक प्रतिक्रिया प्रणाली हो सकती है। आपके लॉन घास काटने की मशीन इंजन शायद एक है।
अनुकूली अनुप्रयोग और सीखना
पतवार की स्थिति या लॉनमॉवर थ्रॉटल के लिए वास्तविक समय में सरल अनुकूलन सीख नहीं रहा है। इस तरह का अनुकूलन आमतौर पर रैखिक पीआईडी नियंत्रण का कुछ रूप है। आज जिस मशीन लर्निंग तकनीक का विस्तार किया जा रहा है वह जटिल, नॉनलाइनर सिस्टम के मूल्यांकन और नियंत्रण को गले लगाती है जिसे गणितज्ञ अराजक कहते हैं।
अराजक होने से, उनका मतलब यह नहीं है कि वर्णित प्रक्रियाएं एक उन्माद में हैं या अव्यवस्थित हैं। दशकों पहले खोजे गए चिकित्सकों ने बताया कि सरल गैर-रेखीय समीकरण अत्यधिक संगठित व्यवहार का कारण बन सकते हैं। उनका क्या मतलब है कि घटना कुछ निश्चित एल्गोरिथ्म या उन्हें खोजने के लिए सूत्र खोजने के लिए मामूली बदलाव के प्रति बहुत संवेदनशील है।
भाषा ऐसी ही होती है। एक ही बयान में एक दर्जन अलग-अलग मुखर विभक्तियों के साथ एक दर्जन अलग-अलग चीजों का मतलब हो सकता है। अंग्रेजी वाक्य, "रियली," एक उदाहरण है। यह संभावना है कि सुदृढीकरण तकनीक भविष्य की मशीनों को उस बयान के विभिन्न अर्थों के बीच सफलता की उच्च संभावनाओं के साथ अंतर करने की अनुमति देगा।
खेल पहले क्यों?
खेलों में संभावित परिदृश्यों का एक बहुत ही सरल और आसानी से परिभाषित सेट है। कंप्यूटर के आगमन के प्रमुख योगदानकर्ताओं में से एक, जॉन वॉन न्यूमैन ने थ्योरी ऑफ़ गेम्स और इकोनॉमिक बिहेवियर में तर्क दिया , एक पुस्तक जो उन्होंने ओस्कर मोर्गनस्टर्न के साथ सह-लेखित की, कि सभी योजना और निर्णय लेने वास्तव में विभिन्न जटिलताओं का खेल है।
समय में, दिमाग के संग्रह के प्रशिक्षण उदाहरण सेट पर विचार करें, ऐसे सिस्टम बनाएं जो शिक्षित लोगों जैसे वक्तव्य के अर्थ को निर्धारित कर सकते हैं संकेत के तीन स्रोतों से हो सकते हैं।
- एक वार्तालाप या सामाजिक परिदृश्य के संदर्भ में
- वक्ता के मुखर विभक्ति
- चेहरे के भाव और वक्ता की शारीरिक भाषा
शतरंज और खेल के परे
सटीक समझ और गहरी सुनने की क्षमताओं के साथ खेलों से लेकर भाषा प्रणालियों तक के मार्ग में प्रबलित शिक्षण के कई अनुप्रयोग हैं जो पृथ्वी और मानव अनुभव के लिए बहुत अधिक महत्व के हैं।
- सिस्टम जो लाइट, उपकरण, डिजिटल सिस्टम, एचवीएसी और अन्य ऊर्जा खपत वाले उपकरणों को बंद या बंद करना सीखते हैं - समय के साथ जीवाश्म ईंधन संसाधन की कमी के कारण ऊर्जा मानव इतिहास में संभवतः सबसे अधिक भू-राजनीतिक रूप से प्रभावशाली वस्तु है।
- स्वायत्त वाहन विकास - खुली सड़कों पर अज्ञात राज्यों में लोगों द्वारा विमान, आरवी, ट्रक, बस, और ट्रैक्टर ट्रेलरों जैसे भारी उपकरणों के संचालन की खतरनाक प्रवृत्ति को संभवतः भविष्य के लोगों द्वारा पागलपन के रूप में वापस देखा जाएगा।
- सूचना विश्वसनीयता की रेटिंग - सूचना हर जगह है और 99% से अधिक यह त्रुटि में है, या तो आंशिक रूप से या पूरी तरह से। बहुत कम वास्तविक अनुसंधान द्वारा प्रमाणित किया जाता है, या तो ठीक से डिजाइन किए गए और दोहरे-अंधा यादृच्छिक अध्ययन या पुष्टि करने योग्य प्रयोगशाला परीक्षण और विश्लेषण की व्याख्या की जाती है।
- स्वास्थ्य देखभाल अनुप्रयोगों जो बेहतर निदान करते हैं, व्यक्ति को दर्जी उपचार करते हैं, और पुनरावृत्ति को रोकने के लिए निरंतर देखभाल के साथ सहायता करते हैं।
ये चार और कई अन्य स्वचालित उच्च गति ट्रेडिंग या गेम प्रतियोगिताओं, दो स्व-केंद्रित मशीन सीखने के हितों के माध्यम से धन संचय से कहीं अधिक महत्वपूर्ण हैं जो एक व्यक्ति के परिवार की एक या दो पीढ़ियों को प्रभावित करते हैं।
खेल सिद्धांत में धन और प्रसिद्धि एक शून्य योग खेल कहलाते हैं । वे उतने ही नुकसान उठाते हैं जितने की जीत होती है यदि आप उच्च स्वर्ण नियम दर्शन पर विचार करते हैं कि दूसरों और उनके परिवारों का हमारे लिए समान महत्व है।
सीएडी (कंप्यूटर एडेड डिजाइन) सॉफ्टवेयर के लिए प्रबलित लर्निंग
कंप्यूटर एडेड डिज़ाइन कंप्यूटर डिज़ाइन का स्वाभाविक रूप से अग्रदूत है (बिना मनुष्यों की सहायता के), वैसे ही एंटी-लॉक ब्रेक स्वाभाविक रूप से पूरी तरह से स्वायत्त वाहनों की ओर जाता है।
कमांड पर विचार करें, "मुझे मेरे शॉवर के लिए एक साबुन पकवान बनाएं जो संभावना को अधिकतम करता है मेरा परिवार अपनी आँखें खोले बिना पहले प्रयास पर साबुन को पकड़ सकता है और साबुन और शॉवर सतहों को साफ रखने में कठिनाई को कम कर सकता है। यहां हाइट्स हैं। मेरे परिवार के सदस्य और शॉवर स्पेस की कुछ तस्वीरें। " फिर एक 3 डी प्रिंटर इंस्टॉलेशन निर्देशों के साथ, डिवाइस को पॉप आउट करने के लिए तैयार होगा।
बेशक, इस तरह के एक सीडी सिस्टम (सीएडी विहीन ए) को हाउसकीपिंग, दृष्टि के बिना मानव व्यवहार, टाइल के लिए आइटम संलग्न करने के तरीके, औसत उपभोक्ता के उपकरण और घरेलू रखरखाव क्षमताओं, 3 डी प्रिंटर की क्षमताओं को प्रशिक्षित करने की आवश्यकता होगी। , और कई अन्य चीजें।
विनिर्माण स्वचालन में इस तरह के विकास संभवतया सरल आदेशों के प्रबलित सीखने के साथ शुरू होंगे, जैसे "बड़े पैमाने पर उत्पादित फास्टनरों और सर्वोत्तम प्रथाओं का उपयोग करके इन दो भागों को संलग्न करें।" सीएडी कार्यक्रम तब शिकंजा, rivets, चिपकने वाले और अन्य विकल्पों में से हार्डवेयर उठाएगा, शायद डिजाइनर से ऑपरेटिंग तापमान और कंपन रेंज के बारे में सवाल पूछेंगे। चुनाव, स्थिति और कोण को तब CAD भागों और विधानसभा चित्र और सामग्री के बिल के उपयुक्त सेट में जोड़ा जाएगा।