चैट बॉट को प्रशिक्षित करने के लिए नवीनतम तरीके क्या हैं?


11

मैं एक बॉट को प्रशिक्षित करना चाहता हूं जो पाठ इनपुट का उपयोग करता है, कुछ श्रेणियों को याद करता है और तदनुसार सवालों के जवाब देता है। संस्करण 2.0 के अलावा, मैं बॉट को वॉयस इनपुट का जवाब देने के लिए भी बनाना चाहता हूं। नवीनतम मशीन लर्निंग / एआई एल्गोरिदम उसी के लिए उपलब्ध हैं? कृपया मुझे बताओ।


डायनामिक-मेमोरी-न्यूरल नेटवर्क की जाँच करें
riemann77

सहानुभूति-गणित मानचित्रण का उपयोग करने पर विचार करें ।
सर्गेई

जवाबों:


1

आपका प्रश्न अविश्वसनीय रूप से व्यापक है - इसलिए प्रतिक्रिया में, मैं आपको देखने के लिए प्रोत्साहित करूँगा दो व्यापक रूपरेखाएँ हैं:

  1. अत्याधुनिक चैटबोट वार्तालाप विकास के लिए http://rasa.ai एक खुला स्रोत ढांचा है जो अधिक परंपरागत नियम-आधारित प्रणालियों की तुलना में अधिक अनुकूलनीय है
  2. वाक् पहचान के लिए https://discourse.mozilla.org/c/deep-speech जो खुला स्रोत भी है, की जाँच करें

0

यदि आपका बॉट कुछ श्रेणियों को "याद" कर रहा है और फिर सवालों के जवाब देता है, तो यह वर्तमान परिदृश्य में काफी बेकार है। क्योंकि उस मामले में यह एक अलग डेटासेट (परीक्षण-सेट) पर बहुत खराब प्रदर्शन करता है। सांख्यिकी शब्दावली में इसे "ओवरफिटिंग" कहा जाता है। और जवाब देने के लिए आने वाले, "अत्याधुनिक" एल्गोरिदम को परिभाषित करने के लिए अंगूठे का कोई नियम नहीं है। यद्यपि आप कुछ मॉडलों की जांच कर सकते हैं जो बाबई या इसी तरह के डेटासेट पर गतिशील मेमोरी नेटवर्क या seQ2seQ मॉडल पसंद करते हैं। इस क्षेत्र का एक मूल विचार प्राप्त करने के लिए, मैं आपको बुनियादी मशीन लर्निंग भाषा सीखने और फिर कुछ उन्नत-प्राकृतिक भाषा प्रसंस्करण पाठ्यक्रम (स्टैनफ़ोर्ड cs224n प्रदान करता है) पर जाने का सुझाव दूंगा।


0

अबूझार और अटवाल राज्य:

चैटबॉट एक संवादी एजेंट होता है जो उपयोगकर्ताओं के साथ बारी-बारी से प्राकृतिक भाषा का प्रयोग करता है। विभिन्न चैटबॉट्स या मानव-कंप्यूटर संवाद प्रणाली को बोले गए या पाठ संचार का उपयोग करके विकसित किया गया है और विभिन्न डोमेन में लागू किया गया है जैसे: भाषाई अनुसंधान, भाषा शिक्षा, ग्राहक सेवा, वेब साइट सहायता और मनोरंजन के लिए।

उनके और अन्य कागजात ने कई समकालीन दृष्टिकोणों को इस लेखन के रूप में चैटबॉट प्रशिक्षण तक पहुँचाया।

नेचुरल डायलॉग कॉर्पोरा , बायन अबूझवार, एरिक एटवेल, 2016 से चैटबोट प्रशिक्षण डेटा का स्वचालित निष्कर्षण

हालांकि, अधिकांश चैटबॉट ज्ञान के लिए प्रतिबंधित हैं जो मैन्युअल रूप से उनकी फाइलों में, और एक विशिष्ट प्राकृतिक भाषा में लिखा या बोला जाता है। यह पेपर एक मशीन पठनीय पाठ (कॉर्पस) को एक विशिष्ट चैटबोट प्रारूप में बदलने के लिए हमारे द्वारा विकसित किए गए कार्यक्रम को प्रस्तुत करता है, जो तब चैटबॉट को फिर से प्राप्त करने और एक चैट उत्पन्न करने के लिए उपयोग किया जाता है जो मानव भाषा के करीब है। विभिन्न कॉर्पोरा का उपयोग किया गया: डायलॉग कॉर्पोरा जैसे कि ब्रिटिश नेशनल कॉर्पस ऑफ इंग्लिश (बीएनसी); इस्लाम कुरान की पवित्र पुस्तक जो एक मोनोलॉग कॉर्पस है जहां कविता और निम्नलिखित कविता मोड़ हैं; और एफएक्यू जहां प्रश्न और उत्तर टर्न की जोड़ी होती है। इस स्वचालन प्रक्रिया का मुख्य लक्ष्य विभिन्न चैटबोट प्रोटोटाइप उत्पन्न करने की क्षमता है जो कॉर्पस के आधार पर विभिन्न भाषाएं बोलते हैं।

परिमित-अनिश्चितता-वाकिफ चैटबॉट एक्शन चयन के माध्यम से परिशिष्ट सहायक सुदृढीकरण सीखना , चुआनडोंग यिन, रुई झांग, जियानझोंग क्यूई, यू सन, और टेंग्लुन टैन, 2018

हम चैटबॉट को प्रशिक्षित करने के लिए एक संदर्भ-अनिश्चितता से अवगत चैटबॉट और एक सुदृढीकरण सीखने (आरएल) मॉडल का प्रस्ताव करते हैं। प्रस्तावित मॉडल का नाम है Parameterized Auxiliary Asynchronous Benefits Actor Critic (PA4C)। हम बातचीत के संदर्भ में उपयोगकर्ताओं की पूरी तरह से विश्वास की अनिश्चितता का अनुकरण करने के लिए एक उपयोगकर्ता सिम्युलेटर का उपयोग करते हैं। भोले-भाले नियम-आधारित दृष्टिकोणों की तुलना में, PA4C मॉडल के माध्यम से प्रशिक्षित हमारी चैटबोट हाथ से तैयार की गई कार्रवाई के चयन से बचती है और उपयोगकर्ता उच्चारण भिन्नता के लिए अधिक मजबूत है। PA4C मॉडल पारंपरिक आरएल मॉडल का अनुकूलन करता है, जो चैटबॉट प्रशिक्षण के लिए कार्रवाई पैरामीटर और सहायक कार्यों के साथ है, जो एक बड़े एक्शन स्पेस और शून्य-इनाम वाले राज्यों की समस्याओं को संबोधित करते हैं। हम कैलेंडर ईवेंट निर्माण कार्यों के लिए एक चैटबोट के प्रशिक्षण पर PA4C मॉडल का मूल्यांकन करते हैं।

चैटबोट इंटरेक्शन , यूनाइटेड स्टेट्स पेटेंट एप्लीकेशन पब्लिकेशन 0034828 A1, इंटरनेशनल बिजनेस मशीन्स कॉर्पोरेशन, आरमोक, एनवाई, यूएस, 2019 का उपयोग करते हुए सुपरवाइज्ड लर्निंग सिस्टम ट्रेनिंग

एक कंप्यूटर कार्यान्वित विधि जिसमें डेटा बिंदु के मापदंडों को निर्धारित करने के लिए एक डेटा बिंदु प्राप्त करना और उसका विश्लेषण करना शामिल है, डेटा पॉइंट के विश्लेषण के आधार पर एक अलर्ट टिकट उत्पन्न करना, संचार करना, चैटबॉट के माध्यम से, कम से कम कुछ जानकारी एक से अलर्ट टिकट में निहित है। या अधिक उपयोगकर्ता, और श्रेणीबद्ध हो रहे हैं, चैटबॉट के माध्यम से, डेटा बिंदु उत्पन्न करने वाले डिवाइस के व्यवहार के आधार पर अलर्ट टिकट के परिणामस्वरूप डेटा बिंदु। जोनाथन ए। कगादास, अलेक्जेंडर डी। लेविट, साइमन डी। मिकुलसिक, करण शुक्ला, ले ए ए विलियमसन

दो-चरण प्रशिक्षण और एक छोटे संवाद कॉर्पस , जिंटे किम, हियोन-गु ली, हार्कसो किम, योनसो ली, यंग-गिल किम, 2016 के साथ एक जेनेरिक चैटबोट को लागू करने के लिए मिश्रित एनकोडिंग।

अनुक्रम-से-अनुक्रम नेटवर्क पर आधारित पीढ़ी के चैटबॉट मॉडल प्राकृतिक वार्तालाप इंटरैक्शन उत्पन्न कर सकते हैं यदि प्रशिक्षण डेटा के रूप में एक विशाल संवाद कॉर्पस का उपयोग किया जाता है। हालाँकि, कुछ भाषाओं जैसे कि अंग्रेजी और चीनी को छोड़कर, एक बड़ी संवाद निधि एकत्र करना मुश्किल है। इस समस्या को हल करने के लिए, हम एक चैटबोट मॉडल का प्रस्ताव करते हैं जो एन्कोडिंग-डिकोडिंग इकाइयों के रूप में शब्दों और सिलेबल्स के मिश्रण का उपयोग करता है। इसके अलावा, हम एक दो-चरण प्रशिक्षण विधि का प्रस्ताव करते हैं, जिसमें एक बड़े गैर-संवाद कॉर्पस का उपयोग करके पूर्व-प्रशिक्षण शामिल है और एक छोटे से संवाद कॉर्पस का उपयोग करके पुन: प्रशिक्षण। हमारे प्रयोगों में, मिश्रण इकाइयों को आउट-ऑफ-शब्दावली (OOV) समस्याओं को कम करने में मदद करने के लिए दिखाया गया था। इसके अलावा, द्वि-चरणीय प्रशिक्षण पद्धति प्रतिक्रियाओं में व्याकरणिक और शब्दार्थ संबंधी त्रुटियों को कम करने में प्रभावी थी, जब चैटबोट को एक छोटे संवाद कॉर्पस (533, का उपयोग करके प्रशिक्षित किया गया था)

लक्ष्य-ओरिएंटेड चैटबोट प्रशिक्षण के लिए सबमॉड्यूलरिटी-इंस्पायर्ड डेटा सिलेक्शन , सेंटेंस एंबेडिंग्स, म्लादेन डिमोव्स्की, क्लॉडिउ मुसेट, व्लादिमीर इलिवस्की, आंद्रेई हॉसमैन, माइकल बेरीस्वाइल, 2018 पर आधारित

स्पोकन लैंग्वेज अंडरस्टैंडिंग (SLU) सिस्टम, जैसे लक्ष्य-उन्मुख चैटबॉट या व्यक्तिगत सहायक, इरादे को निर्धारित करने के लिए एक प्रारंभिक प्राकृतिक भाषा समझ (NLU) मॉड्यूल पर भरोसा करते हैं और इनपुट के रूप में उनके द्वारा ली जाने वाली उपयोगकर्ता क्वेरी से संबंधित जानकारी निकालने के लिए। SLU सिस्टम आमतौर पर उपयोगकर्ताओं को अपेक्षाकृत संकीर्ण डोमेन में समस्याओं को हल करने में मदद करते हैं और बड़ी मात्रा में इन-डोमेन प्रशिक्षण डेटा की आवश्यकता होती है। इससे महत्वपूर्ण डेटा उपलब्धता समस्याएं होती हैं जो सफल सिस्टम के विकास को रोकती हैं। इस समस्या को कम करने के लिए, हम कम-डेटा शासन में डेटा चयन की एक तकनीक का प्रस्ताव करते हैं जो हमें कम लेबल वाले वाक्यों के साथ प्रशिक्षित करने में सक्षम बनाता है, इस प्रकार छोटे लेबलिंग लागत। हम एक सबमॉड्यूलरिटी-प्रेरित डेटा रैंकिंग फ़ंक्शन, अनुपात-दंड सीमांत लाभ का प्रस्ताव करते हैं, केवल पाठ एम्बेडिंग स्थान से निकाली गई जानकारी के आधार पर लेबल के लिए डेटा बिंदुओं का चयन करने के लिए। हम दिखाते हैं कि एम्बेडिंग स्पेस में दूरियां सूचना का एक व्यवहार्य स्रोत है जो डेटा चयन के लिए उपयोग किया जा सकता है। हमारी विधि दो ज्ञात सक्रिय शिक्षण तकनीकों को बेहतर बनाती है और एनएलयू इकाई के लागत-कुशल प्रशिक्षण को सक्षम बनाती है। इसके अलावा, हमारी प्रस्तावित चयन तकनीक को चयन चरणों के बीच मॉडल की आवश्यकता नहीं होती है, जिससे यह समय के साथ-साथ कुशल भी हो जाता है।


-1

आप LSTM या GRU के साथ आवर्तक तंत्रिका जाल के साथ स्मृति कोशिकाओं और Word2vec जैसे शब्द एम्बेडिंग के रूप में काम कर सकते हैं। बीम की खोज और ध्यान मॉडल का उपयोग अधिक मजबूती और कम पूर्वाग्रह के लिए RNN के साथ भी किया जा सकता है। लेकिन इनका आउटपुट कुछ हद तक ही सराहनीय है क्योंकि इस क्षेत्र में अनुसंधान अभी भी गर्म है और बहुत कुछ अप्राप्य है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.