शब्दों के निरंतर थैले के बारे में प्रश्न


11

मुझे इस वाक्य को समझने में परेशानी हो रही है:

पहला प्रस्तावित आर्किटेक्चर फीडफोर्वर्ड एनएनएलएम के समान है, जहां गैर-लीनियर छिपी हुई परत को हटा दिया जाता है और सभी शब्दों के लिए प्रोजेक्शन लेयर को साझा किया जाता है (न केवल प्रोजेक्शन मैट्रिक्स); इस प्रकार, सभी शब्द एक ही स्थिति में अनुमानित हो जाते हैं (उनके वैक्टर औसतन होते हैं)।

प्रोजेक्शन लेयर बनाम प्रोजेक्शन मैट्रिक्स क्या है? कहने का मतलब यह है कि सभी शब्द एक ही स्थिति में अनुमानित हो जाते हैं? और इसका मतलब यह क्यों है कि उनके वैक्टर औसत हैं?

सदिश स्थान में शब्द निरूपण के कुशल अनुमान के खंड 3.1 का पहला वाक्य है (मिकोव एट अल। 2013)

जवाबों:


6

चित्र 1 में चीजों को थोड़ा स्पष्ट किया गया है। किसी दिए गए आकार की खिड़की से सभी शब्द वैक्टर को संक्षेप में प्रस्तुत किया जाता है, परिणाम (1 / खिड़की के आकार) से गुणा किया जाता है और फिर आउटपुट परत पर खिलाया जाता है।

प्रोजेक्शन मैट्रिक्स का अर्थ है एक संपूर्ण लुकअप तालिका जहां प्रत्येक शब्द एकल वास्तविक-मूल्यवान वेक्टर से मेल खाता है। प्रोजेक्शन परत प्रभावी रूप से एक प्रक्रिया है जो एक शब्द (शब्द सूचकांक) लेती है और इसी वेक्टर को वापस करती है। या तो उन्हें संक्षिप्त कर सकते हैं (आकार k * n का इनपुट प्राप्त कर सकते हैं, जहाँ k खिड़की का आकार है और n वेक्टर की लंबाई है) या CBOW मॉडल में, बस उन सभी को प्राप्त करें (आकार n का इनपुट प्राप्त करना)।

यहां छवि विवरण दर्ज करें


सबसे पहले, आपके उत्तर के लिए धन्यवाद। मैं अभी भी प्रक्षेपण मैट्रिक्स और प्रक्षेपण परत के बीच के अंतर से थोड़ा भ्रमित हूं। वे एक जैसे लगते हैं।
user70394

@ user70394 हां, वास्तव में मुझे शब्दावली कुछ भ्रामक लगती है। मूल रूप से कोई भी NN परत एक ऐसा फंक्शन है जो आउटपुट के इनपुट्स को मैप करता है। प्रोजेक्शन लेयर प्रोजेक्शन मैट्रिक्स से वेट का उपयोग करता है लेकिन यह स्वयं मैट्रिक्स नहीं है। एक ही मैट्रिक्स को देखते हुए कई विभिन्न कार्यों को परिभाषित किया जा सकता है। वास्तव में, सीबीओडब्ल्यू के मामले में हम शायद कह सकते हैं कि हमारे पास समय के साथ प्रोजेक्शन लेयर है और इसके बाद समन लेयर है। RNNLM मॉडल में "प्रोजेक्शन लेयर" वास्तव में आवर्तक छिपी हुई परत का एक हिस्सा है जो आउटपुट की गणना करने के लिए आवर्तक weigths के साथ प्रक्षेपण मैट्रिक्स के विगेट्स को जोड़ती है।
डेनिस तारासोव

1

जैसा कि मैं CBOW मुद्दों के बारे में ब्राउज़ कर रहा था और इस पर ठोकर खाई, यहाँ NNLM मॉडल (Bengio et al।) को देखकर, आपके (पहले) प्रश्न ("एक प्रोजेक्शन लेयर बनाम मैट्रिक्स ?") का वैकल्पिक उत्तर क्या है । 2003):

बेंगियो एट अल।, 2003, चित्रा 1: तंत्रिका वास्तुकला: f (i, w_ {t} 1}, · छलनी, w_ {t + n + 1}) = g (i, C (w_ {t, 1}) ), · हवालात, सी (w_ {t 1 n + 1})) जहां g तंत्रिका नेटवर्क है और C (i) i-th शब्द फीचर वेक्टर है।

यदि Mikolov के मॉडल की तुलना करने के लिए इस [एस] (इस सवाल के लिए एक विकल्प जवाब में दिखाया गया है), उद्धृत वाक्य (सवाल में) का अर्थ है कि Mikolov हटाया (नॉन-लीनियर!) परत Bengio के मॉडल में देखा ऊपर दिखाए गए। और मिकोलोव की पहली (और केवल) छिपी हुई परत, प्रत्येक शब्द के लिए व्यक्तिगत वैक्टर होने के बजाय , केवल एक वेक्टर का उपयोग करता है जो "शब्द मापदंडों" को , और फिर उन औसत हो जाता है। तो यह आखिरी सवाल बताता है ("इसका क्या मतलब है कि वैक्टर औसत हैं?")। शब्द "एक ही स्थिति में प्रक्षेपित" हैं क्योंकि व्यक्तिगत इनपुट शब्दों को दिए गए वेट को मिकोलोव के मॉडल में अभिव्यक्त और औसत किया गया है। इसलिए, उसकी प्रक्षेपण परतC ( w i ) C t a n htanhC(wi)बेंज़ियो की पहली छिपी परत (उर्फ। प्रक्षेपण मैट्रिक्स ) के विपरीत, सभी स्थिति संबंधी जानकारी खो देता है - जिससे दूसरे प्रश्न का उत्तर मिलता है ("इसका क्या अर्थ है कि सभी शब्द एक ही स्थिति में अनुमानित हैं?")। इसलिए मिकोलोव के मॉडल [एस] ने "शब्द मापदंडों" (इनपुट वजन मैट्रिक्स) को बरकरार रखा, प्रक्षेपण मैट्रिक्स और परत को हटा दिया, और दोनों को "सरल" प्रक्षेपण परत के साथ बदल दिया ।Ctanh

जोड़ने के लिए, और "सिर्फ रिकॉर्ड के लिए": असली रोमांचक हिस्सा मिकोलोव के दृष्टिकोण को हल करने के लिए है जहां बेंगियो की छवि में आप वाक्यांश "यहां सबसे अधिक संगणना" देखते हैं। बेंगियो ने बाद के पेपर (मॉरिन एंड बेंगियो 2005) में कुछ ऐसा करके उस समस्या को कम करने की कोशिश की जिसे पदानुक्रमित सॉफ्टमैक्स (केवल सॉफ्टमैक्स का उपयोग करने के बजाय) कहा जाता है । लेकिन मिकोलोव ने नकारात्मक सबमिशनिंग की अपनी रणनीति के साथ इसे एक कदम आगे बढ़ाया: वह सभी "गलत" शब्दों (या हफमैन कोडिंग, बेंगियो के रूप में 2005 में सुझाए गए) के नकारात्मक लॉग-इन की तुलना बिल्कुल भी नहीं करता है, और बस एक बहुत का उपयोग करता है नकारात्मक मामलों का छोटा नमूना, जो इस तरह की गणना और एक चतुर संभावना वितरण को देखते हुए, बहुत अच्छी तरह से काम करता है। और दूसरा, और इससे भी बड़ा योगदान, स्वाभाविक रूप से,उत्तर देने वाली "संरचना" ("पुरुष + राजा = महिला +?" उत्तर रानी के साथ), जो वास्तव में केवल अपने स्किप-ग्राम मॉडल के साथ अच्छी तरह से काम करता है, और मोटे तौर पर बेंगियो के मॉडल को लेने के रूप में समझा जा सकता है , मिकोलोव ने सुझाए गए परिवर्तनों को लागू किया (यानी, वाक्यांश आपके प्रश्न का हवाला देते हुए), और फिर पूरी प्रक्रिया को प्रभावित करता है। इसके बजाय, आउटपुट शब्दों (अब इनपुट के रूप में उपयोग किया जाता है), से आसपास के शब्दों का अनुमान लगा रहा है ।P(context|wt=i)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.