natural-language पर टैग किए गए जवाब

प्राकृतिक भाषा प्रसंस्करण भाषा विज्ञान, कृत्रिम बुद्धि, मशीन सीखने और सांख्यिकी से तकनीकों का एक सेट है जो मानव भाषाओं को प्रसंस्करण और समझने का उद्देश्य है।

2
SpaCy में .similarity विधि की गणना कैसे की जाती है?
निश्चित नहीं है कि यह सही स्टैक साइट है, लेकिन यहाँ जाता है। कैसे काम करता है। वाह स्पासीजी बढ़िया है! इसका tfidf मॉडल आसान हो सकता है, लेकिन कोड की केवल एक पंक्ति के साथ w2v ?! SpaCy और andrazhribernik के उनके 10 लाइन ट्यूटोरियल में हमें .similarity विधि …

3
क्यों अनैतिक शब्दों के लिए पदानुक्रमित सॉफ्टमैक्स बेहतर है, जबकि नकारात्मक नमूना लगातार शब्दों के लिए बेहतर है?
मुझे आश्चर्य है कि पदानुक्रमित सॉफ्टमैक्स, असंगत शब्दों के लिए बेहतर क्यों है, जबकि नकारात्मक नमूने लगातार शब्दों के लिए, वर्डवेव के सीबीओओ और स्किप-ग्राम मॉडल में बेहतर है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।

2
समय (RNN / LSTM) के माध्यम से छंटनी किए गए बैकप्रोगैजेशन का उपयोग करते समय प्रारंभिक पैटर्न को पकड़ना
यह कहें कि मैं एक RNN / LSTM का उपयोग भावना विश्लेषण करने के लिए करता हूं, जो कि कई-से-एक दृष्टिकोण है ( इस ब्लॉग को देखें )। नेटवर्क को समय (BPTT) के माध्यम से एक काट-छाँट backpropagation के माध्यम से प्रशिक्षित किया जाता है, जहां नेटवर्क को हमेशा की …

2
शब्दों के बजाय टेक्स्ट भाषा की पहचान में n-gram का उपयोग क्यों किया जाता है?
दो लोकप्रिय भाषा पहचान पुस्तकालयों में, सी ++ के लिए कॉम्पैक्ट भाषा डिटेक्टर 2 और जावा के लिए भाषा डिटेक्टर , दोनों ने पाठ विशेषताओं को निकालने के लिए (चरित्र आधारित) एन-ग्राम का इस्तेमाल किया। बैग-ऑफ-वर्ड्स (एकल शब्द / शब्दकोश) का उपयोग क्यों नहीं किया जाता है, और बैग-ऑफ-वर्ड्स और …

2
मल्टी-लेबल वर्गीकरण समस्याओं पर तंत्रिका नेटवर्क कैसे लागू करें?
विवरण: बता दें कि प्रॉब्लम डोमेन डॉक्यूमेंट क्लासिफिकेशन है, जहां 1 या अधिक कक्षाओं से संबंधित प्रत्येक फीचर वैक्टर का एक सेट मौजूद है। उदाहरण के लिए, एक दस्तावेज़ और श्रेणियों doc_1से संबंधित हो सकता है ।SportsEnglish सवाल: वर्गीकरण के लिए तंत्रिका नेटवर्क का उपयोग करना, एक फीचर वेक्टर के …

3
Word2Vec का स्किप-ग्राम मॉडल आउटपुट वैक्टर कैसे उत्पन्न करता है?
मुझे Word2Vec एल्गोरिथ्म के स्किप-ग्राम मॉडल को समझने में समस्या हो रही है। निरंतर बैग में शब्दों को देखना आसान है कि संदर्भ शब्द तंत्रिका नेटवर्क में "फिट" कैसे हो सकते हैं, क्योंकि आप मूल रूप से इनपुट मैट्रिक्स डब्ल्यू के साथ एक-गर्म एन्कोडिंग अभ्यावेदन के प्रत्येक को गुणा करने …

1
प्रदर्शन के संदर्भ में शब्द एम्बेडिंग एल्गोरिदम
मैं एक वेक्टर अंतरिक्ष में लगभग 60 मिलियन वाक्यांशों को एम्बेड करने की कोशिश कर रहा हूं , फिर उनके बीच कॉशन समानता की गणना करें। मैं sklearn का उपयोग कर रहा हूँ CountVectorizerएक कस्टम निर्मित tokenizer फ़ंक्शन जो unigrams और bigrams का उत्पादन करता है। यह बताता है कि …

1
उम्मीद अधिकतमकरण क्लेरीफिकेशन
मुझे EM एल्गोरिथ्म के बारे में बहुत उपयोगी ट्यूटोरियल मिला । ट्यूटोरियल से उदाहरण और चित्र बस शानदार है। संभावनाओं की गणना के बारे में संबंधित प्रश्न उम्मीद अधिकतमकरण कैसे काम करता है? मेरे पास एक और सवाल है कि ट्यूटोरियल में वर्णित सिद्धांत को उदाहरण से कैसे जोड़ा जाए। …

1
SVD से पहले एक शब्द समरूपता मैट्रिक्स पर बिंदुवार पारस्परिक जानकारी लागू करने के पेशेवरों और विपक्ष क्या हैं?
शब्द एम्बेडिंग उत्पन्न करने का एक तरीका इस प्रकार है ( दर्पण ): एक कॉर्पोरा प्राप्त करें, उदाहरण के लिए "मुझे उड़ान का आनंद मिलता है। मुझे एनएलपी पसंद है। मुझे गहरी शिक्षा पसंद है।" इससे शब्द cooccurrence मैट्रिक्स बनाएँ: XXX पर SVD का प्रदर्शन करें , और U के …

2
शब्दों के निरंतर थैले के बारे में प्रश्न
मुझे इस वाक्य को समझने में परेशानी हो रही है: पहला प्रस्तावित आर्किटेक्चर फीडफोर्वर्ड एनएनएलएम के समान है, जहां गैर-लीनियर छिपी हुई परत को हटा दिया जाता है और सभी शब्दों के लिए प्रोजेक्शन लेयर को साझा किया जाता है (न केवल प्रोजेक्शन मैट्रिक्स); इस प्रकार, सभी शब्द एक ही …

2
LSTM का उपयोग करके भाषा मॉडलिंग कार्यों में अज्ञात शब्दों को संभालना
एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्य के लिए अक्सर शब्दों के लिए एक एम्बेडिंग के रूप में शब्द 2vec वैक्टर का उपयोग किया जाता है। हालाँकि, ऐसे कई अज्ञात शब्द हो सकते हैं, जो शब्द 2vec vectors द्वारा कैप्चर नहीं किए गए हैं, क्योंकि ये शब्द अक्सर प्रशिक्षण डेटा में …

5
शब्द आवृत्ति डेटा में फैलाव को कैसे मापें?
मैं शब्द गणना के वेक्टर में फैलाव की मात्रा कैसे निर्धारित कर सकता हूं? मैं एक आंकड़े की तलाश कर रहा हूं जो दस्तावेज़ ए के लिए उच्च होगा, क्योंकि इसमें कई अलग-अलग शब्द होते हैं जो कि असंगत रूप से होते हैं, और दस्तावेज़ बी के लिए कम होते …

1
TF-IDF लघुगणक में लघुगणक के उपयोग को समझना
मैं पढ़ रहा था: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition लेकिन मुझे ठीक से समझ में नहीं आ रहा है कि फार्मूला का निर्माण इस तरह से क्यों किया गया। मैं क्या समझता हूँ: iDF को कुछ स्तरों पर मापना चाहिए कि प्रत्येक दस्तावेज़ में S शब्द कितनी बार दिखाई देता है, मूल्य में कमी …

3
टेक्स्ट दस्तावेज़ के लिए फीचर वेक्टर बनाने के लिए बिग्राम (एन-ग्राम) मॉडल का उपयोग करने के बारे में
टेक्स्ट माइनिंग के लिए फीचर निर्माण का एक पारंपरिक तरीका बैग-ऑफ-वर्ड्स दृष्टिकोण है, और किसी दिए गए टेक्स्ट डॉक्यूमेंट की विशेषता वाले वेक्टर की स्थापना के लिए tf-idf का उपयोग करके इसे बढ़ाया जा सकता है। वर्तमान में, मैं फ़ीचर वेक्टर के निर्माण के लिए द्वि-ग्राम भाषा मॉडल या (एन-ग्राम) …

2
मैं सामान्य विषयों द्वारा कैसे तार कर सकता हूं?
मैं समूह का प्रयास कर रहा हूं, उदाहरण के लिए, प्रोग्रामिंग के बारे में अन्य तार के साथ प्रोग्रामिंग के बारे में तार, भौतिकी के बारे में अन्य तार के साथ भौतिकी के बारे में, आदि विषयों की एक विस्तृत श्रृंखला के लिए। समस्या के भयावह सैद्धांतिक भाषाई पहलू के …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.