सांख्यिकी और बिग डेटा word2vec

5

मैं यह समझने की कोशिश कर रहा हूं कि शब्द समानता की गणना के लिए लेटेंट डिरिक्लेट आवंटन और शब्द 2vec में क्या समानता है। जैसा कि मैं समझता हूं, LDA अव्यक्त विषयों की संभावनाओं की एक सदिश के लिए शब्दों को मैप करता है , जबकि word2vec उन्हें वास्तविक …

39 machine-learning self-study natural-language latent-variable word2vec

3

फीचर वेक्टर पाने के लिए, पूरे दस्तावेज़ में शब्द एम्बेडिंग लागू करें

मैं पर्यवेक्षित सीखने के साथ उपयोग के लिए उपयुक्त एक फीचर वेक्टर में दस्तावेज़ को मैप करने के लिए एम्बेडिंग शब्द का उपयोग कैसे करूं? एक शब्द प्रत्येक शब्द को एक वेक्टर v , R d में मैप करता है , जहां d कुछ नॉट -बहुत-बड़ी संख्या (जैसे, 500) है। …

38 classification natural-language supervised-learning word2vec word-embeddings

1

क्या मुझे उपयोग करने से पहले word2vec के शब्द वैक्टर को सामान्य करना चाहिए?

शब्द 2vec के साथ शब्द वैक्टर को प्रशिक्षित करने के बाद, कुछ डाउनस्ट्रीम अनुप्रयोगों के लिए उपयोग करने से पहले उन्हें सामान्य करना बेहतर है? यानी उन्हें सामान्य बनाने के पक्ष / विपक्ष क्या हैं?

38 natural-language word2vec word-embeddings

3

आर: रैंडम फ़ॉरेस्ट NaN / Inf को "विदेशी फ़ंक्शन कॉल" त्रुटि के बावजूद NaN के डेटासेट में बंद नहीं किया गया [बंद]

बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह क्रॉस मान्य के लिए विषय पर हो । 2 साल पहले बंद हुआ । मैं एक डेटासेट पर एक क्रॉस वेरिफाइड …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Word2vec में नकारात्मक नमूना कैसे काम करता है?

मैं शब्द 2vec के संदर्भ में नकारात्मक नमूनाकरण की अवधारणा को समझने का कठिन प्रयास कर रहा हूं। मैं [नकारात्मक] नमूने के विचार को पचाने में असमर्थ हूं। उदाहरण के लिए मिकोलोव के कागजात में नकारात्मक नमूनाकरण अपेक्षा के रूप में तैयार किया गया है logσ(⟨w,c⟩)+k⋅EcN∼PD[logσ(−⟨w,cN⟩)].log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + …

19 machine-learning word2vec word-embeddings

3

सीबीओडब्ल्यू की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है?

मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।

19 natural-language word2vec word-embeddings

4

नकारात्मक कोसाइन समानता की व्याख्या करना

मेरा सवाल एक मूर्खतापूर्ण हो सकता है। इसलिए मैं पहले ही माफी मांग लूंगा। मैं स्टैनफोर्ड एनएलपी समूह ( लिंक ) द्वारा पहले से प्रशिक्षित GLOVE मॉडल का उपयोग करने की कोशिश कर रहा था । हालांकि, मैंने देखा कि मेरे समानता के परिणामों ने कुछ नकारात्मक संख्याएँ दिखाईं। इसने …

17 machine-learning word2vec cosine-similarity

2

निश्चित नहीं है कि यह सही स्टैक साइट है, लेकिन यहाँ जाता है। कैसे काम करता है। वाह स्पासीजी बढ़िया है! इसका tfidf मॉडल आसान हो सकता है, लेकिन कोड की केवल एक पंक्ति के साथ w2v ?! SpaCy और andrazhribernik के उनके 10 लाइन ट्यूटोरियल में हमें .similarity विधि …

13 natural-language word2vec tf-idf nltk

3

क्यों अनैतिक शब्दों के लिए पदानुक्रमित सॉफ्टमैक्स बेहतर है, जबकि नकारात्मक नमूना लगातार शब्दों के लिए बेहतर है?

मुझे आश्चर्य है कि पदानुक्रमित सॉफ्टमैक्स, असंगत शब्दों के लिए बेहतर क्यों है, जबकि नकारात्मक नमूने लगातार शब्दों के लिए, वर्डवेव के सीबीओओ और स्किप-ग्राम मॉडल में बेहतर है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।

12 natural-language word2vec word-embeddings softmax

3

Word2Vec का स्किप-ग्राम मॉडल आउटपुट वैक्टर कैसे उत्पन्न करता है?

मुझे Word2Vec एल्गोरिथ्म के स्किप-ग्राम मॉडल को समझने में समस्या हो रही है। निरंतर बैग में शब्दों को देखना आसान है कि संदर्भ शब्द तंत्रिका नेटवर्क में "फिट" कैसे हो सकते हैं, क्योंकि आप मूल रूप से इनपुट मैट्रिक्स डब्ल्यू के साथ एक-गर्म एन्कोडिंग अभ्यावेदन के प्रत्येक को गुणा करने …

11 neural-networks deep-learning natural-language word2vec word-embeddings

1

प्रदर्शन के संदर्भ में शब्द एम्बेडिंग एल्गोरिदम

मैं एक वेक्टर अंतरिक्ष में लगभग 60 मिलियन वाक्यांशों को एम्बेड करने की कोशिश कर रहा हूं , फिर उनके बीच कॉशन समानता की गणना करें। मैं sklearn का उपयोग कर रहा हूँ CountVectorizerएक कस्टम निर्मित tokenizer फ़ंक्शन जो unigrams और bigrams का उत्पादन करता है। यह बताता है कि …

11 machine-learning natural-language word2vec word-embeddings cosine-similarity

2

आयामों को कम करने के लिए टी-एसएनई के मापदंडों का निर्धारण कैसे करें?

मैं शब्द एम्बेडिंग के लिए बहुत नया हूँ। मैं कल्पना करना चाहता हूं कि दस्तावेज सीखने के बाद कैसे दिख रहे हैं। मैंने पढ़ा कि t-SNE इसे करने का तरीका है। मेरे पास एम्बेडिंग के आकार के रूप में 250 आयामों के साथ 100K दस्तावेज़ हैं। कई पैकेज भी उपलब्ध …

11 pca dimensionality-reduction word2vec word-embeddings tsne

2

LSTM का उपयोग करके भाषा मॉडलिंग कार्यों में अज्ञात शब्दों को संभालना

एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्य के लिए अक्सर शब्दों के लिए एक एम्बेडिंग के रूप में शब्द 2vec वैक्टर का उपयोग किया जाता है। हालाँकि, ऐसे कई अज्ञात शब्द हो सकते हैं, जो शब्द 2vec vectors द्वारा कैप्चर नहीं किए गए हैं, क्योंकि ये शब्द अक्सर प्रशिक्षण डेटा में …

11 natural-language word2vec lstm word-embeddings

1

शब्द 2vec में क्रॉस एन्ट्रापी लॉस की व्युत्पत्ति

मैं cs224d ऑनलाइन स्टैनफोर्ड क्लास कोर्स सामग्री के पहले समस्या सेट के माध्यम से अपने तरीके से काम करने की कोशिश कर रहा हूं और मुझे समस्या 3 ए के साथ कुछ समस्याएं आ रही हैं: सॉफ्टमैक्स प्रेडिक्शन फ़ंक्शन और क्रॉस एन्ट्रॉपी लॉस फंक्शन के साथ स्किप ग्राम 2 वर्ड …

10 machine-learning self-study word2vec

1

स्किपग्राम वर्ड 2vec के लिए ग्रेजुएट्स

मैं स्टैनफोर्ड NLP डीप लर्निंग क्लास की लिखित असाइनमेंट समस्याओं http://cs224d.stanford.edu/assignment1/assignment1_soln में समस्याओं से गुज़र रहा हूँ मैं 3a के उत्तर को समझने की कोशिश कर रहा हूं जहां वे केंद्र शब्द के लिए वेक्टर के व्युत्पन्न की तलाश कर रहे हैं। मान लें कि आपको लिए केंद्र शब्द c …

9 self-study neural-networks backpropagation word2vec

word2vec पर टैग किए गए जवाब