इस प्रश्न का शीर्षक इसके पाठ का एक अलग प्रश्न है, इसलिए मैं दोनों को अलग-अलग उत्तर दूंगा (यह देखते हुए कि एक दूसरे में जाता है)।
- मैं अनदेखे वाक्यों का अनुमान कैसे लगा सकता हूं:
# ... trained model stored in var model
list_of_words = ["this", "is", "a", "new","unseen", "sentence"]
inferred_embedding = model.infer_vector(list_of_words)
W∈RN×PD∈RM×Rk
1M∑i=1M1|Di|∑t=k|Di−1|−klog(p(wit|wit−k,...,wit+k,Di))
Diith|Di|wittthithD
WD
- क्या हम अनुमान लगा सकते हैं कि संभवतः एक अनदेखी वाक्य प्रशिक्षण सेट में एक वाक्य से मेल खाता है?
D
यहां तक कि यादृच्छिक बीज को ठीक करने से भी काम नहीं हो सकता है, ऐसे कई अन्य चर हैं जो इसके अभिसरण को प्रभावित कर सकते हैं कृपया https://github.com/RaRe-Technologies/gensim/issues/374 पर पहला उत्तर देखें ।
किसी भी स्थिति में आप अपने डेटा सेट में सबसे अधिक समान लेबल केवल अपने प्रशिक्षण सेट पर पुनरावृत्ति करके और अनुमानित वेक्टर की समानता की तुलना करके, एक अनुमानित वाक्य पर सेट कर सकते हैं। लेकिन आप प्रशिक्षण सेट में किसी चीज़ का सटीक मिलान क्यों करना चाहेंगे? इन दस्तावेज़ों की निगरानी के लिए नियमित अभिव्यक्तियाँ क्या हैं, यह पर्यवेक्षित या अनुपयोगी शिक्षण कार्यों (अर्थात वर्गीकरण और क्लस्टरिंग) के लिए है।