निश्चित नहीं है कि यह सही स्टैक साइट है, लेकिन यहाँ जाता है।
कैसे काम करता है।
वाह स्पासीजी बढ़िया है! इसका tfidf मॉडल आसान हो सकता है, लेकिन कोड की केवल एक पंक्ति के साथ w2v ?!
SpaCy और andrazhribernik के उनके 10 लाइन ट्यूटोरियल में हमें .similarity विधि है जो टोकन, संतों, शब्द विखंडू और डॉक्स पर चलाई जा सकती है।
के बाद nlp = spacy.load('en')
और doc = nlp(raw_text)
हम टोकन और विखंडू के बीच सामान्य प्रश्न कर सकते हैं। हालांकि, इस .similarity
पद्धति में पर्दे के पीछे क्या गणना की जा रही है ?
Spacy पहले से ही अविश्वसनीय रूप से सरल है .vector
, के रूप में दस्ताने मॉडल से प्रशिक्षित जो w2v वेक्टर गणना करता है (कैसे शांत एक हैं .tfidf
या .fasttext
तरीका हो?)।
क्या मॉडल केवल इन दो w2v, .vector, वैक्टर या कुछ अन्य मैट्रिक्स की तुलना करने के बीच कोसाइन समानता की गणना कर रहा है? दस्तावेज में विशिष्टता स्पष्ट नहीं हैं ; किसी भी मदद की सराहना की!