निश्चित नहीं है कि यह सही स्टैक साइट है, लेकिन यहाँ जाता है।
कैसे काम करता है।
वाह स्पासीजी बढ़िया है! इसका tfidf मॉडल आसान हो सकता है, लेकिन कोड की केवल एक पंक्ति के साथ w2v ?!
SpaCy और andrazhribernik के उनके 10 लाइन ट्यूटोरियल में हमें .similarity विधि है जो टोकन, संतों, शब्द विखंडू और डॉक्स पर चलाई जा सकती है।
के बाद nlp = spacy.load('en')और doc = nlp(raw_text)
हम टोकन और विखंडू के बीच सामान्य प्रश्न कर सकते हैं। हालांकि, इस .similarityपद्धति में पर्दे के पीछे क्या गणना की जा रही है ?
Spacy पहले से ही अविश्वसनीय रूप से सरल है .vector, के रूप में दस्ताने मॉडल से प्रशिक्षित जो w2v वेक्टर गणना करता है (कैसे शांत एक हैं .tfidfया .fasttextतरीका हो?)।
क्या मॉडल केवल इन दो w2v, .vector, वैक्टर या कुछ अन्य मैट्रिक्स की तुलना करने के बीच कोसाइन समानता की गणना कर रहा है? दस्तावेज में विशिष्टता स्पष्ट नहीं हैं ; किसी भी मदद की सराहना की!