यह ज्यादातर इस बात पर निर्भर करता है कि आप कितना "अत्याधुनिक" (एसओटीए) चाहते हैं कि आप कितनी गहराई तक जाना चाहते हैं (सजा का इरादा ...)।
यदि आप केवल उथले शब्द एम्बेडिंग के साथ रह सकते हैं जैसा कि word2vec, Glove, या fastText द्वारा प्रदान किया गया है, तो मुझे लगता है कि वर्ड मूवर डिस्टेंस (WMD [हाँ, वास्तव में ...]) मापने के लिए एक अच्छा कार्य है (छोटी) दस्तावेज़ दूरियां [1] । मैंने अतीत में कई पायथन नोटबुक भी देखे हैं जो इस दूरी को मापने के लिए "ट्यूटोरियल" प्रदान करते हैं, इसलिए वास्तव में यह आसान है।
हालाँकि, यदि आप SOTA में अधिक रुचि रखते हैं, तो आपको कुछ प्रकार के आवर्तक नेटवर्क का उपयोग करके, गहन (अनुक्रम प्रतिनिधित्व) सीखने पर ध्यान देना होगा, जो आपके वाक्यों से एक विषय मॉडल सीखता है। शब्दों के एम्बेडिंग (अर्थ) के अलावा, ये दृष्टिकोण निर्भरता का उपयोग करते हुए विषय प्रतिनिधित्व सीखने के द्वारा [अच्छे, पुराने] "बैग-ऑफ-वर्ड्स" दृष्टिकोण से आगे जाते हैं।वाक्य में शब्दों के [s]। उदाहरण के लिए, वाक्य स्तर आवर्तक सामयिक मॉडल (SLRTM) अधिक पारंपरिक LDA (Blei et al।) या LSA (Landauer et al।) के विचारों के आधार पर एक बहुत ही रोचक गहरी, आवर्तक मॉडल है, लेकिन यह केवल एक arXiv है। गैर-सहकर्मी-समीक्षा किए गए शोध के बारे में कागज़ (इसलिए सभी डिफ़ॉल्ट "इस-के-साथ-एक-दाने-नमक चेतावनी" लागू होना चाहिए ...) [2]। कोई भी कम नहीं है, कागज में कई उत्कृष्ट सूचक हैं और आपके शोध को प्राप्त करने के लिए संदर्भ आपको इस खरगोश छेद से नीचे जाना चाहिए।
अंत में, यह स्पष्ट किया जाना चाहिए कि मैं यह दावा नहीं करता कि ये क्रमशः बैग-ऑफ-वर्ड्स और अनुक्रम मॉडल के लिए सबसे अच्छा प्रदर्शन करने वाले तरीकों पर सहमत हैं। लेकिन जो भी "सर्वश्रेष्ठ" SOTA हो सकता है, वे आपको बहुत करीब से प्राप्त करना चाहिए, और कम से कम एक उत्कृष्ट शुरुआती बिंदु के रूप में काम करना चाहिए।
[१] मैट जे। कुशनर एट अल। वर्ड एंबेडिंग से लेकर डॉक्यूमेंट डिस्टर्बेंस तक। मशीन लर्निंग, जेएमएलआर, 2015 पर 32 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही।
[२] फी तियान एट अल। SLRTM: लेट्सिंग टॉपिक्स फॉर थेम्स से बोलें। arXiv 1604.02038, 2016।