एक व्यावहारिक दृष्टिकोण से ...
एलडीए एक बैग-ऑफ-वर्ड इनपुट के साथ शुरू होता है जो यह मानता है कि दस्तावेजों में कौन से शब्द सह होते हैं, लेकिन शब्दों के तत्काल संदर्भ पर ध्यान नहीं देते हैं। इसका मतलब है कि दस्तावेज में और किसी भी क्रम में शब्द कहीं भी दिखाई दे सकते हैं, जो एक निश्चित स्तर की जानकारी को स्ट्रिप्स करता है। इसके विपरीत word2vec उस संदर्भ के बारे में है जिसमें एक शब्द का उपयोग किया जाता है - हालांकि सटीक क्रम नहीं।
LDA के "विषय" एक गणितीय निर्माण हैं और आपको वास्तविक मानव विषयों के साथ उन्हें भ्रमित नहीं करना चाहिए। आप उन विषयों के साथ समाप्त हो सकते हैं जिनकी कोई मानवीय व्याख्या नहीं है - वे वास्तविक विषयों की तुलना में प्रक्रिया की कलाकृतियों को अधिक पसंद करते हैं - और आप मूल रूप से एक ही मानव विषय को कवर करने वाले विषयों सहित, अमूर्त के विभिन्न स्तरों पर विषयों के साथ समाप्त कर सकते हैं। यह चाय की पत्तियों को पढ़ने जैसा है।
मैंने एलडीए को डेटा का पता लगाने के लिए उपयोगी पाया है, लेकिन समाधान प्रदान करने के लिए इतना उपयोगी नहीं है, लेकिन आपका माइलेज भिन्न हो सकता है।
Word2vec सीधे सभी विषय नहीं बनाता है। यह समान उपयोग के आधार पर शब्दों को एक उच्च-आयामी स्थान में प्रोजेक्ट करता है, इसलिए शब्दों के संदर्भ में इसका अपना आश्चर्य हो सकता है जिसे आप विशिष्ट मानते हैं - या यहां तक कि विपरीत - अंतरिक्ष में एक दूसरे के निकट हो सकते हैं।
आप या तो यह निर्धारित करने के लिए उपयोग कर सकते हैं कि क्या शब्द "समान" हैं। एलडीए के साथ: क्या शब्दों में समान विषयों में समान भार हैं। Word2vec के साथ: वे एम्बेडिंग स्पेस में (कुछ उपाय द्वारा) पास हैं।
आप या तो यह निर्धारित करने के लिए उपयोग कर सकते हैं कि क्या दस्तावेज समान हैं। LDA के साथ, आप विषयों के समान मिश्रण की तलाश करेंगे, और word2vec के साथ आप दस्तावेज़ के शब्दों के वैक्टर को जोड़ने जैसा कुछ करेंगे। ("डॉक्यूमेंट" एक वाक्य, पैराग्राफ, पेज या एक संपूर्ण डॉक्यूमेंट हो सकता है।) Doc2vec word2vec का एक संशोधित संस्करण है जो दस्तावेजों की प्रत्यक्ष तुलना की अनुमति देता है।
जबकि LDA अपने बैग-ऑफ-वर्ड दृष्टिकोण के साथ कुछ प्रासंगिक जानकारी फेंकता है, इसमें विषय (या "विषय") होते हैं, जो word2vec में नहीं होता है। तो यह कहने के लिए doc2vec का उपयोग करना सीधा है, "मुझे ऐसे दस्तावेज़ दिखाएं जो इस के समान हों", जबकि LDA के साथ यह कहना सीधा है, "मुझे दस्तावेज़ दिखाएं जहां विषय A प्रमुख है।" (फिर से, यह जानकर कि "विषय A" आपके दस्तावेज़ों पर एक गणितीय प्रक्रिया से निकलता है और फिर आप यह पता लगा लेते हैं कि यह किस मानव विषय से संबंधित है?)