मैं Le और मिकोलोव द्वारा ICML 2014 के पेपर " डिस्ट्रक्टेड रिप्रेजेंटेशन ऑफ सेंटेंस एंड डॉक्यूमेंट्स " में परिणामों से प्रभावित हुआ था । जिस तकनीक का वे वर्णन करते हैं, उसे "पैराग्राफ वैक्टर" कहा जाता है, शब्द 2vec मॉडल के विस्तार के आधार पर, मनमाने ढंग से लंबे पैराग्राफ / दस्तावेजों के अप्रकाशित अभ्यावेदन सीखता है। कागज इस तकनीक का उपयोग करके भावना विश्लेषण पर अत्याधुनिक प्रदर्शन की रिपोर्ट करता है।
मैं पारंपरिक बैग-ऑफ-वर्ड्स प्रतिनिधित्व के विकल्प के रूप में, अन्य पाठ वर्गीकरण समस्याओं पर इस तकनीक का मूल्यांकन करने की उम्मीद कर रहा था। हालाँकि, मैं दूसरे पोस्ट के लेखक द्वारा Google2 शब्द में एक सूत्र में पिरोया गया जिसने मुझे विराम दिया:
मैंने गर्मियों के दौरान क्वोक के परिणामों को पुन: पेश करने की कोशिश की; मैं IMDB डेटासेट पर त्रुटि दर लगभग 9.4% - 10% (पाठ सामान्यीकरण कितना अच्छा था पर निर्भर करता है) प्राप्त कर सकता था। हालाँकि, मुझे कहीं भी पास नहीं मिला कि क्वोक ने पेपर में क्या रिपोर्ट की (7.4% त्रुटि, यह बहुत बड़ा अंतर है) ... बेशक हमने क्वोक से कोड के बारे में भी पूछा; उन्होंने इसे प्रकाशित करने का वादा किया था लेकिन अभी तक ऐसा कुछ नहीं हुआ है। ... मैं सोचने लगा हूं कि क्वोक के परिणाम वास्तव में प्रजनन योग्य नहीं हैं।
क्या किसी को भी इन परिणामों को पुन: प्रस्तुत करने में सफलता मिली है?