मैं पर्यवेक्षित सीखने के साथ उपयोग के लिए उपयुक्त एक फीचर वेक्टर में दस्तावेज़ को मैप करने के लिए एम्बेडिंग शब्द का उपयोग कैसे करूं?
एक शब्द प्रत्येक शब्द को एक वेक्टर v , R d में मैप करता है , जहां d कुछ नॉट -बहुत-बड़ी संख्या (जैसे, 500) है। लोकप्रिय शब्द embeddings शामिल word2vec और दस्ताने ।
मैं दस्तावेजों को वर्गीकृत करने के लिए पर्यवेक्षित शिक्षण लागू करना चाहता हूं। मैं वर्तमान में बैग-ऑफ-शब्द प्रतिनिधित्व का उपयोग करके एक सुविधा वेक्टर के लिए प्रत्येक दस्तावेज़ को मैप कर रहा हूं, फिर एक ऑफ-द-शेल्फ क्लासिफायरियर लागू कर रहा हूं। मैं एक मौजूदा पूर्व-प्रशिक्षित शब्द एम्बेडिंग पर आधारित कुछ शब्दों के साथ बैग-ऑफ-शब्द फ़ीचर वेक्टर को प्रतिस्थापित करना चाहता हूँ, शब्दार्थ शब्द में निहित अर्थ ज्ञान का लाभ उठाने के लिए। क्या ऐसा करने का कोई मानक तरीका है?
मैं कुछ संभावनाओं की कल्पना कर सकता हूं, लेकिन मुझे नहीं पता कि क्या ऐसा कुछ है जो सबसे अधिक समझ में आता है। उम्मीदवार दृष्टिकोण मैंने माना है:
मैं दस्तावेज़ में प्रत्येक शब्द के लिए वेक्टर की गणना कर सकता हूं, और उन सभी को औसत कर सकता हूं। हालाँकि, ऐसा लगता है कि यह बहुत सारी जानकारी खो सकता है। उदाहरण के लिए, बैग-ऑफ-वर्ड्स प्रतिनिधित्व के साथ, अगर कुछ शब्द हैं जो वर्गीकरण कार्य के लिए अत्यधिक प्रासंगिक हैं और अधिकांश शब्द अप्रासंगिक हैं, तो क्लासिफायर आसानी से सीख सकता है; यदि मैं दस्तावेज़ में सभी शब्दों के लिए वैक्टर औसत करता हूं, तो क्लासिफायर के पास कोई मौका नहीं है।
सभी शब्दों के लिए वैक्टर को समेटने से काम नहीं चलता है, क्योंकि यह एक निश्चित आकार की सुविधा वेक्टर की ओर नहीं ले जाता है। इसके अलावा यह एक बुरे विचार की तरह लगता है क्योंकि यह किसी शब्द के विशिष्ट स्थान के प्रति अत्यधिक संवेदनशील होगा।
मैं सभी शब्दों की शब्दावली को क्लस्टर करने के लिए एम्बेड करने वाले शब्द का उपयोग कर सकता हूं, 1000 क्लस्टर, जहां मैं शब्द समानता के माप के रूप में वैक्टर पर कोसाइन समानता का उपयोग करता हूं। फिर, बैग-ऑफ-वर्ड्स के बजाय, मेरे पास एक बैग-ऑफ-क्लस्टर्स हो सकता है: क्लासफ़ायर को आपूर्ति की जाने वाली सुविधा वेक्टर एक 1000-वेक्टर हो सकती है, जहां वें घटक दस्तावेज़ में शब्दों की संख्या की गणना करता है जो क्लस्टर का हिस्सा हैं मैं ।
एक शब्द को देखते हुए , इन शब्द embeddings मुझे शीर्ष 20 सबसे मिलते जुलते शब्दों का एक सेट की गणना करते हैं डब्ल्यू 1 , ... , डब्ल्यू 20 और उनकी समानता स्कोर रों 1 , ... , एस 20 । मैं इस का उपयोग करके बैग-जैसे शब्दों की सुविधा वेक्टर को अनुकूलित कर सकता था। जब मैं शब्द को देखने के डब्ल्यू तत्व शब्द के लिए इसी बढ़ाने के लिए, इसके अलावा में डब्ल्यू द्वारा 1 , मैं भी तत्व शब्द के लिए इसी को बढ़ा सकता है डब्ल्यू 1 से रों 1 , तत्व शब्द के लिए इसी को बढ़ा देते डब्ल्यू 2 से , और इतने पर।
क्या कोई विशिष्ट दृष्टिकोण है जो दस्तावेज़ वर्गीकरण के लिए अच्छी तरह से काम करने की संभावना है?
मैं पैरा 2vec या doc2vec की तलाश नहीं कर रहा हूँ; उन लोगों को एक बड़े डेटा कॉर्पस पर प्रशिक्षण की आवश्यकता होती है, और मेरे पास एक बड़ा डेटा कॉर्पस नहीं है। इसके बजाय, मैं एक मौजूदा शब्द एम्बेडिंग का उपयोग करना चाहता हूं।