प्रदर्शन के संदर्भ में शब्द एम्बेडिंग एल्गोरिदम


11

मैं एक वेक्टर अंतरिक्ष में लगभग 60 मिलियन वाक्यांशों को एम्बेड करने की कोशिश कर रहा हूं , फिर उनके बीच कॉशन समानता की गणना करें। मैं sklearn का उपयोग कर रहा हूँ CountVectorizerएक कस्टम निर्मित tokenizer फ़ंक्शन जो unigrams और bigrams का उत्पादन करता है। यह बताता है कि सार्थक अभ्यावेदन प्राप्त करने के लिए, मुझे पंक्तियों की संख्या में एक बड़ी संख्या में कॉलम, रैखिक की अनुमति देनी होगी। यह अविश्वसनीय रूप से विरल मैट्रिस की ओर जाता है और प्रदर्शन को मार रहा है। यह इतना बुरा नहीं होगा अगर केवल 10,000 कॉलम थे, जो मुझे लगता है कि शब्द एम्बेडिंग के लिए बहुत उचित है।

मैं Google का उपयोग करने की कोशिश करने के बारे में सोच रहा हूं word2vecक्योंकि मुझे पूरा यकीन है कि यह बहुत कम आयामी और अधिक घने एम्बेडिंग पैदा करता है। लेकिन इससे पहले, क्या कोई अन्य एम्बेडिंग हैं जो पहले नज़र डाल सकते हैं? प्रमुख आवश्यकता लगभग 60 मिलियन वाक्यांशों (पंक्तियों) को स्केल करने में सक्षम होगी।

मैं शब्द एम्बेडिंग के क्षेत्र में बहुत नया हूँ इसलिए कोई सलाह मदद करेगी।

मुझे यह भी जोड़ना चाहिए कि मैं प्रदर्शन में सुधार करने के लिए पहले से ही एकवचन मूल्य अपघटन का उपयोग कर रहा हूं।


आप स्पार्क का उपयोग कर रहे हैं?
एलियास

1
यही कारण है कि मैंने पहली बार स्पार्क का सुझाव दिया है। मुझे क्षमा करें, मैं अपने फोन पर हूं। मेरे पास पूर्व-एम्बेडिंग पीसीए तकनीकों से संबंधित किसी भी संदर्भ तक पहुंच नहीं है।
इलास

1
मुझे यकीन नहीं है कि यह डेटा की उस राशि के साथ एक ओवरकिल है।
एलियास

1
जब से आप काम कर रहे हैं पाठों को अधिक मात्रा में टोकनों को हटाकर आयाम को कम नहीं करना चाहिए। एक 150000 शब्द शब्दकोश पर विचार, प्रति उदाहरण के लिए रोक शब्दों को हटाने से आपको दर्जनों के साथ लाभ होगा। यह मदद नहीं करेगा।
एलियास

1
अन्यथा, आप प्रति वाक्यांश अपने पाठ सदिश आकार को कम करने के लिए अव्यक्त डिरिचलेट आवंटन के साथ मॉडलिंग पर विचार कर सकते हैं।
एलियास

जवाबों:


3

हाल ही में बोल्ट्जमैन मशीनों का उपयोग करके गतिशील रूप से वर्ड 2vec (स्किप ग्राम) आयाम असाइन करने पर कुछ काम किया गया है। इस पेपर को देखें:

"अनंत आयामी शब्द एम्बेडिंग" -नैलिक, रवि

मूल विचार यह है कि अपने प्रशिक्षण सेट को अपने शब्द 2vec मॉडल की गतिशीलता को निर्धारित करने दें, जो कि नियमितीकरण शब्द से दंडित होता है जो आयाम आकार से संबंधित है।

उपरोक्त पेपर शब्दों के लिए करता है, और मैं यह देखने के लिए उत्सुक हूं कि यह वाक्यांशों के साथ कितना अच्छा प्रदर्शन करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.