मैं एक वेक्टर अंतरिक्ष में लगभग 60 मिलियन वाक्यांशों को एम्बेड करने की कोशिश कर रहा हूं , फिर उनके बीच कॉशन समानता की गणना करें। मैं sklearn का उपयोग कर रहा हूँ CountVectorizer
एक कस्टम निर्मित tokenizer फ़ंक्शन जो unigrams और bigrams का उत्पादन करता है। यह बताता है कि सार्थक अभ्यावेदन प्राप्त करने के लिए, मुझे पंक्तियों की संख्या में एक बड़ी संख्या में कॉलम, रैखिक की अनुमति देनी होगी। यह अविश्वसनीय रूप से विरल मैट्रिस की ओर जाता है और प्रदर्शन को मार रहा है। यह इतना बुरा नहीं होगा अगर केवल 10,000 कॉलम थे, जो मुझे लगता है कि शब्द एम्बेडिंग के लिए बहुत उचित है।
मैं Google का उपयोग करने की कोशिश करने के बारे में सोच रहा हूं word2vec
क्योंकि मुझे पूरा यकीन है कि यह बहुत कम आयामी और अधिक घने एम्बेडिंग पैदा करता है। लेकिन इससे पहले, क्या कोई अन्य एम्बेडिंग हैं जो पहले नज़र डाल सकते हैं? प्रमुख आवश्यकता लगभग 60 मिलियन वाक्यांशों (पंक्तियों) को स्केल करने में सक्षम होगी।
मैं शब्द एम्बेडिंग के क्षेत्र में बहुत नया हूँ इसलिए कोई सलाह मदद करेगी।
मुझे यह भी जोड़ना चाहिए कि मैं प्रदर्शन में सुधार करने के लिए पहले से ही एकवचन मूल्य अपघटन का उपयोग कर रहा हूं।