Gensim Word2Vec कार्यान्वयन में युगों की संख्या


14

Word2Vec कार्यान्वयन iterमें एक पैरामीटर हैgensim

class gensim.models.word2vec.Word2Vec (वाक्य = कोई नहीं, आकार = 100, अल्फा = 0.025, खिड़की = 5, min_count = 5, max_vocab_size = कोई नहीं, नमूना = 0, बीज = 1, श्रमिक = 1, min_alpha = 0.0001, sg = 1, hs = 1, ऋणात्मक = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = कोई नहीं, Sorted_vocab = 1)

यह युगों की संख्या निर्दिष्ट करता है, अर्थात:

iter = कॉर्पस पर पुनरावृत्तियों (युगों) की संख्या।

क्या किसी को पता है कि क्या कॉर्पस के ऊपर मॉडल को बेहतर बनाने में मदद मिलती है?

क्या iterडिफ़ॉल्ट रूप से 1 पर सेट होने का कोई कारण है? क्या नहीं को बढ़ाने में बहुत प्रभाव है। युगों का?

क्या कोई सेट करने के लिए कोई वैज्ञानिक / अनुभवजन्य मूल्यांकन है। युगों का?

वर्गीकरण / प्रतिगमन कार्य के विपरीत, ग्रिड खोज विधि वास्तव में काम नहीं करेगी क्योंकि वैक्टर एक असुरक्षित तरीके से उत्पन्न होते हैं और उद्देश्य फ़ंक्शन केवल या तो पदानुक्रमित सॉफ्टमैक्स या नकारात्मक नमूनाकरण द्वारा होता है।

वहाँ कोई जल्दी कटौती तंत्र को कम करने के लिए नहीं है। एक बार जब वैक्टर परिवर्तित हो जाता है? और क्या पदानुक्रमित सॉफ्टमैक्स या नकारात्मक नमूनाकरण उद्देश्य परिवर्तित हो सकता है?

जवाबों:


5

युगों की संख्या बढ़ने से आमतौर पर शब्द प्रतिनिधित्व की गुणवत्ता में लाभ होता है। प्रयोगों में मैंने प्रदर्शन किया है जहां लक्ष्य एम्बेडिंग शब्द का उपयोग करना था क्योंकि पाठ वर्गीकरण के लिए 5 के बजाय 15 के लिए युगों की स्थापना के लिए सुविधाओं ने प्रदर्शन को बढ़ाया।


2

मैंने यहां देखा , और पाया कि डिफ़ॉल्ट मान 1 से 5 में बदल गया है। जाहिर है कि लेखक मानते हैं कि अधिक युगों के परिणाम में सुधार होगा

मैं अनुभव से नहीं बता सकता, फिर भी।


2

मैंने अपने w2v मॉडल को Google समाचार 300 पर [2, 10, 100] युगों के लिए प्रशिक्षित किया और सर्वश्रेष्ठ 10 युगों में था। उस सभी इंतजार के बाद, मैं हैरान था कि 100 युग खराब थे।

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

नाटकीय रूप से पुनरावृत्ति बढ़ जाती है (गणना की अवधि) की संख्या बढ़ रही है। Word2Vec गुणवत्ता परिणाम केवल तभी देता है जब आप एक बड़े पैमाने पर दस्तावेज़ फ़ीड करते हैं, इसलिए उन पर दो बार भी लूप करना उचित नहीं है, हालांकि यह वास्तव में परिणामी शब्द एम्बेडिंग को अधिक सटीक बनाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.