मैं दस्तावेजों को वर्गीकृत करने के लिए सीएनएन (कन्वेन्शनल न्यूरल नेटवर्क) का उपयोग करने की कोशिश कर रहा हूं। कई पाठों में लघु पाठ / वाक्यों के लिए सीएनएन का अध्ययन किया गया है। हालांकि, ऐसा लगता है कि किसी भी कागजात ने लंबे पाठ या दस्तावेज़ के लिए सीएनएन का उपयोग नहीं किया है।
मेरी समस्या यह है कि एक दस्तावेज से बहुत अधिक विशेषताएं हैं। मेरे डेटासेट में, प्रत्येक दस्तावेज़ में 1000 से अधिक टोकन / शब्द हैं। प्रत्येक उदाहरण को एक सीएनएन को खिलाने के लिए, मैं प्रत्येक दस्तावेज़ को मैट्रिक्स में बदलकर वर्ड 2vec या दस्ताने का उपयोग करके एक बड़ा मैट्रिक्स बनाता हूं । प्रत्येक मैट्रिक्स के लिए, ऊंचाई दस्तावेज़ की लंबाई है, और चौड़ाई शब्द एम्बेडिंग वेक्टर का आकार है। मेरे डेटासेट के 9000 से अधिक उदाहरण हैं और नेटवर्क (एक पूरे सप्ताह) को प्रशिक्षित करने में बहुत समय लगता है, जिससे फाइन-ट्यून पैरामीटर को ठीक करना मुश्किल हो जाता है।
एक और विशेषता निकालने की विधि प्रत्येक शब्द के लिए एक-गर्म वेक्टर का उपयोग करना है, लेकिन यह बहुत विरल मैट्रिस पैदा करेगा। और हां, इस विधि को पिछली पद्धति की तुलना में प्रशिक्षित करने में अधिक समय लगता है।
तो क्या बड़े इनपुट मैट्रिसेस बनाए बिना फीचर्स को निकालने का बेहतर तरीका है?
और हमें दस्तावेजों की चर लंबाई को कैसे संभालना चाहिए? वर्तमान में, मैं दस्तावेज़ बनाने के लिए विशेष तार जोड़ता हूं, जिसकी लंबाई समान है, लेकिन मुझे नहीं लगता कि यह एक अच्छा समाधान है।