डीप लर्निंग लाइब्रेरी का उपयोग करके टेक्स्ट से कीवर्ड / वाक्यांश निष्कर्षण


20

शायद यह बहुत व्यापक है, लेकिन मैं एक पाठ संक्षेपण कार्य में गहन सीखने का उपयोग करने के संदर्भों की तलाश कर रहा हूं।

मैंने पहले ही मानक शब्द-आवृत्ति दृष्टिकोण और वाक्य-रैंकिंग का उपयोग करके पाठ संक्षेपण लागू कर दिया है, लेकिन मैं इस कार्य के लिए गहन शिक्षण तकनीकों का उपयोग करने की संभावना तलाशना चाहता हूं। मैं सेंटिमल न्यूरल नेटवर्क्स (CNN) सेंटिमेंट एनालिसिस का उपयोग करते हुए wildml.com पर दिए गए कुछ कार्यान्वयनों से गुज़रा हूँ ; मैं जानना चाहता हूं कि टेक्स्ट सारांश और कीवर्ड निष्कर्षण के लिए TensorFlow या Theano जैसी लाइब्रेरी का उपयोग कैसे किया जा सकता है। इसका लगभग एक सप्ताह हो गया है क्योंकि मैंने न्यूरल नेट्स के साथ प्रयोग करना शुरू कर दिया है, और मैं वास्तव में यह देखने के लिए उत्साहित हूं कि इन पुस्तकालयों का प्रदर्शन इस समस्या के लिए मेरे पिछले दृष्टिकोणों की तुलना कैसे करता है।

मैं विशेष रूप से इन रूपरेखाओं का उपयोग करते हुए पाठ संक्षेप से संबंधित कुछ दिलचस्प कागजात और गीथब परियोजनाओं की तलाश कर रहा हूं। क्या कोई मुझे कुछ संदर्भ प्रदान कर सकता है?

जवाबों:


15

Google शोध ब्लॉग के संदर्भ में उपयोगी होना चाहिए TensorFlow

उपरोक्त लेख में, एनोटेट अंग्रेजी गिगाओर्ड डेटासेट का संदर्भ दिया गया है जो नियमित रूप से पाठ संक्षेप के लिए उपयोग किया जाता है।

न्यूट्रल नेटवर्क्स के साथ सीक्वेंस टू सीक्वेंस लर्निंग का शीर्षक Sutskever et al द्वारा 2014 का पेपर आपकी यात्रा पर एक सार्थक शुरुआत हो सकती है क्योंकि यह पता चलता है कि छोटे पाठों के लिए, सारांश को एक गहरी तकनीक तकनीक के साथ अंत-टू-एंड सीखा जा सकता है।

अंत में, यहाँ एक महान गीथूब रिपॉजिटरी है, जिसमें टेन्सरफ्लो का उपयोग करते हुए पाठ संक्षेप का प्रदर्शन किया गया है।


16

यह अनुसंधान का एक खुला क्षेत्र है और यह निश्चित रूप से आपके द्वारा समस्या को निर्धारित करने के तरीके पर निर्भर करता है। यदि आप मल्टी-डॉक्यूमेंट सारांश के बारे में बात कर रहे हैं, तो समस्या थोड़ी अलग है यदि आप एकल-दस्तावेज़ सारांश के बारे में बात कर रहे थे।

यह साहित्य की संक्षिप्त समीक्षा के लायक है।

यू / सोसायटी ऑफ़ डेटा साइंटिस्ट्स द्वारा प्रदान किया गया लिंक बहुत अच्छा है और यह एक एकल दस्तावेज़ में अमूर्त संक्षेपण कार्य के लिए उपयोगी है । एक्स्ट्रेक्टिव सारांश पर भी काम किया जाता है , जो निकालने के लिए महत्वपूर्ण वाक्यों की पहचान करता है।

रश एट। अल अटेंशन के साथ अमूर्त सारांश पर एक अच्छा पेपर है , जो गहन सीखने पर आधारित है।

एक निवारक सारांश के लिए, आप अपने वर्गीकरण का निर्माण करने के लिए एक LSTM का उपयोग कर सकते हैं और मानक TensorFlow / मशाल पुस्तकालयों का उपयोग कर सकते हैं, लेकिन इस दृष्टिकोण के लिए गहन सीखने का उपयोग करने पर कोई वर्तमान प्रकाशन नहीं लगता है।

यहाँ कुछ अतिरिक्त गिटहब रेपो हैं:


धन्यवाद @franciscojavierarceo मैं उपर्युक्त कागजात को देखूंगा।
shanky_thebearer

4

यदि आप महत्वपूर्ण शब्दों की तलाश कर रहे हैं तो इस तरह की ध्वनियाँ अधिक सार संक्षेपण हैं। यहां कुछ कागजात दिए गए हैं, जिन पर शायद अमल है:

वाक्य और शब्दों को निकालकर तंत्रिका संक्षेप

डीप लर्निंग का उपयोग करते हुए एक्सट्रैक्टिव सारांश

इस क्षेत्र में एंबेडिंग के माध्यम से पाठ वर्गीकरण के लिए अर्ध-पर्यवेक्षित संवादी तंत्रिका नेटवर्क

इसके अलावा, SpaCy (संबद्ध नहीं) में पाठ निष्कर्षण कार्यों की सामान्य वास्तुकला पर एक अच्छा ब्लॉग है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.