एनएलपी - एक रोक शब्द क्यों "नहीं" है?


18

मैं विषय मॉडलिंग करने से पहले स्टॉप शब्द हटाने की कोशिश कर रहा हूं। मैंने देखा कि कुछ नकारात्मक शब्दों (नहीं, नहीं, कभी नहीं, कोई भी नहीं ..) को आमतौर पर शब्दों को रोकने के लिए माना जाता है। उदाहरण के लिए, एनएलटीके, स्पाइस और स्केलेर में उनके स्टॉप शब्द सूची में "नहीं" शामिल हैं। हालांकि, अगर हम नीचे दिए गए इन वाक्यों से "नहीं" हटाते हैं, तो वे महत्वपूर्ण अर्थ खो देते हैं और यह विषय मॉडलिंग या भावना विश्लेषण के लिए सटीक नहीं होगा।

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

क्या कोई यह बता सकता है कि इन नकारात्मक शब्दों को आमतौर पर शब्दों को रोकने के लिए क्यों माना जाता है?


2
यदि आप वाक्यों का शब्दार्थ विश्लेषण कर रहे हैं, तो स्पष्ट रूप से तार्किक संयोजकता महत्वपूर्ण है: (1) यदि नहीं (2)। यदि आप इन वाक्यों के तर्क को मॉडल करना चाहते हैं, तो उन्हें स्टॉप बैग से बाहर रखें। वे आम तौर पर वहाँ फेंक दिए जाते हैं क्योंकि एक डेटा माइनिंग बिंदु से, एक दस्तावेज़ में 'नहीं' की उपस्थिति हमें अन्य दस्तावेजों से इसे अलग करने में मदद करने के लिए विषय के बारे में बहुत कुछ नहीं बताने जा रही है; यह काफी दुर्लभ नहीं है। Nlp के कार्यों में इनकी अनदेखी करने के अन्य कारण हैं।
हुनान रोस्टोमैन

जवाबों:


20

स्टॉप शब्द आमतौर पर "एक भाषा में सबसे आम शब्द" के रूप में सोचा जाता है। हालांकि, विभिन्न कार्यों के आधार पर अन्य परिभाषाएं संभव हैं।

यदि आपका कार्य शब्द आवृत्तियों (जैसे दस्तावेज़ वर्गीकरण के लिए tf-idf विश्लेषण) पर आधारित है, तो यह स्पष्ट रूप से 'रोक' के रूप में विचार करने के लिए समझ में आता है ।

यदि आप पाठ के संदर्भ (उदाहरण के लिए भावना विश्लेषण ) से संबंधित हैं, तो यह नकारात्मक शब्दों को अलग तरीके से व्यवहार करने के लिए समझ में आता है। निषेध तथाकथित बदल जाता संयोजक एक पाठ की। यह सावधानी से इलाज करने की आवश्यकता है और आमतौर पर तुच्छ नहीं है। एक उदाहरण ट्विटर निगेटिव कॉर्पस होगा। इस पत्र में दृष्टिकोण की व्याख्या दी गई है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.