एनएलपी - एक रोक शब्द क्यों "नहीं" है?

मैं विषय मॉडलिंग करने से पहले स्टॉप शब्द हटाने की कोशिश कर रहा हूं। मैंने देखा कि कुछ नकारात्मक शब्दों (नहीं, नहीं, कभी नहीं, कोई भी नहीं ..) को आमतौर पर शब्दों को रोकने के लिए माना जाता है। उदाहरण के लिए, एनएलटीके, स्पाइस और स्केलेर में उनके स्टॉप शब्द सूची में "नहीं" शामिल हैं। हालांकि, अगर हम नीचे दिए गए इन वाक्यों से "नहीं" हटाते हैं, तो वे महत्वपूर्ण अर्थ खो देते हैं और यह विषय मॉडलिंग या भावना विश्लेषण के लिए सटीक नहीं होगा।

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

क्या कोई यह बता सकता है कि इन नकारात्मक शब्दों को आमतौर पर शब्दों को रोकने के लिए क्यों माना जाता है?

nlp topic-model sentiment-analysis

— EK
स्रोत

यदि आप वाक्यों का शब्दार्थ विश्लेषण कर रहे हैं, तो स्पष्ट रूप से तार्किक संयोजकता महत्वपूर्ण है: (1) यदि नहीं (2)। यदि आप इन वाक्यों के तर्क को मॉडल करना चाहते हैं, तो उन्हें स्टॉप बैग से बाहर रखें। वे आम तौर पर वहाँ फेंक दिए जाते हैं क्योंकि एक डेटा माइनिंग बिंदु से, एक दस्तावेज़ में 'नहीं' की उपस्थिति हमें अन्य दस्तावेजों से इसे अलग करने में मदद करने के लिए विषय के बारे में बहुत कुछ नहीं बताने जा रही है; यह काफी दुर्लभ नहीं है। Nlp के कार्यों में इनकी अनदेखी करने के अन्य कारण हैं।

— हुनान रोस्टोमैन

स्टॉप शब्द आमतौर पर "एक भाषा में सबसे आम शब्द" के रूप में सोचा जाता है। हालांकि, विभिन्न कार्यों के आधार पर अन्य परिभाषाएं संभव हैं।

यदि आपका कार्य शब्द आवृत्तियों (जैसे दस्तावेज़ वर्गीकरण के लिए tf-idf विश्लेषण) पर आधारित है, तो यह स्पष्ट रूप से 'रोक' के रूप में विचार करने के लिए समझ में आता है ।

यदि आप पाठ के संदर्भ (उदाहरण के लिए भावना विश्लेषण ) से संबंधित हैं, तो यह नकारात्मक शब्दों को अलग तरीके से व्यवहार करने के लिए समझ में आता है। निषेध तथाकथित बदल जाता संयोजक एक पाठ की। यह सावधानी से इलाज करने की आवश्यकता है और आमतौर पर तुच्छ नहीं है। एक उदाहरण ट्विटर निगेटिव कॉर्पस होगा। इस पत्र में दृष्टिकोण की व्याख्या दी गई है ।

— oW_
स्रोत